Är normalkurvan normal?
Jag såg nyligen en artikel där man kallade normalkurvan för dataforskarens bästa vän, och det är säkert sant att normalfördelningen är allestädes närvarande i klassisk statistisk teori. Ändå är den överskattad.
Myt nr 1: De flesta data är normalfördelade
En stunds eftertanke visar att så inte är fallet. För det första är många data i binär form – överleva/dö, klicka/inte klicka, köpa/inte köpa, bedrägeri/inte bedrägeri osv. Även uppgifter som ofta nämns som exempel på normala uppgifter är det inte – till exempel människors längd. Ett histogram över höjder kommer att visa en bula till vänster om mitten – barn. Om man tar bort barn har man fortfarande olika medelvärden för män och kvinnor och för människor i olika länder. Först när man definierar gruppen strikt och homogent – till exempel vuxna män i Guatemala – blir fördelningen normal (och denna definitionsprocess styrs av att man identifierar vad som inte är normalt i den större fördelningen).
IQ-poäng illustrerar denna myt väl. Det finns ingen klockformad normalfördelning som är mer ikonisk än IQ-poäng. Folk tenderar att tro att IQ är normalfördelat, men det är egentligen bara IQ-poäng som är normalfördelade, IQ i sig är ett något nebulöst begrepp som bara existerar i konkret form i sitt mått.
Och hur får IQ-poäng att vara normalfördelade? Frågorna i IQ-testerna ändras, läggs till och tas bort så att poängen inte blir för mycket i den låga eller höga delen, utan fördelas snyggt i en klockformad normalfördelning.
(Se den historiska anmärkningen nedan om ”felfördelning” för en viktig distinktion mellan fördelningen av de ursprungliga uppgifterna och fördelningen av residualer.)
Myt nr 2: Normalfördelningen är central för den statistiska teorin
Det skulle vara mer korrekt att säga att i den klassiska statistiken (dvs. statistiken före datorerna) var normalfördelningen och dess kusin, t-fördelningen, viktiga approximationer. År 1908 publicerade William Gosset (”student”) sin banbrytande Biometrika-artikel (”The Probable Error of the Mean”) där han introducerade t-fördelningen.
Det är värt att läsa (till höger) Gossets motivering för att använda normalfördelningen som grund för att approximera sanna fördelningar – bekvämlighet. Eller, som Efron och Hastie uttryckte det (i Computer Age Statistical Inference), ”mathematical tractability.”
Gosset var intresserad av hur olika ett prov kan vara från ett annat, när det tas från samma population. Han började med att på kort notera längden på långfingrarna hos 3 000 fängelsefångar – uppgifterna var tillgängliga eftersom forskare vid den tiden var mycket intresserade av att korrelera fysiska egenskaper med mentala egenskaper och kriminella tendenser. Han fortsatte med att dra ut på varandra följande stickprov om fyra personer och noterade medelvärdet. Han avslutade med att tabellera ett frekvenshistogram, som visas nedan.
Du kan se hur han sedan passade sin normalformade (egentligen t) approximation till data. År 1908 förenklade detta avsevärt uppgiften att göra beräkningar baserade på stickprovsfördelningar, eftersom ingen hade tid att dra ut stickprov av kort tusentals gånger. Numera gör dock resamplingmetoder (permutationsförfaranden och bootstrap) ett bra jobb när det gäller att approximera sanna samplingfördelningar, och utan att förlita sig på antaganden om normalitet. Uppgiften att dra tusentals stickprov och arbeta med resultaten är nu trivial.
I själva verket har tillkomsten av beräkningskraft kraftigt utvidgat statistikens område så långt bortom de normalteoribaserade inferensförfarandena att normala approximationer nu bara är ett användbart, om än knappast centralt, verktyg i en ständigt växande verktygslåda.
Myt nr 3: Normalisering av data gör dem normalfördelade
Normalisering eller standardisering av data används ofta i analytiska förfaranden så att den skala på vilken data mäts inte påverkar resultaten. Om vi till exempel försöker hitta kluster i data använder analysen ”avståndet mellan poster” som ett nyckelmått. Vi vill vanligtvis inte att våra resultat ska skilja sig åt beroende på vilket mått (t.ex. meter eller kilometer) som används, men det kommer att hända om vi använder rådata. Det finns flera olika sätt att placera data på samma skala, och ett vanligt sätt är att subtrahera medelvärdet och dividera med standardavvikelsen. Detta kallas också z-score och gör det möjligt att jämföra data med en vanlig normalfördelning.
Normalisering av data på detta sätt gör dock inte att data blir normalfördelade. Uppgifterna kommer att behålla den allmänna form de hade före justeringen.
Historisk anmärkning: ”Felfördelningen”
Normalfördelningen kallades ursprungligen för ”felfördelning” och tillämpades på avvikelser från medelvärdet i astronomiska observationer. Och det var faktiskt detta begrepp om normalfördelningen av fel (residualer), snarare än de ursprungliga uppgifterna, som ledde till den ursprungliga breda tillämpningen av normalteorin inom statistiken.