Er den normale kurve normal?
Jeg så for nylig en artikel, der omtalte normalkurven som datalogens bedste ven, og det er helt sikkert rigtigt, at normalfordelingen er allestedsnærværende i klassisk statistisk teori. Alligevel er den overvurderet.
Myt nr. 1: De fleste data er normalfordelte
Et øjebliks eftertanke vil vise, at dette ikke er tilfældet. For det første er mange data i binær form – overleve/dø, klikke/ikke klikke, købe/ikke købe, svindel/ikke svindel osv. Selv data, der ofte nævnes som eksempler på normale data, er det ikke – f.eks. menneskers højde. Et histogram over højder vil vise en bule til venstre for midten – børn. Hvis man fjerner børn, har man stadig forskellige middelværdier for mænd og kvinder og for folk i forskellige lande. Først når man definerer gruppen strengt og homogent – f.eks. voksne mænd i Guatemala – bliver fordelingen normal (og denne definitionsproces styres ved at identificere, hvad der ikke er normalt i den større fordeling).
IQ-scoringer illustrerer denne myte godt. Der findes ingen klokkeformet normalfordeling, der er mere ikonisk end IQ-scoringer. Folk har en tendens til at tænke på IQ som værende normalfordelt, men det er i virkeligheden kun IQ-scoringer, der er normalfordelt, idet IQ i sig selv er et noget tåget begreb, der kun eksisterer i konkret form i sin metrik.
Og hvordan kommer IQ-scoringer til at være normalfordelte? Spørgsmålene i IQ-testene bliver justeret, tilføjet og udeladt, så scoren ikke er for meget i den lave eller høje ende, men er pænt fordelt i en klokkeformet normalfordeling.
(Se den historiske note nedenfor om “fejlfordeling” for en vigtig skelnen mellem fordelingen af de oprindelige data og fordelingen af residualer.)
Myt nr. 2: Normalfordelingen er central for statistisk teori
Det ville være mere korrekt at sige, at i den klassiske statistik (dvs. før computerstatistikken) var normalfordelingen og dens fætter, t-fordelingen, væsentlige tilnærmelser. I 1908 offentliggjorde William Gosset (“student”) sin banebrydende Biometrika-artikel (“The Probable Error of the Mean”), hvori han introducerede t-fordelingen.
Det er værd at læse (til højre) Gossets begrundelse for at bruge normalfordelingen som grundlag for tilnærmelse af sande fordelinger – bekvemmelighed. Eller, som Efron og Hastie udtrykker det (i Computer Age Statistical Inference), “mathematical tractability.”
Gosset var interesseret i, hvor forskellig en prøve kan være fra en anden, når den er udtaget fra den samme population. Han startede med at notere længden af 3.000 fængselsfangers langfingre på kort – dataene var tilgængelige, fordi forskerne på det tidspunkt var meget interesserede i at korrelere fysiske træk med mentale træk og kriminelle tendenser. Han fortsatte med at udtage efterfølgende stikprøver på fire og noterede gennemsnittet. Han sluttede af med at opstille et frekvenshistogram, som er vist nedenfor.
Du kan se, hvordan han derefter tilpassede sin normalformede (faktisk t) tilnærmelse til dataene. I 1908 forenklede dette i høj grad opgaven med beregninger baseret på stikprøvefordelinger, da ingen havde tid til at udtrække stikprøver af kort tusindvis af gange. I dag gør resamplingmetoder (permutationsprocedurer og bootstrap) imidlertid et godt stykke arbejde med at tilnærme sig de sande stikprøvefordelinger, og det uden at basere sig på antagelser om normalitet. Opgaven med at udtage tusindvis af stikprøver og arbejde med resultaterne er nu triviel.
Faktisk har fremkomsten af computerkraft i høj grad udvidet statistikkens område så langt ud over de normalteoribaserede inferensprocedurer, at normale approksimationer nu blot er et nyttigt, om end næppe centralt, værktøj i en stadig voksende værktøjskasse.
Myt nr. 3: Normalisering af data gør dem normalfordelte
Normalisering eller standardisering af data anvendes ofte i analytiske procedurer, således at den skala, som dataene måles på, ikke påvirker resultaterne. Hvis vi f.eks. forsøger at finde klynger i data, bruger analysen “afstanden mellem registreringer” som en nøglemetrik. Vi ønsker normalt ikke, at vores resultater skal være forskellige, alt efter hvilken metrik (f.eks. meter eller kilometer) der er anvendt, men det vil ske, hvis vi bruger de rå data. Der er flere forskellige måder at placere data på samme skala på, og en almindelig måde er at trække gennemsnittet fra og dividere med standardafvigelsen. Dette kaldes også en z-score, og det giver mulighed for at sammenligne dataene med en standard normalfordeling.
Normalisering af dataene på denne måde vil dog ikke gøre dataene normalfordelte. Dataene vil beholde den generelle form, de havde før justeringen.
Historisk note: “Fejlfordelingen”
Normalfordelingen blev oprindeligt kaldt “fejlfordelingen” og blev anvendt på afvigelser fra middelværdien i astronomiske observationer. Og det var faktisk dette begreb om normalfordelingen af fejl (residualer), snarere end de oprindelige data, der var drivkraften bag den oprindelige brede anvendelse af normalteorien inden for statistik.