3 Mythes over de normale verdeling

author
3 minutes, 57 seconds Read

Is de normale curve normaal?

Ik zag onlangs een artikel waarin de normale curve de beste vriend van de data scientist werd genoemd, en het is zeker waar dat de normale verdeling alomtegenwoordig is in de klassieke statistische theorie. Toch wordt hij overschat.

Mythe #1: De meeste gegevens zijn normaal verdeeld

Een moment van bezinning zal aantonen dat dit niet het geval is. Ten eerste hebben veel gegevens een binaire vorm – overleven/sterven, klikken/niet klikken, kopen/niet kopen, fraude/geen fraude, enz. Zelfs gegevens die vaak als voorbeelden van normale gegevens worden aangehaald, zijn dat niet – de lichaamslengte van mensen, bijvoorbeeld. Een histogram van lichaamslengtes zal een knobbel vertonen links van het midden – kinderen. Als je kinderen weglaat, heb je nog steeds verschillende gemiddelden voor mannen en vrouwen, en mensen in verschillende landen. Alleen wanneer je de groep strikt en homogeen definieert – bijvoorbeeld volwassen mannen in Guatemala – wordt de verdeling normaal (en dat definitieproces wordt gestuurd door na te gaan wat niet normaal is in de grotere verdeling).

IQ-scores illustreren deze mythe goed. Er is geen klokvormige normale verdeling die iconischer is dan IQ-scores. Mensen hebben de neiging te denken dat IQ normaal verdeeld is, maar eigenlijk zijn alleen de IQ-scores normaal verdeeld, terwijl IQ zelf een ietwat nevelig concept is, dat alleen in de metriek in concrete vorm bestaat.

En hoe worden IQ-scores normaal verdeeld? De vragen op de IQ-tests worden aangepast, toegevoegd en geschrapt, zodat de scores niet te veel aan de lage of hoge kant hangen, maar mooi verdeeld zijn in een klokvormige normale verdeling.

(Zie de historische noot hieronder over de “foutenverdeling” voor een belangrijk onderscheid tussen de verdeling van de oorspronkelijke gegevens, en de verdeling van residuen.

mythe #2: De normale verdeling staat centraal in de statistische theorie

Het zou nauwkeuriger zijn om te zeggen dat in de klassieke statistiek (dat wil zeggen, de precomputer-statistiek) de normale verdeling, en zijn neefje, de t-verdeling, essentiële benaderingen waren. In 1908 publiceerde William Gosset (“student”) zijn baanbrekende Biometrika-paper (“The Probable Error of the Mean”) waarin hij de t-verdeling introduceerde.

Het is de moeite waard (rechts) Gossets rechtvaardiging te lezen voor het gebruik van de normale verdeling als basis voor het benaderen van ware verdelingen – gemak. Of, zoals Efron en Hastie het zeggen (in Computer Age Statistical Inference), “mathematical tractability.”

Gosset was geïnteresseerd in hoe verschillend het ene monster zou kunnen zijn van het andere, wanneer getrokken uit dezelfde populatie. Hij begon met het noteren op kaarten van de middelvingerlengte van 3000 gevangenen – de gegevens waren beschikbaar omdat wetenschappers in die tijd zeer geïnteresseerd waren in het correleren van lichamelijke eigenschappen met geestelijke eigenschappen en criminele neigingen. Vervolgens trok hij opeenvolgende steekproeven van vier, waarbij hij het gemiddelde noteerde. Tot slot stelde hij een frequentiehistogram op, dat hieronder is afgebeeld.

U kunt zien hoe hij vervolgens zijn normaalvormige (eigenlijk t) benadering op de gegevens toepaste. In 1908 maakte dit de berekeningen op basis van steekproefverdelingen een stuk eenvoudiger, omdat niemand tijd had om duizenden keren een steekproef van kaarten te trekken. Tegenwoordig benaderen resampling-methoden (permutatieprocedures, en de bootstrap) de echte steekproefverdelingen echter goed, en zonder te steunen op veronderstellingen van normaliteit. De taak om duizenden steekproeven te trekken en met de resultaten te werken is nu triviaal.

In feite heeft de komst van de computerkracht het gebied van de statistiek zo ver uitgebreid dat normale benaderingen nu slechts een nuttig, zij het nauwelijks centraal, gereedschap zijn in een steeds groter wordende gereedschapskist.

Mythe #3: Normalisatie van gegevens maakt ze normaal verdeeld

Normalisatie of standaardisatie van gegevens wordt vaak gebruikt in analytische procedures, zodat de schaal waarop de gegevens worden gemeten geen invloed heeft op de resultaten. Als wij bijvoorbeeld clusters in gegevens proberen te vinden, gebruikt de analyse de “afstand tussen records” als een belangrijke metriek. Wij zouden gewoonlijk niet willen dat onze resultaten verschillen naargelang van de gebruikte metriek (bv. meters of kilometers), maar dat zal gebeuren als wij de ruwe gegevens gebruiken. Er zijn verschillende manieren om gegevens op dezelfde schaal te zetten, en één veelgebruikte manier is het gemiddelde ervan af te trekken en te delen door de standaardafwijking. Dit wordt ook wel een z-score genoemd, en het stelt u in staat de gegevens te vergelijken met een standaard normale verdeling.

Normalisatie van de gegevens op deze manier zal de gegevens echter niet normaal verdeeld maken. De gegevens behouden hun algemene vorm van vóór de aanpassing.

Historische noot: De “foutenverdeling”

De normale verdeling werd oorspronkelijk de “foutenverdeling” genoemd, en toegepast op afwijkingen van het gemiddelde in astronomische waarnemingen. En het was inderdaad dit concept van de normale verdeling van fouten (residuen), in plaats van de oorspronkelijke gegevens, dat aan de basis lag van de oorspronkelijke brede toepasbaarheid van de normale theorie in de statistiek.

Similar Posts

Geef een antwoord

Het e-mailadres wordt niet gepubliceerd.