A normális görbe normális?
A közelmúltban láttam egy cikket, amely a normális görbét az adattudós legjobb barátjának nevezte, és minden bizonnyal igaz, hogy a normális eloszlás mindenütt jelen van a klasszikus statisztikai elméletben. Mégis túlértékelik.
Mítosz #1: A legtöbb adat normális eloszlású
Egy pillanatnyi elmélkedésből kiderül, hogy ez nem így van. Először is, sok adat bináris formában van – túlélő/meghal, kattintás/nem kattintás, vásárlás/nem vásárlás, csalás/nem csalás stb. Még a gyakran a normális adatok példájaként említett adatok sem azok – például az emberek magassága. A magasságok hisztogramja a középponttól balra egy dudort fog mutatni – gyerekek. A gyerekeket leszámítva, még mindig eltérőek a férfiak és a nők, valamint a különböző országokban élő emberek átlagai. Csak akkor lesz normális az eloszlás, ha szigorúan és homogén módon határozzuk meg a csoportot – például a felnőtt férfiakat Guatemalában – (és a meghatározás folyamatát az irányítja, hogy meghatározzuk, mi nem normális a nagyobb eloszlásban).
Az IQ-értékek jól illusztrálják ezt a mítoszt. Nincs ikonikusabb harang alakú normális eloszlás, mint az IQ pontszámok. Az emberek hajlamosak azt gondolni, hogy az IQ normális eloszlású, de valójában csak az IQ-pontszámok normális eloszlásúak, maga az IQ egy kissé ködös fogalom, amely konkrétan csak a mérőszámában létezik.
És hogyan válnak az IQ-pontszámok normális eloszlásúvá? Az IQ-tesztek kérdéseit úgy módosítják, hozzáadják és elhagyják, hogy a pontszámok ne csomósodjanak túlságosan az alsó vagy a felső határon, hanem szépen eloszoljanak egy harang alakú normális eloszlásban.
(Lásd a “hibaeloszlásról” szóló alábbi történelmi megjegyzést az eredeti adatok eloszlása és a maradékok eloszlása közötti fontos különbségtételről.)
Mítosz #2: A normális eloszlás a statisztikai elmélet központi eleme
Pontosabb lenne azt mondani, hogy a klasszikus statisztikában (vagyis a számítógépes statisztika előtti statisztikában) a normális eloszlás és rokona, a t-eloszlás alapvető közelítések voltak. William Gosset (“diák”) 1908-ban publikálta a t-eloszlást bevezető, korszakalkotó Biometrika című tanulmányát (“The Probable Error of the Mean”).
Érdemes elolvasni (jobbra) Gosset indoklását, hogy miért a normáleloszlást használja a valós eloszlások közelítésének alapjául – kényelmi okokból. Vagy ahogy Efron és Hastie fogalmazott (a Computer Age Statistical Inference című könyvében): “matematikai követhetőség.”
Gosset-t az érdekelte, hogy az egyik minta mennyire különbözik a másiktól, ha ugyanabból a populációból húzzák. Azzal kezdte, hogy 3000 börtönlakó középső ujjának hosszát jegyezte fel kártyákra – az adatok azért álltak rendelkezésre, mert abban az időben a tudósokat nagyon érdekelte a fizikai tulajdonságok korrelációja a mentális tulajdonságokkal és a bűnözői hajlamokkal. A folytatásban négy egymást követő mintát vett ki, és feljegyezte az átlagot. Befejezésül egy gyakorisági hisztogramot készített, amely az alábbiakban látható.
Láthatjuk, hogyan illesztette ezután a normál alakú (valójában t) közelítést az adatokhoz. Ez 1908-ban nagyban leegyszerűsítette a mintavételes eloszlásokon alapuló számítások feladatát, hiszen senkinek sem volt ideje arra, hogy ezerszeres mintákat húzzon ki a lapokból. Manapság azonban az újramintázási módszerek (permutációs eljárások és a bootstrap) jó munkát végeznek a valódi mintavételi eloszlások közelítésében, és anélkül, hogy a normalitás feltételezésére támaszkodnának. A több ezer minta húzása és az eredményekkel való munka ma már triviális feladat.
Valójában a számítási teljesítmény megjelenésével a statisztika területe olyannyira túlnőtt a normálelméleten alapuló következtetési eljárásokon, hogy a normál közelítések ma már csak egy hasznos, bár aligha központi eszköznek számítanak az egyre bővülő eszköztárban.
3. mítosz: Az adatok normalizálása normális eloszlásúvá teszi azokat
Az adatok normalizálását vagy szabványosítását gyakran használják az analitikai eljárásokban, hogy az a skála, amelyen az adatokat mérik, ne befolyásolja az eredményeket. Ha például klasztereket próbálunk találni az adatokban, az elemzés a “rekordok közötti távolságot” használja kulcsfontosságú metrikaként. Általában nem szeretnénk, ha eredményeink eltérnének attól függően, hogy melyik metrikát (pl. méter vagy kilométer) használtuk, de ez megtörténik, ha a nyers adatokat használjuk. Az adatokat többféleképpen lehet azonos skálára helyezni, és az egyik gyakori módszer az, hogy kivonjuk az átlagot és elosztjuk a szórással. Ezt z-értéknek is nevezik, és lehetővé teszi, hogy az adatokat egy standard normális eloszláshoz hasonlítsuk.
Az adatok ilyen módon történő normalizálása azonban nem teszi az adatokat normális eloszlásúvá. Az adatok megtartják a kiigazítás előtti általános alakjukat.
Történeti megjegyzés: A “hibaeloszlás”
A normális eloszlást eredetileg “hibaeloszlásnak” nevezték, és a csillagászati megfigyelések átlagtól való eltéréseire alkalmazták. És valóban a hibák (maradékok) normális eloszlásának ez a koncepciója, nem pedig az eredeti adatoké volt az, ami a normális elmélet eredeti széleskörű alkalmazhatóságát a statisztikában elősegítette.