3 myyttiä normaalijakaumasta

author
3 minutes, 17 seconds Read

Onko normaalikäyrä normaali?

Näin hiljattain artikkelin, jossa puhuttiin normaalikäyrästä tietojenkäsittelytieteilijän parhaana kaverina, ja on varmasti totta, että normaalijakauma on kaikkialla läsnä klassisessa tilastoteoriassa. Silti se on yliarvostettu.

Myytti #1: Suurin osa datasta on normaalijakautunutta

Hetken pohdiskelu osoittaa, että näin ei ole. Ensinnäkin monet tiedot ovat binäärimuodossa – selviytyvät/kuolevat, klikkaavat/ei klikkaa, ostavat/ei osta, petos/ei petosta jne. Jopa tiedot, jotka usein mainitaan esimerkkeinä normaaleista tiedoista, eivät ole sitä – esimerkiksi ihmisten pituudet. Pituushistogrammissa näkyy kuoppa keskipisteen vasemmalla puolella – lapset. Jos lapset poistetaan, miesten ja naisten ja eri maiden asukkaiden keskiarvot eroavat edelleen toisistaan. Vasta kun ryhmä määritellään tiukasti ja homogeenisesti – esimerkiksi aikuiset miehet Guatemalassa – jakaumasta tulee normaali (ja tätä määrittelyprosessia ohjaa sen tunnistaminen, mikä laajemmassa jakaumassa ei ole normaalia).

IQ-pisteet havainnollistavat hyvin tätä myyttiä. Mikään kellonmuotoinen normaalijakauma ei ole niin ikoninen kuin IQ-pisteet. Ihmisillä on tapana ajatella ÄO:n olevan normaalijakautunut, mutta oikeastaan vain ÄO-pisteet ovat normaalijakautuneita, sillä ÄO itsessään on jokseenkin epämääräinen käsite, joka on konkreettisesti olemassa vain mittaristossaan.

Ja miten ÄO-pisteet ovat normaalijakautuneita? Älykkyystestien kysymyksiä muokataan, lisätään ja jätetään pois niin, että pisteet eivät kasaannu liikaa alhaalla tai ylhäällä, vaan ne jakautuvat kauniisti kellonmuotoiseen normaalijakaumaan.

(Katso alla oleva historiallinen huomautus ”virhejakaumasta” tärkeästä erosta alkuperäisen datan jakauman ja jäännösjakauman välillä.))

Myytti nro 2: Normaalijakauma on keskeinen tilastollisessa teoriassa

Tarkempaa olisi sanoa, että klassisessa tilastotieteessä (eli ennen tietokonetilastoja) normaalijakauma ja sen serkku, t-jakauma, olivat olennaisia approksimaatioita. Vuonna 1908 William Gosset (”opiskelija”) julkaisi uraauurtavan Biometrika-artikkelinsa (”The Probable Error of the Mean”), jossa hän esitteli t-jakauman.

On syytä lukea (oikealla) Gossetin perustelu sille, että hän käytti normaalijakaumaa todellisten jakaumien approksimoinnin perustana – mukavuus. Tai, kuten Efron ja Hastie sanovat (teoksessa Computer Age Statistical Inference), ”matemaattinen käsiteltävyys.”

Gosset oli kiinnostunut siitä, kuinka paljon yksi otos voi poiketa toisesta, kun se on otettu samasta populaatiosta. Hän aloitti merkitsemällä kortteihin 3000 vankilavangin keskisormen pituudet – tiedot olivat saatavilla, koska tuohon aikaan tutkijat olivat hyvin kiinnostuneita fyysisten ominaisuuksien korreloinnista henkisten ominaisuuksien ja rikollisuuteen taipumusten kanssa. Jatkossa hän poimi peräkkäisiä neljän hengen otoksia ja merkitsi ylös keskiarvon. Lopuksi hän taulukoi taajuushistogrammin, joka näkyy alla.

Voit nähdä, miten hän sovitti normaalinmuotoisen (itse asiassa t-) approksimaationsa tietoihin. Vuonna 1908 tämä yksinkertaisti huomattavasti otantajakaumiin perustuvien laskelmien tekemistä, sillä kenelläkään ei ollut aikaa ottaa otoksia korteista tuhansia kertoja. Nykyään uudelleen näytteenottomenetelmät (permutaatiomenetelmät ja bootstrap) tekevät kuitenkin hyvää työtä todellisten näytteenottojakaumien approksimoimiseksi ilman, että ne tukeutuvat normaalisuusoletuksiin. Tuhansien otosten ottaminen ja tulosten käsittely on nykyään triviaalia.

Itse asiassa laskentatehon tulo on laajentanut tilastotieteen alaa niin paljon normaaliteoriaan perustuvien päättelymenetelmien ulkopuolelle, että normaalin approksimaatio on nykyään vain hyödyllinen, vaikkakaan tuskin keskeinen, työkalu alati laajenevassa työkalupakissa.

Myytti #3: Datan normalisointi tekee siitä normaalijakautunutta

Datan normalisointia tai standardointia käytetään usein analyysimenetelmissä, jotta mittakaava, jolla data mitataan, ei vaikuttaisi tuloksiin. Jos yritämme esimerkiksi löytää datasta klustereita, analyysissä käytetään ”tietueiden välistä etäisyyttä” keskeisenä mittarina. Emme yleensä halua, että tuloksemme eroavat toisistaan sen mukaan, mitä metriikkaa (esim. metriä tai kilometriä) käytetään, mutta näin tapahtuu, jos käytämme raakadataa. On olemassa useita eri tapoja asettaa tiedot samaan mittakaavaan, ja yksi yleinen tapa on vähentää keskiarvo ja jakaa se keskihajonnalla. Tätä kutsutaan myös z-pistemääräksi, ja sen avulla voit verrata dataa normaalijakaumaan.

Datan normalisointi tällä tavalla ei kuitenkaan tee datasta normaalijakautunutta. Aineisto säilyttää sen yleisen muodon, joka sillä oli ennen oikaisua.

Historiallinen huomautus: ”Virhejakauma”

Normaalijakaumaa kutsuttiin alun perin ”virhejakaumaksi”, ja sitä sovellettiin tähtitieteellisten havaintojen poikkeamiin keskiarvosta. Ja juuri tämä käsite virheiden (residuaalien) normaalijakaumasta, eikä niinkään alkuperäisestä datasta, johti siihen, että normaaliteoriaa alun perin sovellettiin laajasti tilastotieteessä.

Similar Posts

Vastaa

Sähköpostiosoitettasi ei julkaista.