3 mituri despre distribuția normală

author
4 minutes, 41 seconds Read

Curba normală este normală?

Am văzut recent un articol care se referea la curba normală ca fiind cel mai bun prieten al cercetătorului de date, și cu siguranță este adevărat că distribuția normală este omniprezentă în teoria statistică clasică. Cu toate acestea, este supraestimată.

Mitul nr. 1: Majoritatea datelor sunt distribuite normal

Un moment de reflecție va arăta că nu este așa. În primul rând, multe date se prezintă sub formă binară – supraviețuiește/moare, face clic/nu face clic, cumpără/nu cumpără, fraudă/nu face fraudă etc. Chiar și datele care sunt frecvent citate ca exemple de date normale nu sunt – înălțimea oamenilor, de exemplu. O histogramă a înălțimilor va arăta o umflătură în stânga centrului – copiii. Eliminând copiii, veți avea în continuare medii diferite pentru bărbați și femei și pentru persoane din diferite țări. Doar atunci când definiți grupul în mod strict și omogen – bărbații adulți din Guatemala, de exemplu – distribuția devine normală (iar acest proces de definire este ghidat de identificarea a ceea ce nu este normal în distribuția mai mare).

Scorele IQ ilustrează bine acest mit. Nu există o distribuție normală în formă de clopot mai emblematică decât scorurile IQ. Oamenii tind să se gândească la IQ ca fiind normal distribuit, dar în realitate doar scorurile IQ sunt normal distribuite, IQ-ul în sine fiind un concept oarecum nebulos, existând în formă concretă doar în metrica sa.

Și cum ajung scorurile IQ să fie normal distribuite? Întrebările de la testele de IQ sunt modificate, adăugate și eliminate astfel încât scorurile să nu se adune prea mult la capătul cel mai mic sau cel mai mare, ci sunt frumos distribuite într-o distribuție normală în formă de clopot.

(A se vedea nota istorică de mai jos despre „distribuția erorilor” pentru o distincție importantă între distribuția datelor originale și distribuția reziduurilor.)

Mitul nr. 2: Distribuția normală este centrală în teoria statistică

Ar fi mai corect să spunem că, în statistica clasică (adică în statistica de dinainte de apariția calculatoarelor), distribuția normală și verișoara sa, distribuția t, au fost aproximări esențiale. În 1908, William Gosset („student”), a publicat lucrarea sa fundamentală Biometrika („Eroarea probabilă a mediei”), introducând distribuția t.

Merită citită (în dreapta) justificarea lui Gosset pentru utilizarea distribuției normale ca bază pentru aproximarea distribuțiilor adevărate – comoditate. Sau, după cum au spus Efron și Hastie (în Computer Age Statistical Inference), „tractabilitatea matematică.”

Gosset era interesat de cât de diferit poate fi un eșantion de altul, atunci când este extras din aceeași populație. El a început prin a nota pe cartonașe lungimea degetului mijlociu a 3.000 de deținuți din închisoare – datele erau disponibile deoarece, la acea vreme, oamenii de știință erau foarte interesați de corelarea trăsăturilor fizice cu trăsăturile mentale și cu tendințele criminale. În continuare, a extras eșantioane succesive de patru persoane, notând media. A terminat prin a tabula o histogramă de frecvențe, prezentată mai jos.

puteți vedea cum a ajustat apoi aproximarea sa în formă normală (de fapt t) la date. În 1908, acest lucru a simplificat foarte mult sarcina calculelor bazate pe distribuții de eșantionare, deoarece nimeni nu avea timp să extragă eșantioane de cărți de mii de ori. În zilele noastre, însă, metodele de reeșantionare (procedurile de permutare și bootstrap) fac o treabă bună în ceea ce privește aproximarea adevăratelor distribuții de eșantionare și fără să se bazeze pe ipotezele de normalitate. Sarcina de a extrage mii de eșantioane și de a lucra cu rezultatele este acum trivială.

De fapt, apariția puterii de calcul a extins cu mult domeniul statisticii, atât de mult dincolo de procedurile de inferență bazate pe teoria normală, încât aproximările normale sunt acum doar un instrument util, deși greu central, într-o cutie de instrumente în continuă expansiune.

Mitul nr. 3: Normalizarea datelor le face să fie distribuite normal

Normalizarea sau standardizarea datelor este adesea utilizată în procedurile analitice, astfel încât scara la care sunt măsurate datele să nu afecteze rezultatele. Dacă încercăm să găsim clustere în date, de exemplu, analiza utilizează „distanța dintre înregistrări” ca metrică cheie. De obicei, nu am dori ca rezultatele noastre să difere, în funcție de metrica utilizată (de exemplu, metri sau kilometri), dar acest lucru se va întâmpla dacă folosim datele brute. Există mai multe moduri diferite de a pune datele pe aceeași scală, iar un mod obișnuit este de a scădea media și de a o împărți la deviația standard. Acest lucru se mai numește și z-score și vă permite să comparați datele cu o distribuție normală standard.

Normalizarea datelor în acest mod nu va face, totuși, ca datele să fie distribuite normal. Datele vor păstra orice formă generală pe care o aveau înainte de ajustare.

Nota istorică: „Distribuția erorilor”

Distribuția normală a fost numită inițial „distribuția erorilor” și aplicată abaterilor de la medie în observațiile astronomice. Și a fost într-adevăr acest concept al distribuției normale a erorilor (reziduurilor), mai degrabă decât al datelor originale, cel care a determinat aplicabilitatea largă inițială a teoriei normale în statistică.

.

Similar Posts

Lasă un răspuns

Adresa ta de email nu va fi publicată.