La curva normale è normale?
Ho visto un articolo di recente che si riferiva alla curva normale come la migliore amica dello scienziato dei dati, ed è certamente vero che la distribuzione normale è onnipresente nella teoria statistica classica. Tuttavia, è sopravvalutata.
Mito #1: La maggior parte dei dati sono distribuiti normalmente
Un momento di riflessione mostrerà che non è così. Prima di tutto, molti dati sono in forma binaria – sopravvivere/morire, cliccare/non cliccare, comprare/non comprare, frode/non frode, ecc. Anche i dati che sono spesso citati come esempi di dati normali non lo sono – le altezze delle persone, per esempio. Un istogramma di altezze mostrerà una protuberanza a sinistra del centro – i bambini. Togliendo i bambini, si hanno ancora mezzi diversi per uomini e donne, e persone in paesi diversi. Solo quando si definisce il gruppo in modo rigoroso e omogeneo – maschi adulti in Guatemala, per esempio – la distribuzione diventa normale (e questo processo di definizione è guidato dall’identificazione di ciò che non è normale nella distribuzione più ampia).
I punteggi del QI illustrano bene questo mito. Non c’è distribuzione normale a campana più iconica dei punteggi del QI. La gente tende a pensare al QI come normalmente distribuito, ma in realtà sono solo i punteggi del QI ad essere normalmente distribuiti, essendo il QI stesso un concetto piuttosto nebuloso, esistente in forma concreta solo nella sua metrica.
E come fanno i punteggi del QI ad essere normalmente distribuiti? Le domande dei test del QI vengono modificate, aggiunte e abbandonate in modo che i punteggi non si raggruppino troppo all’estremità bassa o alta, ma siano ben distribuiti in una distribuzione normale a forma di campana.
(Vedere la nota storica sotto sulla “distribuzione degli errori” per un’importante distinzione tra la distribuzione dei dati originali e la distribuzione dei residui.)
Mito #2: La distribuzione normale è centrale nella teoria statistica
Sarebbe più preciso dire che, nella statistica classica (cioè, la statistica pre-computer), la distribuzione normale, e la sua cugina, la distribuzione t, erano approssimazioni essenziali. Nel 1908, William Gosset (“studente”), pubblicò il suo articolo seminale Biometrika (“L’errore probabile della media”) introducendo la distribuzione t.
Vale la pena leggere (a destra) la giustificazione di Gosset per l’uso della distribuzione normale come base per l’approssimazione delle distribuzioni vere – convenienza. O, come dicono Efron e Hastie (in Computer Age Statistical Inference), “tractabilità matematica.”
Gosset era interessato a quanto diverso potesse essere un campione da un altro, quando estratto dalla stessa popolazione. Iniziò annotando su delle carte la lunghezza del dito medio di 3000 detenuti in prigione – i dati erano disponibili perché, all’epoca, gli scienziati erano molto interessati a correlare tratti fisici con tratti mentali e tendenze criminali. Continuando, tirò fuori campioni successivi di quattro, annotando la media. Finì con il tabulare un istogramma di frequenza, mostrato qui sotto.
Si può vedere come ha poi adattato la sua approssimazione di forma normale (in realtà t) ai dati. Nel 1908, questo semplificava enormemente il compito dei calcoli basati sulle distribuzioni di campionamento, poiché nessuno aveva il tempo di estrarre campioni di carte migliaia di volte. Oggi, però, i metodi di ricampionamento (procedure di permutazione e il bootstrap) fanno un buon lavoro di approssimazione delle vere distribuzioni di campionamento, e senza fare affidamento su ipotesi di normalità. Il compito di prelevare migliaia di campioni e lavorare con i risultati è ora banale.
In effetti, l’avvento della potenza di calcolo ha notevolmente esteso il regno della statistica così lontano dalle procedure di inferenza basate sulla teoria normale che le approssimazioni normali sono ora solo uno strumento utile, anche se difficilmente centrale, in una cassetta degli attrezzi in continua espansione.
Mito #3: La normalizzazione dei dati li rende normalmente distribuiti
La normalizzazione o standardizzazione dei dati è spesso usata nelle procedure analitiche in modo che la scala in cui i dati sono misurati non influenzi i risultati. Se stiamo cercando di trovare dei cluster nei dati, per esempio, l’analisi usa la “distanza tra i record” come metrica chiave. Di solito non vogliamo che i nostri risultati differiscano a seconda della metrica utilizzata (ad esempio metri o chilometri), ma questo accadrà se usiamo i dati grezzi. Ci sono diversi modi per mettere i dati sulla stessa scala, e un modo comune è quello di sottrarre la media e dividere per la deviazione standard. Questo è anche chiamato z-score, e permette di confrontare i dati con una distribuzione normale standard.
Normalizzare i dati in questo modo non renderà comunque i dati distribuiti normalmente. I dati manterranno la forma generale che avevano prima dell’aggiustamento.
Nota storica: La “distribuzione degli errori”
La distribuzione normale era originariamente chiamata “distribuzione degli errori” e applicata alle deviazioni dalla media nelle osservazioni astronomiche. Ed è stato proprio questo concetto di distribuzione normale degli errori (residui), piuttosto che i dati originali, a guidare l’ampia applicazione originale della teoria normale in statistica.