3 mity na temat rozkładu normalnego

author
4 minutes, 23 seconds Read

Is the Normal Curve Normal?

Widziałem ostatnio artykuł, który odnosił się do krzywej normalnej jako najlepszego przyjaciela naukowca zajmującego się danymi i z pewnością prawdą jest, że rozkład normalny jest wszechobecny w klasycznej teorii statystycznej. Mimo to, jest on przeceniany.

Mit #1: Większość danych ma rozkład normalny

Chwila zastanowienia pokaże, że tak nie jest. Po pierwsze, wiele danych ma postać binarną – przetrwać/umrzeć, kliknąć/nie kliknąć, kupić/nie kupić, oszustwo/brak oszustwa itd. Nawet dane, które są często przywoływane jako przykłady danych normalnych, nie są nimi – na przykład wzrost ludzi. Nawet dane, które często podawane są jako przykłady normalnych danych, nimi nie są – na przykład wzrost ludzi. Histogram wzrostu pokaże wypukłość na lewo od środka – dzieci. Odejmując dzieci, nadal masz różne środki dla mężczyzn i kobiet, i ludzi w różnych krajach. Dopiero jak się ściśle i jednorodnie zdefiniuje grupę – np. dorośli mężczyźni w Gwatemali – to rozkład staje się normalny (a proces definiowania odbywa się poprzez identyfikację tego, co nie jest normalne w większym rozkładzie).

Wyniki IQ dobrze ilustrują ten mit. Nie ma rozkładu normalnego w kształcie dzwonu bardziej ikonicznego niż wyniki IQ. Ludzie mają tendencję do myślenia o IQ jako o rozkładzie normalnym, ale tak naprawdę to tylko wyniki IQ mają rozkład normalny, a samo IQ jest nieco mglistym pojęciem, istniejącym w konkretnej formie tylko w swojej metryce.

A jak wyniki IQ mają być normalnie rozłożone? Pytania w testach IQ są poprawiane, dodawane i usuwane tak, że wyniki nie są zbytnio rozdrobnione na niskim lub wysokim poziomie, ale są ładnie rozłożone w rozkładzie normalnym w kształcie dzwonu.

(Zobacz historyczną uwagę poniżej na temat „rozkładu błędu” dla ważnego rozróżnienia między rozkładem oryginalnych danych, a rozkładem reszt.)

Mit #2: Rozkład normalny jest kluczowy dla teorii statystyki

Bardziej precyzyjne byłoby stwierdzenie, że w klasycznej statystyce (to znaczy, statystyce przedkomputerowej), rozkład normalny i jego kuzyn, rozkład t, były istotnymi przybliżeniami. W 1908 roku, William Gosset („student”), opublikował swój przełomowy artykuł Biometrika („The Probable Error of the Mean”) wprowadzający rozkład t.

Warto przeczytać (po prawej) uzasadnienie Gosseta dla stosowania rozkładu normalnego jako podstawy aproksymacji rozkładów prawdziwych – wygoda. Lub, jak to ujęli Efron i Hastie (w Computer Age Statistical Inference), „matematyczna tractability.”

Gosset był zainteresowany tym, jak bardzo jedna próbka może różnić się od drugiej, gdy jest pobierana z tej samej populacji. Zaczął od zanotowania na kartkach długości środkowych palców 3000 więźniów – dane były dostępne, ponieważ w tamtym czasie naukowcy byli bardzo zainteresowani korelacją cech fizycznych z cechami psychicznymi i skłonnościami przestępczymi. Kontynuując, wylosował kolejne próbki po cztery, notując średnią. Zakończył tabulacją histogramu częstotliwości, pokazanego poniżej.

można zobaczyć, jak następnie dopasował swoje przybliżenie o kształcie normalnym (właściwie t) do danych. W 1908 roku znacznie uprościło to zadanie obliczeń opartych na próbkowaniu rozkładów, ponieważ nikt nie miał czasu na wyciąganie próbek kart tysiące razy. Obecnie jednak metody ponownego próbkowania (procedury permutacyjne i bootstrap) wykonują dobrą robotę aproksymując prawdziwe rozkłady próbkowania, i to bez opierania się na założeniach normalności. Zadanie wylosowania tysięcy próbek i pracy z wynikami jest teraz trywialne.

W rzeczywistości, nadejście mocy obliczeniowej znacznie rozszerzyło sferę statystyki tak daleko poza procedury wnioskowania oparte na teorii normalnej, że normalne przybliżenia są teraz tylko użytecznym, choć ledwie centralnym, narzędziem w stale powiększającym się zestawie narzędzi.

Mit #3: Normalizacja danych sprawia, że są one normalnie rozłożone

Normalizacja lub standaryzacja danych jest często używana w procedurach analitycznych tak, że skala, na której dane są mierzone nie wpływa na wyniki. Na przykład, jeśli próbujemy znaleźć klastry w danych, analiza używa „odległości między rekordami” jako kluczowej metryki. Zwykle nie chcielibyśmy, aby nasze wyniki różniły się w zależności od tego, która metryka została użyta (np. metry czy kilometry), ale tak się stanie, jeśli użyjemy surowych danych. Istnieje kilka różnych sposobów, aby umieścić dane na tej samej skali, a jednym z powszechnych sposobów jest odjęcie średniej i podzielenie jej przez odchylenie standardowe. Nazywa się to również z-score, i pozwala na porównanie danych do standardowego rozkładu normalnego.

Normalizacja danych w ten sposób nie sprawi jednak, że dane będą normalnie rozłożone. Dane zachowają jakikolwiek ogólny kształt, który miały przed korektą.

Nota historyczna: „Rozkład błędu”

Rozkład normalny był pierwotnie nazywany „rozkładem błędu” i stosowany do odchyleń od średniej w obserwacjach astronomicznych. I to rzeczywiście ta koncepcja normalnego rozkładu błędów (reszt), a nie oryginalne dane, które napędzały pierwotne szerokie zastosowanie teorii normalnej w statystyce.

.

Similar Posts

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany.