3 mýty o normálním rozdělení

author
4 minutes, 53 seconds Read

Je normální křivka normální?

Nedávno jsem viděl článek, který označoval normální křivku za nejlepšího přítele datového vědce, a je jistě pravda, že normální rozdělení je v klasické statistické teorii všudypřítomné. Přesto se přeceňuje.

Mýtus č. 1: Většina dat je rozdělena normálně

Chvilka zamyšlení ukáže, že tomu tak není. Za prvé, mnoho dat je v binární podobě – přežije/nepřežije, klikne/neklikne, koupí/nekoupí, podvod/nepodvod atd. Dokonce ani údaje, které jsou často uváděny jako příklady normálních dat, jimi nejsou – například výška lidí. Histogram výšek ukáže hrbol vlevo od středu – děti. Pokud odečteme děti, stále máme rozdílné hodnoty pro muže a ženy a pro lidi v různých zemích. Teprve když skupinu striktně a homogenně vymezíte – například dospělé muže v Guatemale – stane se rozdělení normálním (a tento proces vymezení je veden identifikací toho, co v širším rozdělení normální není).

Skóre IQ tento mýtus dobře ilustruje. Neexistuje zvonovitě normální rozdělení, které by bylo ikoničtější než skóre IQ. Lidé mají tendenci považovat IQ za normálně rozdělené, ale ve skutečnosti jsou normálně rozdělené pouze výsledky IQ, přičemž samotné IQ je poněkud mlhavý pojem, který existuje v konkrétní podobě pouze ve své metrice.

A jak se stane, že výsledky IQ jsou normálně rozdělené? Otázky v testech IQ se upravují, přidávají a vypouštějí tak, aby se skóre příliš neshlukovalo na dolním nebo horním konci, ale aby bylo pěkně rozloženo ve zvonovitém normálním rozdělení.

(Důležitý rozdíl mezi rozdělením původních dat a rozdělením reziduí viz historická poznámka níže o „rozdělení chyb“.)

Mýtus č. 2: Normální rozdělení je ústředním bodem statistické teorie

Přesnější by bylo říci, že v klasické statistice (tj. předpočítačové statistice) bylo normální rozdělení a jeho příbuzné t-rozdělení základní aproximací. V roce 1908 publikoval William Gosset („student“) svůj zásadní článek Biometrika („The Probable Error of the Mean“), v němž představil t-rozdělení.

Za přečtení stojí (vpravo) Gossetovo zdůvodnění použití normálního rozdělení jako základu pro aproximaci skutečných rozdělení – pohodlnost. Nebo, jak říkají Efron a Hastie (v Computer Age Statistical Inference), „matematická schůdnost“.

Gosseta zajímalo, jak se může lišit jeden vzorek od druhého, když je vybrán ze stejné populace. Začal tím, že na kartičky zaznamenával délky prostředníčků 3000 vězňů – údaje byly k dispozici, protože v té době se vědci velmi zajímali o korelaci fyzických znaků s duševními vlastnostmi a kriminálními sklony. Pokračoval tím, že vylosoval postupné vzorky po čtyřech a zaznamenal průměr. Na závěr sestavil do tabulky histogram četností, který je zobrazen níže.

vidíte, jak pak na data dosadil svou aproximaci ve tvaru normály (ve skutečnosti t). V roce 1908 se tím značně zjednodušila úloha výpočtů založených na výběrových rozděleních, protože nikdo neměl čas vytahovat tisíckrát vzorky karet. V dnešní době však metody převzorkování (permutační postupy a bootstrap) dobře aproximují skutečná výběrová rozdělení, a to bez závislosti na předpokladech normality. Úkol vylosovat tisíce vzorků a pracovat s výsledky je nyní triviální.

V podstatě nástup výpočetní síly značně rozšířil oblast statistiky tak daleko za postupy odvozování založené na normální teorii, že normální aproximace jsou nyní jen užitečným, i když sotva ústředním nástrojem ve stále se rozšiřujícím souboru nástrojů.

Mýtus č. 3: Normalizace dat je činí normálně rozdělenými

Normalizace nebo standardizace dat se často používá v analytických postupech, aby měřítko, na kterém jsou data měřena, neovlivňovalo výsledky. Pokud se například snažíme najít shluky v datech, analýza používá jako klíčovou metriku „vzdálenost mezi záznamy“. Obvykle bychom nechtěli, aby se naše výsledky lišily v závislosti na tom, jaká metrika byla použita (např. metry nebo kilometry), ale to se stane, pokud použijeme surová data. Existuje několik různých způsobů, jak dát data do stejného měřítka, a jedním z běžných způsobů je odečíst průměr a vydělit směrodatnou odchylkou. Tomu se také říká z-skóre a umožňuje porovnat data se standardním normálním rozdělením.

Normalizací dat tímto způsobem se však data nestanou normálně rozdělenými. Data si zachovají jakýkoli obecný tvar, který měla před úpravou.

Historická poznámka: „Rozdělení chyb“

Původně se normální rozdělení nazývalo „rozdělení chyb“ a používalo se pro odchylky od průměru při astronomických pozorováních. A bylo to skutečně toto pojetí normálního rozdělení chyb (reziduí), spíše než původní data, které bylo hnacím motorem původní široké použitelnosti normální teorie ve statistice.

.

Similar Posts

Napsat komentář

Vaše e-mailová adresa nebude zveřejněna.