Ist die Normalkurve normal?
Ich habe vor kurzem einen Artikel gelesen, in dem die Normalkurve als der beste Freund des Datenwissenschaftlers bezeichnet wurde, und es ist sicherlich richtig, dass die Normalverteilung in der klassischen statistischen Theorie allgegenwärtig ist. Dennoch wird sie überschätzt.
Mythos Nr. 1: Die meisten Daten sind normalverteilt
Ein kurzer Blick wird zeigen, dass dies nicht der Fall ist. Zunächst einmal liegen viele Daten in binärer Form vor – überleben/sterben, klicken/nicht klicken, kaufen/nicht kaufen, Betrug/nicht betrügen, usw. Selbst Daten, die häufig als Beispiele für normale Daten angeführt werden, sind es nicht – zum Beispiel die Körpergröße von Menschen. Ein Histogramm der Körpergrößen zeigt einen Knick links von der Mitte – Kinder. Zieht man die Kinder ab, ergeben sich immer noch unterschiedliche Mittelwerte für Männer und Frauen und für Menschen in verschiedenen Ländern. Nur wenn man die Gruppe streng und homogen definiert – erwachsene Männer in Guatemala zum Beispiel – wird die Verteilung normal (und dieser Definitionsprozess wird durch die Identifizierung dessen geleitet, was in der größeren Verteilung nicht normal ist).
IQ-Werte veranschaulichen diesen Mythos gut. Es gibt keine ikonischere glockenförmige Normalverteilung als IQ-Werte. Die Menschen neigen dazu, den IQ als normalverteilt zu betrachten, aber in Wirklichkeit sind nur die IQ-Werte normalverteilt, während der IQ selbst ein etwas nebulöses Konzept ist, das in konkreter Form nur in seiner Metrik existiert.
Und wie werden die IQ-Werte normalverteilt? Die Fragen in den IQ-Tests werden so verändert, hinzugefügt und gestrichen, dass die Ergebnisse nicht zu sehr am unteren oder oberen Ende streuen, sondern schön in einer glockenförmigen Normalverteilung verteilt sind.
(Siehe die historische Anmerkung unten über die „Fehlerverteilung“ für eine wichtige Unterscheidung zwischen der Verteilung der ursprünglichen Daten und der Verteilung der Residuen.)
Mythos Nr. 2: Die Normalverteilung steht im Mittelpunkt der statistischen Theorie
Es wäre genauer zu sagen, dass in der klassischen Statistik (d.h. in der Zeit vor der Computerstatistik) die Normalverteilung und ihr Cousin, die t-Verteilung, wesentliche Näherungen waren. Im Jahr 1908 veröffentlichte William Gosset („Student“) seinen bahnbrechenden Biometrika-Aufsatz („The Probable Error of the Mean“), in dem er die t-Verteilung einführte.
Es lohnt sich, (rechts) Gossets Begründung für die Verwendung der Normalverteilung als Grundlage für die Approximation wahrer Verteilungen zu lesen – Bequemlichkeit. Oder, wie Efron und Hastie es ausdrücken (in Computer Age Statistical Inference), „mathematische Nachvollziehbarkeit“.
Gosset interessierte sich dafür, wie sehr sich eine Stichprobe von einer anderen unterscheiden könnte, wenn sie aus derselben Grundgesamtheit gezogen wurde. Er begann damit, die Mittelfingerlängen von 3000 Gefängnisinsassen auf Karten zu notieren – die Daten standen zur Verfügung, weil Wissenschaftler damals sehr daran interessiert waren, körperliche Merkmale mit geistigen Eigenschaften und kriminellen Tendenzen zu korrelieren. Anschließend zog er vier aufeinanderfolgende Stichproben und notierte den Mittelwert. Zum Schluss erstellte er ein Häufigkeitshistogramm, das unten abgebildet ist.
Sie können sehen, wie er dann seine normalförmige (eigentlich t) Annäherung an die Daten anpasst. Im Jahr 1908 vereinfachte dies die auf Stichprobenverteilungen basierenden Berechnungen erheblich, da niemand die Zeit hatte, Tausende von Stichproben von Karten zu ziehen. Heutzutage leisten die Resampling-Methoden (Permutationsverfahren und Bootstrap) jedoch gute Arbeit bei der Annäherung an die echten Stichprobenverteilungen, ohne sich auf Normalitätsannahmen zu stützen. Die Aufgabe, Tausende von Stichproben zu ziehen und mit den Ergebnissen zu arbeiten, ist jetzt trivial.
Tatsächlich hat das Aufkommen der Rechenleistung den Bereich der Statistik so weit über die auf der Normaltheorie basierenden Inferenzverfahren hinaus ausgedehnt, dass Normalapproximationen jetzt nur noch ein nützliches, wenn auch kaum noch zentrales Werkzeug in einem immer größer werdenden Werkzeugkasten sind.
Mythos Nr. 3: Die Normalisierung von Daten macht sie normalverteilt
Die Normalisierung oder Standardisierung von Daten wird häufig in analytischen Verfahren verwendet, damit die Skala, auf der die Daten gemessen werden, die Ergebnisse nicht beeinflusst. Wenn wir zum Beispiel versuchen, Cluster in Daten zu finden, verwendet die Analyse den „Abstand zwischen Datensätzen“ als Schlüsselmetrik. Normalerweise möchten wir nicht, dass sich unsere Ergebnisse je nach verwendeter Metrik (z. B. Meter oder Kilometer) unterscheiden, aber das wird passieren, wenn wir die Rohdaten verwenden. Es gibt verschiedene Möglichkeiten, Daten auf dieselbe Skala zu bringen. Eine gängige Methode ist, den Mittelwert zu subtrahieren und durch die Standardabweichung zu dividieren. Dies wird auch als z-Score bezeichnet und ermöglicht es, die Daten mit einer Standardnormalverteilung zu vergleichen.
Die Normalisierung der Daten auf diese Weise führt jedoch nicht dazu, dass die Daten normalverteilt sind. Die Daten behalten die allgemeine Form, die sie vor der Anpassung hatten.
Historische Anmerkung: Die „Fehlerverteilung“
Die Normalverteilung wurde ursprünglich „Fehlerverteilung“ genannt und auf Abweichungen vom Mittelwert bei astronomischen Beobachtungen angewendet. Und es war in der Tat dieses Konzept der Normalverteilung von Fehlern (Residuen), und nicht die ursprünglichen Daten, die die ursprüngliche breite Anwendbarkeit der Normaltheorie in der Statistik vorantrieb.