3 Mythes à propos de la distribution normale

author
4 minutes, 52 seconds Read

La courbe normale est-elle normale ?

J’ai vu récemment un article qui faisait référence à la courbe normale comme le meilleur ami du data scientist, et il est certainement vrai que la distribution normale est omniprésente dans la théorie statistique classique. Pourtant, elle est surfaite.

Mythe #1 : la plupart des données sont distribuées normalement

Un moment de réflexion montrera que ce n’est pas le cas. Tout d’abord, de nombreuses données se présentent sous forme binaire – survivre/mourir, cliquer/non cliquer, acheter/non acheter, fraude/absence de fraude, etc. Même les données qui sont fréquemment citées comme des exemples de données normales ne le sont pas – la taille des personnes, par exemple. Un histogramme des hauteurs montrera une bosse à gauche du centre – les enfants. Si l’on exclut les enfants, on obtient toujours des moyennes différentes pour les hommes et les femmes, et pour les habitants de différents pays. Ce n’est que lorsque vous définissez le groupe de manière stricte et homogène – les hommes adultes au Guatemala, par exemple – que la distribution devient normale (et ce processus de définition est guidé par l’identification de ce qui n’est pas normal dans la distribution plus large).

Les scores de QI illustrent bien ce mythe. Il n’y a pas de distribution normale en forme de cloche plus emblématique que les scores de QI. Les gens ont tendance à penser que le QI est normalement distribué, mais ce ne sont en réalité que les scores de QI qui sont normalement distribués, le QI lui-même étant un concept quelque peu nébuleux, n’existant concrètement que dans sa métrique.

Et comment les scores de QI arrivent-ils à être normalement distribués ? Les questions des tests de QI sont modifiées, ajoutées et supprimées de sorte que les scores ne se regroupent pas trop à l’extrémité basse ou haute, mais sont joliment distribués dans une distribution normale en forme de cloche.

(Voir la note historique ci-dessous sur la « distribution des erreurs » pour une distinction importante entre la distribution des données originales, et la distribution des résidus.)

Mythe n°2 : La distribution normale est centrale à la théorie statistique

Il serait plus exact de dire que, dans la statistique classique (c’est-à-dire la statistique pré-informatique), la distribution normale, et sa cousine, la distribution t, étaient des approximations essentielles. En 1908, William Gosset (« étudiant »), a publié son article fondateur Biometrika (« The Probable Error of the Mean ») introduisant la distribution t.

Il vaut la peine de lire (à droite) la justification de Gosset pour l’utilisation de la distribution normale comme base d’approximation des distributions vraies – la commodité. Ou, comme le disent Efron et Hastie (dans Computer Age Statistical Inference), la « tractabilité mathématique ».

Gosset s’intéressait à la différence entre un échantillon et un autre, lorsqu’ils sont tirés de la même population. Il a commencé par noter sur des cartes la longueur des majeurs de 3000 détenus – les données étaient disponibles car, à l’époque, les scientifiques étaient très intéressés par la corrélation entre les traits physiques, les traits mentaux et les tendances criminelles. Il a ensuite tiré des échantillons successifs de quatre personnes, en notant la moyenne. Il a terminé en établissant un histogramme de fréquence, illustré ci-dessous.

vous pouvez voir comment il a ensuite ajusté son approximation de forme normale (en réalité t) aux données. En 1908, cela simplifiait grandement la tâche des calculs basés sur des distributions d’échantillonnage, puisque personne n’avait le temps de tirer des échantillons de cartes des milliers de fois. Aujourd’hui, cependant, les méthodes de rééchantillonnage (procédures de permutation et bootstrap) permettent d’obtenir une bonne approximation des véritables distributions d’échantillonnage, sans s’appuyer sur des hypothèses de normalité. La tâche de tirer des milliers d’échantillons et de travailler avec les résultats est maintenant triviale.

En fait, l’avènement de la puissance de calcul a grandement étendu le domaine de la statistique si loin au-delà des procédures d’inférence basées sur la théorie normale que les approximations normales ne sont plus qu’un outil utile, bien que guère central, dans une boîte à outils en constante expansion.

Mythe #3 : Normaliser les données les rend normalement distribuées

La normalisation ou la standardisation des données est souvent utilisée dans les procédures analytiques afin que l’échelle sur laquelle les données sont mesurées n’affecte pas les résultats. Si nous essayons de trouver des clusters dans les données, par exemple, l’analyse utilise la « distance entre les enregistrements » comme une métrique clé. En général, nous ne souhaitons pas que nos résultats diffèrent en fonction de la métrique utilisée (par exemple, mètres ou kilomètres), mais cela se produira si nous utilisons les données brutes. Il existe plusieurs façons de placer des données sur la même échelle, et l’une des plus courantes consiste à soustraire la moyenne et à la diviser par l’écart type. Cela s’appelle également un z-score, et cela vous permet de comparer les données à une distribution normale standard.

Normaliser les données de cette façon ne rendra pas, cependant, les données normalement distribuées. Les données conserveront la forme générale qu’elles avaient avant l’ajustement.

Note historique : la « distribution des erreurs »

La distribution normale était à l’origine appelée « distribution des erreurs », et appliquée aux écarts par rapport à la moyenne dans les observations astronomiques. Et c’est bien ce concept de la distribution normale des erreurs (résidus), plutôt que les données originales, qui a conduit à la large applicabilité initiale de la théorie normale en statistique.

Similar Posts

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée.