¿Es normal la curva normal?
He visto un artículo recientemente que se refería a la curva normal como el mejor amigo del científico de datos, y es ciertamente cierto que la distribución normal es omnipresente en la teoría estadística clásica. Aun así, está sobrevalorada.
Mito nº 1: La mayoría de los datos se distribuyen normalmente
Un momento de reflexión mostrará que no es así. En primer lugar, muchos datos tienen una forma binaria -sobrevivir/morir, hacer clic/no hacer clic, comprar/no comprar, fraude/no fraude, etc. Incluso los datos que se citan con frecuencia como ejemplos de datos normales no lo son: la altura de las personas, por ejemplo. Un histograma de alturas mostrará un bulto a la izquierda del centro: los niños. Si se eliminan los niños, siguen existiendo medias diferentes para hombres y mujeres, y para personas de diferentes países. Sólo cuando se define el grupo de forma estricta y homogénea -hombres adultos en Guatemala, por ejemplo- la distribución se vuelve normal (y ese proceso de definición se guía por la identificación de lo que no es normal en la distribución más amplia).
Las puntuaciones del CI ilustran bien este mito. No hay una distribución normal en forma de campana más icónica que las puntuaciones de CI. La gente tiende a pensar que el CI se distribuye normalmente, pero en realidad son sólo las puntuaciones de CI las que se distribuyen normalmente, siendo el propio CI un concepto algo nebuloso, que sólo existe de forma concreta en su métrica.
¿Y cómo llegan las puntuaciones de CI a distribuirse normalmente? Las preguntas de los tests de CI se ajustan, se añaden y se eliminan para que las puntuaciones no se agrupen demasiado en el extremo inferior o superior, sino que se distribuyan adecuadamente en una distribución normal en forma de campana.
(Véase la nota histórica más abajo sobre la «distribución de errores» para una importante distinción entre la distribución de los datos originales y la distribución de los residuos.)
Mito nº 2: La distribución normal es fundamental para la teoría estadística
Sería más exacto decir que, en la estadística clásica (es decir, la estadística anterior a la informática), la distribución normal, y su prima, la distribución t, eran aproximaciones esenciales. En 1908, William Gosset («estudiante»), publicó su artículo seminal Biometrika («El error probable de la media») introduciendo la distribución t.
Vale la pena leer (a la derecha) la justificación de Gosset para utilizar la distribución normal como base para aproximar las distribuciones verdaderas: la conveniencia. O, como dicen Efron y Hastie (en Computer Age Statistical Inference), «la trazabilidad matemática»
Gosset estaba interesado en lo diferente que podía ser una muestra de otra, cuando se extraía de la misma población. Comenzó anotando en tarjetas la longitud del dedo corazón de 3.000 reclusos; los datos estaban disponibles porque, en aquella época, los científicos estaban muy interesados en correlacionar los rasgos físicos con los rasgos mentales y las tendencias delictivas. A continuación, extrajo muestras sucesivas de cuatro, anotando la media. Terminó tabulando un histograma de frecuencias, que se muestra a continuación.
se puede ver cómo entonces ajustó su aproximación de forma normal (en realidad t) a los datos. En 1908, esto simplificó enormemente la tarea de los cálculos basados en las distribuciones de muestreo, ya que nadie tenía tiempo para extraer muestras de tarjetas miles de veces. Hoy en día, sin embargo, los métodos de remuestreo (procedimientos de permutación y el bootstrap) hacen un buen trabajo de aproximación a las verdaderas distribuciones de muestreo, y sin depender de los supuestos de normalidad. La tarea de extraer miles de muestras y trabajar con los resultados es ahora trivial.
De hecho, la llegada de la potencia computacional ha ampliado en gran medida el ámbito de la estadística hasta tal punto que los procedimientos de inferencia basados en la teoría normal son ahora sólo una herramienta útil, aunque apenas central, en una caja de herramientas en constante expansión.
Mito nº 3: La normalización de los datos los convierte en normalmente distribuidos
La normalización o estandarización de los datos se utiliza a menudo en los procedimientos analíticos para que la escala en la que se miden los datos no afecte a los resultados. Si intentamos encontrar clusters en los datos, por ejemplo, el análisis utiliza la «distancia entre registros» como métrica clave. Por lo general, no queremos que nuestros resultados difieran en función de la métrica utilizada (por ejemplo, metros o kilómetros), pero eso sucederá si utilizamos los datos en bruto. Hay varias formas diferentes de poner los datos en la misma escala, y una forma común es restar la media y dividirla por la desviación estándar. Esto también se llama puntuación z, y permite comparar los datos con una distribución normal estándar.
La normalización de los datos de esta manera no hará que los datos se distribuyan normalmente. Los datos mantendrán la forma general que tenían antes del ajuste.
Nota histórica: La «distribución de errores»
La distribución normal se llamó originalmente «distribución de errores» y se aplicó a las desviaciones de la media en las observaciones astronómicas. Y fue de hecho este concepto de la distribución normal de los errores (residuos), en lugar de los datos originales, lo que impulsó la amplia aplicabilidad original de la teoría normal en estadística.