Tamaño de los zapatos y longitud del pene
¿El tamaño de los zapatos predice la longitud del pene? No estoy bromeando, este es un estudio real.
Paso 1: Enunciar la hipótesis nula: No hay relación entre el tamaño del zapato y la longitud del pene O El tamaño del zapato no predice la longitud del pene. El objetivo del estudio sería rechazar esta hipótesis, lo que favorecería la hipótesis alternativa; es decir, existe una relación entre la talla del zapato y la longitud del pene O la talla del zapato predice la longitud del pene (hay tres posibilidades; ninguna correlación, una correlación positiva o una correlación negativa)
Paso 2: Dos urólogos midieron la longitud del pene estirado de 104 hombres en un estudio prospectivo y lo relacionaron con su talla de zapato.
Paso 3: Los resultados se evaluaron estadísticamente utilizando un modelo de regresión por mínimos cuadrados, con el nivel de significación elegido como P<0,05.
Valor P
Ahora digamos que se obtuvo un resultado positivo, es decir, que la longitud del pene aumenta con la talla de los zapatos. ¿Cómo puede estar seguro de que esta correlación es estadísticamente significativa o, en otras palabras, hasta qué punto los datos de la muestra apoyan el argumento de que la hipótesis nula es verdadera? Aquí es donde entra en juego el valor p. El valor p ajusta la incertidumbre, diciéndole cuán probable es el efecto observado en sus datos si la hipótesis nula fuera verdadera.
Aquí está la definición de la Asociación Estadística Americana (ASA):
El valor p es la probabilidad, bajo un modelo estadístico especificado, de que un resumen estadístico de los datos (por ejemplo, la diferencia de la media muestral entre dos grupos comparados) sea igual o más extremo que su valor observado
Si ha establecido la significación estadística en 0.05, entonces un valor p de <0,05 le indica que, suponiendo que la hipótesis nula sea cierta, hay una probabilidad muy pequeña de obtener un resultado que sea igual o más extremo que el resultado observado. ( 1 entre 20 o 5% de probabilidad). Por lo tanto, hay pruebas para rechazar la hipótesis nula.
Por otro lado, si el valor p fuera <0,65, entonces suponiendo que la hipótesis nula es verdadera, se esperaría obtener el resultado observado o más extremo el 65% de las veces. Eso no es demasiado llamativo, ¿verdad? La hipótesis nula seguiría siendo cierta. Espero que eso le ayude a entender el valor P.
Bueno, para aquellos que tienen curiosidad, los resultados reales fueron los siguientes:
La estadística de regresión lineal entre la longitud del pene estirado y el tamaño del zapato dio un r2 de 0,012 (P=0,28), lo que sugiere que no hay relación estadísticamente significativa entre la longitud del pene estirado y el tamaño del zapato.
La interpretación del valor p es:
Suponiendo que la hipótesis nula sea cierta (el tamaño del zapato no predice la longitud del pene), el efecto observado o más se produciría el 28% de las veces.
INTERVALOS DE CONFIANZA
El otro concepto de precisión son los intervalos de confianza (IC). En el estudio anterior, no hay manera de que uno pueda tomar una muestra de todos los hombres del mundo y medir sus tallas de zapatos o la longitud del pene.
Si se pudiera, se obtendría el coeficiente de correlación exacto o las tallas medias para la talla de zapatos y también para la longitud del pene. Por lo tanto, es necesario proporcionar algún rango entre el que se encuentra la medida verdadera. Esto es el intervalo de confianza.
Por lo general, el intervalo de confianza se establece en el 95%, lo que indica que si se hiciera este estudio 100 veces, 95 de cada 100 veces, la medida verdadera se encontraría entre los dos intervalos de confianza.
Veamos otro estudio interesante.
EL FÚTBOL Y LOS ATAQUES AL CORAZÓN
Veamos otro ejemplo e intentemos responder a las siguientes preguntas. Lea el siguiente resultado del estudio de Wilbert-Lampen et al. El estudio examina la asociación entre los eventos cardiovasculares y la Copa del Mundo de fútbol.
Los eventos cardiovasculares ( léase = problemas cardíacos) ocurridos en pacientes del área metropolitana de Múnich fueron evaluados prospectivamente por los médicos de urgencias durante la Copa del Mundo. Se compararon esos eventos con los ocurridos durante el período de control: Del 1 de mayo al 8 de junio y del 10 al 31 de julio de 2006, y del 1 de mayo al 31 de julio de 2003 y 2005.
Se evaluaron los eventos cardiovasculares agudos en 4279 pacientes. En los días de los partidos en los que participaba la selección alemana, la incidencia de emergencias cardíacas fue 2,66 veces mayor que durante el periodo de control (intervalo de confianza del 95%, 2,33 a 3,04; P<0,001); en el caso de los hombres, la incidencia fue 3.Para los hombres, la incidencia fue 3,26 veces mayor que durante el periodo de control (intervalo de confianza del 95%, 2,78 a 3,84; P<0,001), y para las mujeres, fue 1,82 veces mayor que durante el periodo de control (intervalo de confianza del 95%, 1,44 a 2,31; P<0,001).
1. ¿Fue la incidencia de emergencias cardíacas estadísticamente significativa y por qué?
2. ¿Tienen los hombres un mayor riesgo de eventos cardiovasculares durante los partidos del mundial? Es este riesgo mayor que el de las mujeres? ¿Es el resultado estadísticamente significativo?
3. Por último, ¿deberían establecerse mayores procedimientos de emergencia durante los eventos de la Copa del Mundo basándose en este resultado? (Pista: Esto requiere un pensamiento subjetivo y analítico y depende de muchas variables). Respuestas al final.
PUNTOS CLAVE
El valor p por sí solo no significa nada. Hay que ponerlo en el contexto de la metodología del estudio y la medida del efecto. Los valores p pueden hacerse significativos reduciendo la robustez de la medida ( por ejemplo, si la mejora del punto de referencia es de 8 puntos y se obtiene un resultado no significativo, reduciendo el punto de referencia a 4 puntos, se puede obtener un resultado estadísticamente significativo).
Pero una mejora de 4 puntos no es tan buena como la de 8 puntos. La interpretación es siempre subjetiva, y aquí es donde la capacidad de análisis es importante. Asegura que no se toman las cosas al pie de la letra.
Según el llamativo artículo de Ioannidis, Por qué la mayoría de los resultados de investigación publicados son falsos:
La investigación no está representada y resumida de forma más adecuada por los valores p, pero, por desgracia, existe una noción generalizada de que los artículos de investigación médica deben interpretarse basándose únicamente en los valores p.
Según la declaración recientemente publicada por la ASA-
El valor p nunca pretendió ser un sustituto del razonamiento científico.
Con el tiempo parece que el valor p se ha convertido en un guardián de si el trabajo es publicable, al menos en algunos campos,….. Este aparente sesgo editorial conduce al «efecto cajón de sastre», en el que las investigaciones con resultados estadísticamente significativos tienen muchas más probabilidades de ser publicadas, mientras que otros trabajos que podrían ser igual de importantes desde el punto de vista científico nunca se publican. También conduce a prácticas denominadas como «p-hacking» y «data dredging» que enfatizan la búsqueda de pequeños valores p por encima de otros razonamientos estadísticos y científicos.
Un valor p, o significación estadística, no mide el tamaño de un efecto o la importancia de un resultado.
Los valores p no miden la probabilidad de que la hipótesis estudiada sea verdadera, o la probabilidad de que los datos se hayan producido sólo por azar.
Las conclusiones científicas y las decisiones empresariales o políticas no deben basarse únicamente en si un valor p supera un umbral específico.
El IC es el rango de valores entre los que se encuentra la verdadera medida poblacional para un nivel de confianza determinado.
Los intervalos de confianza pueden reducirse aumentando el tamaño de la muestra, ya que se empieza a acercar a la verdadera medida poblacional al incluir más personas de la población.
RESPUESTAS
1. Sí, la incidencia fue estadísticamente significativa, como indica el valor p.
2. Los hombres tienen un mayor riesgo de eventos cardiovasculares que las mujeres, y el riesgo es estadísticamente significativo. Mire el IC y los valores de p.
3. No hay respuestas fijas, y se necesitan otros estudios. Diferentes personas pueden tener diferentes formas de analizar estos datos.