Taille des chaussures et longueur du pénis
La taille des chaussures prédit-elle la longueur du pénis ? Je ne plaisante pas, c’est une vraie étude.
Etape 1 : énoncer l’hypothèse nulle : Il n’y a pas de relation entre la taille des chaussures et la longueur du pénis OU La taille des chaussures ne prédit pas la longueur du pénis. L’objectif de l’étude serait de rejeter cette hypothèse qui favoriserait alors l’hypothèse alternative ; c’est-à-dire qu’il existe une relation entre la taille de la chaussure et la longueur du pénis OU la taille de la chaussure prédit la longueur du pénis (il y a trois possibilités ; aucune corrélation, une corrélation positive ou une corrélation négative)
Étape 2 : Deux urologues ont mesuré la longueur étirée du pénis de 104 hommes dans une étude prospective et l’ont reliée à leur taille de chaussure.
Étape 3 : Les résultats ont été évalués statistiquement à l’aide d’un modèle de régression des moindres carrés, le niveau de signification choisi étant P<0,05.
Valeur P
Disons maintenant que vous avez obtenu un résultat positif, c’est-à-dire que la longueur du pénis augmente avec la taille des chaussures. Comment pouvez-vous être sûr que cette corrélation était statistiquement significative ou, en d’autres termes, dans quelle mesure les données de l’échantillon soutiennent-elles l’argument selon lequel l’hypothèse nulle est vraie ? C’est là que la valeur p entre en jeu. La valeur p ajuste l’incertitude, en vous disant quelle est la probabilité de l’effet observé dans vos données si l’hypothèse nulle était vraie.
Voici la définition de l’Americal Statistical Association (ASA) :
La valeur p est la probabilité, sous un modèle statistique spécifié, qu’un résumé statistique des données (par exemple, la différence de moyenne d’échantillon entre deux groupes comparés) soit égal ou plus extrême que sa valeur observée
Si vous avez établi la signification statistique à 0.05, alors une valeur p de <0,05 vous indique que, en supposant que l’hypothèse nulle soit vraie, il y a une très faible probabilité d’obtenir un résultat égal ou plus extrême que le résultat observé. ( 1 sur 20 ou 5% de probabilité). Ainsi, il y a des preuves pour rejeter l’hypothèse nulle.
D’autre part, si la valeur p était <0,65 alors en supposant que l’hypothèse nulle est vraie, vous vous attendriez à obtenir le résultat observé ou plus extrême 65% du temps. Ce n’est pas trop rapide, n’est-ce pas ? L’hypothèse nulle resterait donc vraie. J’espère que cela vous aide à comprendre la valeur P.
Bien, pour ceux qui sont curieux, les résultats réels étaient les suivants :
La statistique de régression linéaire entre la longueur du pénis étiré et la taille de la chaussure a donné un r2 de 0,012 (P=0,28), ce qui suggère qu’il n’y a pas de relation statistiquement significative entre la longueur du pénis étiré et la taille de la chaussure.
L’interprétation de la valeur p est la suivante :
En supposant que l’hypothèse nulle soit vraie (la taille des chaussures ne prédit pas la longueur du pénis), l’effet observé ou plus se produirait 28% du temps.
INTERVALLES DE CONFIDENCE
L’autre concept de précision est celui des intervalles de confiance (IC). Dans l’étude ci-dessus, il est impossible d’échantillonner tous les hommes du monde et de mesurer leur taille de chaussure ou leur longueur de pénis.
Si on le pouvait, on obtiendrait le coefficient de corrélation exact ou les tailles moyennes pour la taille de chaussure et aussi pour la longueur de pénis. Il est donc nécessaire de fournir une certaine fourchette entre laquelle se situe la vraie mesure. C’est l’intervalle de confiance.
En général, l’intervalle de confiance est fixé à 95% ce qui vous indique que si vous faites cette étude 100 fois, 95 fois sur 100, la vraie mesure se situera entre les deux intervalles de confiance.
Regardons une autre étude intéressante.
FOOTBALL ET ATTAQUES CARDIAQUES
Regardons un autre exemple et essayons de répondre aux questions suivantes. Lisez le résultat suivant de l’étude de Wilbert-Lampen et al. L’étude examine l’association entre les événements cardiovasculaires et la Coupe du monde de football.
Les événements cardiovasculaires ( lire = problèmes cardiaques) survenant chez les patients de la région du grand Munich ont été évalués prospectivement par les médecins urgentistes pendant la Coupe du monde. Nous avons comparé ces événements avec les événements survenus pendant la période de contrôle : Du 1er mai au 8 juin et du 10 au 31 juillet 2006, et du 1er mai au 31 juillet en 2003 et 2005.
Les événements cardiovasculaires aigus ont été évalués chez 4279 patients. Les jours de matchs impliquant l’équipe allemande, l’incidence des urgences cardiaques était 2,66 fois supérieure à celle de la période de contrôle (intervalle de confiance à 95%, 2,33 à 3,04 ; P<0,001) ; pour les hommes, l’incidence était 3.26 fois celle de la période de contrôle (intervalle de confiance à 95 % , 2,78 à 3,84 ; P<0,001), et pour les femmes, elle était de 1,82 fois celle de la période de contrôle (intervalle de confiance à 95 % , 1,44 à 2,31 ; P<0,001).
1. L’incidence des urgences cardiaques était-elle statistiquement significative et pourquoi ?
2. Les hommes ont-ils un risque accru d’événements cardiovasculaires pendant les matchs de la coupe du monde ? Ce risque est-il supérieur à celui des femmes ? Ce résultat est-il statistiquement significatif ?
3. Enfin, des procédures d’urgence plus importantes devraient-elles être mises en place lors des événements de la coupe du monde sur la base de ce résultat ? (Indice : cela nécessite une réflexion subjective et analytique et dépend de nombreuses variables). Réponses à la fin.
POINTS DE CONCLUSION CLÉS
La valeur p en soi ne signifie rien. Elle doit être replacée dans le contexte de la méthodologie de l’étude et de la mesure de l’effet. Les valeurs P peuvent être rendues significatives en réduisant la robustesse de la mesure ( par exemple, si l’amélioration du benchmark est de 8 points et que vous obtenez un résultat non significatif, en réduisant le benchmark à 4 points, vous pouvez obtenir un résultat statistiquement significatif).
Mais une amélioration de 4 points n’est pas aussi bonne qu’une amélioration de 8 points. L’interprétation est toujours subjective, et c’est là que les compétences analytiques sont importantes. Cela permet de ne pas prendre les choses pour argent comptant.
Selon l’article saisissant de Ioannidis, Pourquoi la plupart des résultats de recherche publiés sont faux :
La recherche n’est pas représentée et résumée de la manière la plus appropriée par des valeurs p, mais, malheureusement, il existe une notion répandue selon laquelle les articles de recherche médicale devraient être interprétés sur la base des seules valeurs p.
Selon la déclaration récemment publiée par l’ASA-
La valeur p n’a jamais été destinée à remplacer le raisonnement scientifique.
Au fil du temps, il semble que la valeur p soit devenue un gardien pour savoir si un travail est publiable, du moins dans certains domaines,…… Cette apparente partialité éditoriale conduit à » l’effet tiroir « , selon lequel les recherches dont les résultats sont statistiquement significatifs ont beaucoup plus de chances d’être publiées, alors que d’autres travaux qui pourraient être tout aussi importants sur le plan scientifique ne paraissent jamais. Cela conduit également à des pratiques appelées par des noms tels que « p-hacking » et « data dredging » qui mettent l’accent sur la recherche de petites valeurs p par rapport à d’autres raisonnements statistiques et scientifiques.
Une valeur p, ou signification statistique, ne mesure pas la taille d’un effet ou l’importance d’un résultat.
Les valeurs p ne mesurent pas la probabilité que l’hypothèse étudiée soit vraie, ou la probabilité que les données aient été produites par le seul hasard.
Les conclusions scientifiques et les décisions commerciales ou politiques ne doivent pas être basées uniquement sur le fait qu’une valeur p passe un seuil spécifique.
L’IC est la plage de valeurs entre lesquelles se situe la vraie mesure de la population pour un niveau de confiance donné.
Les intervalles de confiance peuvent être réduits en augmentant la taille de l’échantillon, car on commence à se rapprocher de la vraie mesure de la population en incluant plus de personnes de la population.
RÉPONSES
1. Oui, l’incidence est statistiquement significative comme le souligne la valeur p.
2. Les hommes ont un plus grand risque d’événements cardiovasculaires que les femmes, et ce risque est statistiquement significatif. Regardez l’IC et les valeurs P.
3. Il n’y a pas de réponses fixes, et d’autres études sont nécessaires. Différentes personnes peuvent avoir différentes façons d’analyser ces données.