SCHUHGRÖSSE UND PENILLÄNGE
Sagt die Schuhgröße die Penislänge voraus? Ich mache keine Witze, dies ist eine echte Studie.
Schritt 1: Stellen Sie die Nullhypothese auf: Es gibt keinen Zusammenhang zwischen Schuhgröße und Penislänge ODER Die Schuhgröße sagt die Penislänge nicht voraus. Das Ziel der Studie wäre es, diese Hypothese zu verwerfen, was dann die Alternativhypothese begünstigen würde, d.h. es gibt einen Zusammenhang zwischen Schuhgröße und Penislänge ODER die Schuhgröße sagt die Penislänge voraus (es gibt drei Möglichkeiten: kein Zusammenhang, positiver oder negativer Zusammenhang)
Schritt 2: Zwei Urologen maßen in einer prospektiven Studie die gestreckte Penislänge von 104 Männern und setzten diese in Beziehung zu ihrer Schuhgröße.
Schritt 3: Die Ergebnisse wurden mit Hilfe eines Regressionsmodells nach der Methode der kleinsten Quadrate statistisch ausgewertet, wobei als Signifikanzniveau P<0,05 gewählt wurde.
P-Wert
Angenommen, Sie haben ein positives Ergebnis erhalten, d. h. die Penislänge nimmt mit der Schuhgröße zu. Wie können Sie sicher sein, dass diese Korrelation statistisch signifikant ist, oder anders ausgedrückt, wie gut stützen die Stichprobendaten das Argument, dass die Nullhypothese wahr ist? An dieser Stelle kommt der p-Wert ins Spiel. Der p-Wert gleicht die Unsicherheit aus, indem er angibt, wie wahrscheinlich der in Ihren Daten beobachtete Effekt ist, wenn die Nullhypothese wahr wäre.
Hier ist die Definition der Americal Statistical Association (ASA):
Der p-Wert ist die Wahrscheinlichkeit unter einem spezifizierten statistischen Modell, dass eine statistische Zusammenfassung der Daten (z.B. die Stichprobenmittelwertdifferenz zwischen zwei verglichenen Gruppen) gleich oder extremer als ihr beobachteter Wert wäre
Wenn Sie die statistische Signifikanz auf 0.05 festgelegt, dann sagt ein p-Wert von <0,05 aus, dass unter der Annahme, dass die Nullhypothese wahr ist, eine sehr kleine Wahrscheinlichkeit besteht, ein Ergebnis zu erhalten, das gleich oder extremer ist als das beobachtete Ergebnis. ( 1 zu 20 oder 5% Wahrscheinlichkeit). Es gibt also Anhaltspunkte dafür, die Nullhypothese abzulehnen.
Wäre der p-Wert hingegen <0,65, dann würde man unter der Annahme, dass die Nullhypothese wahr ist, erwarten, dass man in 65 % der Fälle das beobachtete Ergebnis oder ein extremeres Ergebnis erhält. Das ist doch nicht zu auffällig, oder? Die Nullhypothese würde dann wahr bleiben. Ich hoffe, das hilft Ihnen, den P-Wert zu verstehen.
Nun, für diejenigen, die neugierig sind, die wirklichen Ergebnisse waren die folgenden:
Die lineare Regressionsstatistik zwischen der gestreckten Penislänge und der Schuhgröße ergab ein r2 von 0,012 (P=0,28), was darauf hindeutet, dass keine statistisch signifikante Beziehung zwischen der gestreckten Penislänge und der Schuhgröße besteht.
Die Interpretation des p-Wertes lautet:
Angenommen, die Nullhypothese ist wahr (die Schuhgröße sagt die Penislänge nicht voraus), dann würde der beobachtete Effekt oder mehr in 28 % der Fälle auftreten.
KONFIDENZINTERVALE
Das andere Konzept der Präzision sind die Konfidenzintervalle (CI). In der oben genannten Studie ist es nicht möglich, alle Männer der Welt zu befragen und ihre Schuhgrößen oder Penislängen zu messen.
Wenn man das könnte, würde man den genauen Korrelationskoeffizienten oder die Mittelwerte für die Schuhgröße und auch für die Penislänge erhalten. Daher ist es notwendig, einen Bereich anzugeben, zwischen dem das wahre Maß liegt. Dies ist das Konfidenzintervall.
Gewöhnlich wird das Konfidenzintervall auf 95 % festgelegt, was bedeutet, dass bei einer 100-maligen Durchführung dieser Studie in 95 von 100 Fällen das wahre Maß zwischen den beiden Konfidenzintervallen liegen würde.
Schauen wir uns eine weitere interessante Studie an.
FUSSBALL UND HERZAHLSCHLAG
Schauen wir uns ein weiteres Beispiel an und versuchen wir, die folgenden Fragen zu beantworten. Lesen Sie das folgende Studienergebnis in der Studie von Wilbert-Lampen et al. Die Studie untersucht den Zusammenhang zwischen kardiovaskulären Ereignissen und der Fußballweltmeisterschaft.
Kardiovaskuläre Ereignisse (lies = Herzprobleme), die bei Patienten im Großraum München auftraten, wurden während der Fußballweltmeisterschaft prospektiv von Notärzten erfasst. Wir haben diese Ereignisse mit den Ereignissen verglichen, die im Kontrollzeitraum aufgetreten sind: 1. Mai bis 8. Juni und 10. bis 31. Juli 2006 sowie 1. Mai bis 31. Juli 2003 und 2005.
Akute kardiovaskuläre Ereignisse wurden bei 4279 Patienten erfasst. An Spieltagen mit Beteiligung der deutschen Mannschaft war die Inzidenz kardialer Notfälle 2,66-mal so hoch wie im Kontrollzeitraum (95 % Konfidenzintervall, 2,33 bis 3,04; P<0,001); bei Männern war die Inzidenz 3.26-mal so hoch wie im Kontrollzeitraum (95% CI, 2,78 bis 3,84; P<0,001), und bei Frauen war sie 1,82-mal so hoch wie im Kontrollzeitraum (95% CI, 1,44 bis 2,31; P<0,001).
1. War die Häufigkeit kardialer Notfälle statistisch signifikant und warum?
2. Haben Männer ein erhöhtes Risiko für kardiovaskuläre Ereignisse während der WM-Spiele? Ist dieses Risiko größer als das der Frauen? Ist das Ergebnis statistisch signifikant?
3. Sollten aufgrund dieses Ergebnisses mehr Notfallmaßnahmen während der Weltmeisterschaft getroffen werden? (Hinweis: Dies erfordert subjektives und analytisches Denken und hängt von vielen Variablen ab). Antworten am Ende.
KEY TAKEAWAY POINTS
Der p-Wert allein bedeutet nichts. Er muss in den Kontext der Methodik der Studie und der Messung des Effekts gestellt werden. P-Werte können signifikant gemacht werden, indem man die Robustheit des Maßes reduziert (z.B. wenn die Benchmark-Verbesserung 8 Punkte beträgt und man ein nicht-signifikantes Ergebnis erhält, kann man durch die Reduzierung der Benchmark auf 4 Punkte ein statistisch signifikantes Ergebnis erhalten).
Aber eine Verbesserung um 4 Punkte ist nicht so gut wie eine Verbesserung um 8 Punkte. Die Interpretation ist immer subjektiv, und hier sind analytische Fähigkeiten wichtig. Sie stellt sicher, dass man die Dinge nicht für bare Münze nimmt.
Nach Ioannidis‘ eindrucksvollem Artikel „Why Most Published Research Findings Are False“:
Forschung wird nicht am angemessensten durch p-Werte dargestellt und zusammengefasst, aber leider gibt es eine weit verbreitete Vorstellung, dass medizinische Forschungsartikel nur auf der Grundlage von p-Werten interpretiert werden sollten.
Nach der kürzlich veröffentlichten Erklärung der ASA-
Der p-Wert war nie als Ersatz für wissenschaftliches Denken gedacht.
Im Laufe der Zeit scheint der p-Wert zumindest in einigen Bereichen zu einem Torwächter dafür geworden zu sein, ob eine Arbeit veröffentlicht werden kann,….. Diese offensichtliche redaktionelle Voreingenommenheit führt zum „Schubladeneffekt“, bei dem Forschungsarbeiten mit statistisch signifikanten Ergebnissen viel eher veröffentlicht werden, während andere Arbeiten, die wissenschaftlich genauso wichtig sein könnten, nie gedruckt werden. Er führt auch zu Praktiken, die mit Namen wie „p-hacking“ und „data dredging“ bezeichnet werden und die die Suche nach kleinen p-Werten gegenüber anderen statistischen und wissenschaftlichen Überlegungen in den Vordergrund stellen.
Ein p-Wert oder eine statistische Signifikanz misst nicht die Größe eines Effekts oder die Bedeutung eines Ergebnisses.
P-Werte messen nicht die Wahrscheinlichkeit, dass die untersuchte Hypothese wahr ist, oder die Wahrscheinlichkeit, dass die Daten allein durch Zufall entstanden sind.
Wissenschaftliche Schlussfolgerungen und geschäftliche oder politische Entscheidungen sollten nicht nur darauf beruhen, ob ein p-Wert einen bestimmten Schwellenwert überschreitet.
CI ist der Wertebereich, zwischen dem das wahre Populationsmaß für ein bestimmtes Konfidenzniveau liegt.
Konfidenzintervalle können durch Erhöhung des Stichprobenumfangs eingeengt werden, da man sich dem wahren Populationsmaß annähert, indem man mehr Personen aus der Population einschließt.
ANTWORTEN
1. Ja, die Inzidenz war statistisch signifikant, wie aus dem p-Wert hervorgeht.
2. Männer haben ein höheres Risiko für kardiovaskuläre Ereignisse als Frauen, und das Risiko ist statistisch signifikant. Schauen Sie sich den KI- und den P-Wert an.
3. Es gibt keine festen Antworten, und es sind weitere Studien erforderlich. Verschiedene Personen können diese Daten auf unterschiedliche Weise analysieren.