SHOE SIZE AND PENILE LENGTH
靴のサイズによってペニスの長さが予測されるかどうか? 冗談ではなく、これは本当の研究です。
ステップ1:帰無仮説を述べます。 靴のサイズとペニスの長さの間には関係がないor靴のサイズはペニスの長さを予測しない。 靴のサイズと陰茎の長さの間に関係がある、または靴のサイズは陰茎の長さを予測する(3つの可能性がある:相関なし、正または負の相関)
ステップ2:2人の泌尿器科医は、前向き研究で104人の男性の伸展陰茎長さを測定し、これを靴サイズに関連付けました。
ステップ3:結果は最小二乗回帰モデルを用いて統計的に評価され、有意水準はP<0.05とされた。
P value
さて、正の結果、すなわち、陰茎長が靴サイズとともに増加したとしよう。 この相関が統計的に有意であること、言い換えれば、帰無仮説が真であるという議論をサンプルデータがどの程度裏付けているか、どうやって確認するのでしょうか? そこで登場するのがp値です。 p 値は、帰無仮説が真であった場合に、データで観察された効果がどの程度ありそうかを示すことで、不確実性を調整します。
以下は、米国統計協会 (ASA) による定義です。
p 値とは、データの統計的要約(たとえば、比較した 2 群間の標本平均差)が、その観測値と同じかそれよりも極端になる、特定の統計モデル下の確率です
もし、統計的有意性が 0.に設定されている場合、その有意性は 0.05とすると、<0.05のp値は、帰無仮説が真であると仮定すると、観測された結果と同じかそれよりも極端な結果が得られる確率が非常に小さいことを物語っていることになる。 ( 20分の1または5%の確率)。
一方、p 値が <0.65 であれば、帰無仮説が正しいと仮定して、65%の確率で観察された結果かそれ以上の極端な結果が得られると予想されます。 これって、あまりパッとしないですよね? 帰無仮説は正しいままです。
さて、気になる方は、実際の結果は以下の通りです。
伸びた陰茎の長さと靴のサイズの間の線形回帰統計は、r2 0.012 (P=0.28) を与え、伸びた陰茎の長さと靴サイズ間に統計的に有意な関係がないことを示唆しました。
P値の解釈は以下の通りです:
帰無仮説が真であると仮定すると(靴のサイズは陰茎長を予測しない)、観察された効果以上は28%の確率で発生します。
Confidence INTERVALS
精度における他の概念は信頼区間(CI)である。 もしそれができれば、靴のサイズとペニスの長さについて、正確な相関係数や平均値を得ることができるでしょう。 したがって、真の測定値が存在するいくつかの範囲を提供する必要性があります。 これが信頼区間です。
通常、信頼区間は95%に設定されており、この研究を100回行った場合、100回中95回は、真の尺度が2つの信頼区間の間にあることがわかります。
FOOTBALL AND HEART ATTACKS
別の興味深い研究を見て、次の質問に答えましょう。 Wilbert-Lampenらによる以下の研究結果を読んでください。 この研究では、心血管イベントとワールドカップサッカーとの関連性を調べています。
ミュンヘン広域の患者で発生した心血管イベント(読み:ハートトラブル)が、ワールドカップ期間中に救急医によって前向きに評価された。 これらのイベントをコントロール期間に発生したイベントと比較した。 2006年5月1日から6月8日,7月10日から7月31日,2003年と2005年の5月1日から7月31日の期間,4279人の急性心血管系イベントを評価した。 ドイツチームが出場する試合の日には、心臓緊急事態の発生率は対照期間の2.66倍(95%信頼区間 , 2.33 to 3.04; P<0.001)、男性では、発生率は3.0倍であった。男性では対照期間の3.26倍(95%信頼区間、2.78~3.84、P<0.001)、女性では対照期間の1.82倍(95%信頼区間、1.44~2.31、P<0.001)でした
1.心筋梗塞の発症率は対照期間の2.66倍でした。 心臓救急の発生率は統計的に有意であったか、その理由は?
2. 男性はワールドカップの試合中に心血管イベントのリスクが増加するのか? これは女性のリスクより大きいか? この結果は統計的に有意ですか?
3.最後に、この結果に基づいて、ワールドカップのイベント中に、より大きな緊急処置が実施されるべきですか? ヒント:これは主観的かつ分析的思考を必要とし、多くの変数に依存します)。 回答は最後に
Key TAKEAWAY POINTS
p値そのものは何の意味もありません。 研究の方法論と効果の尺度の文脈の中に置かれる必要があります。 P値は、指標の堅牢性を下げることで有意にすることができます(例えば、ベンチマークの改善が8ポイントで有意でない結果を得た場合、ベンチマークを4ポイントに下げることで、統計的に有意な結果を得ることができます)
しかし4ポイントの改善は8ポイントの改善と同じくらい良いわけではありません。 解釈は常に主観的なものであり、ここで分析力が重要になるのです。 額面通りに受け取らないようにするのです。
イオアニディスの印象的な記事「Why Most Published Research Findings Are False」によると、以下のようになります。
研究はp値によって最も適切に表現され要約されるものではありませんが、残念ながら、医学研究論文はp値のみに基づいて解釈されるべきであるという考え方が広まっています。
最近発表された ASA-
の声明によると、
p 値は決して科学的推論の代わりとなるものではありませんでした。
時とともに、少なくともいくつかの分野では、p 値は研究が出版可能かどうかを決める門番になってきたようです……。 この明らかな編集上の偏りは、統計的に有意な結果をもたらす研究が出版されやすい一方で、科学的に同じくらい重要かもしれない他の研究が印刷物に載ることがないという「ファイル引き出し効果」につながるものです。 また、「p-ハッキング」や「データ浚渫」といった名称で呼ばれる、他の統計的・科学的推論よりも小さなp値の探索を重視する行為にもつながります。
p値、または統計的有意性は、効果の大きさや結果の重要性を測るものではありません。
科学的な結論とビジネスや政策の決定は、P値が特定の閾値を通過するかどうかだけに基づくべきではありません。
CIは、与えられた信頼度に対して真の人口測定がある値の範囲です。
人口から多くの人々を含むことによって真の人口測定に近づき始めると、サンプルサイズを増加させて信頼区間の幅を狭くすることができます。
answers
1. はい、発生率はp値で概説されるように統計的に有意でした。
2. 男性は女性よりも心血管イベントのリスクが高く、そのリスクは統計的に有意です。 CIとP値を見てください。
3.決まった答えはなく、他の研究が必要である。 人によってこのデータの分析方法が違うかもしれませんね
。