Study design
Surgical literatureは、治療、予後、害、経済分析、概要に焦点を当てた論文に大別される。5 各分類内には証拠の階層があり、例えば治療に関する質問に答えるのに、他のものより適した研究があり、より正確に「真実」を表していると考えられる。 この文脈では、一般的に整形外科の文献で最も一般的な研究であるため、治療に関する研究に焦点を当てることにします。 研究が階層化されるのは、上位のものが「最高の証拠」とみなされるからである5。治療試験の場合、これは無作為化比較試験(RCT)およびRCTのメタアナリシスである。 RCTには無作為化という性質上、バイアスを抑制する機能がある6,7。バイアス(多くの種類がある)は、研究の結果を混乱させ、真の治療効果を過大評価したり過小評価したりする可能性がある8。 無作為化は、既知の予後変数をコントロールするだけでなく、標本集団内の未知の予後変数をコントロールすることで、これを達成することができる。7 つまり、無作為化という行為は、試験内の対照群と治療群の両方において、予後変数(既知および未知の両方)の分布を等しくすることができるべきである。 このバイアスを制御する手段は、真実のより正確な推定を達成するのに役立つ6。より観察的な性質の研究には、ランダム化試験には存在しないバイアスの領域がそのデザインに含まれている。 例えば、3つのRCTがある治療法を支持し、2つのRCTが支持しない場合、あるいは異なるRCT間で治療効果の推定値に大きなばらつきがあり、信頼区間が大きい(すなわち、治療効果の点推定値の精度が悪い)場合、研究間で一貫性のない結果を引き起こす何らかの変数(または変数)(実際には、特に研究の質の違いが一つの変数かもしれません)および統計プーリングによる使用できる結果の質が低くなることでしょう。 しかし、もし方法論的によくできた5つのRCTが使われ、その全てが治療法を支持し、治療効果の測定が正確(すなわち、信頼区間が狭い)であれば、統計的プーリングから得られるデータはより信憑性が高くなります。 これとは対照的に、(専門家の意見は別として)階層的に最も低いレベルにあるのが症例報告やケースシリーズである3。 これらは通常、レトロスペクティブな性格を持ち、比較対照群を持たない。これらは、集団の1つのサブグループ(介入を受けた人々)のみの結果を提供することが可能である。 特にレトロスペクティブな研究デザインで起こりうる不完全なデータ収集やフォローアップがある場合、バイアスが生じる可能性がある。 また、これらの研究は通常、一人の外科医または施設の経験に基づいているため、結果の一般化可能性について疑念を抱かせる可能性がある。 これらの欠点があっても、この研究デザインは多くの点で有用であろう。 仮説の作成に効果的に使えるだけでなく、特定の手術やインプラントに関連する可能性のある稀な疾患や合併症に関する情報を提供できる可能性がある。 例えば、リ ームド髄内ネイルで治療した脛骨骨折の大規模シリーズ後の感染率の報告10 や、特定のインプラントのハードウェア故障の割合などである。 ケースコントロールは、対象となる結果を得たグループから開始し、他の類似した個人を振り返って、研究グループに存在し、結果と関連する可能性のある要因を確認するものである。 仮定の例を見てみましょう。 髄内釘で治療した脛骨軸骨折の後、非結合になった患者を考えてみましょう。 もし、どのような予後因子が非結合の原因となったかを調べたい場合、年齢、治療の種類、骨折のパターンなどの既知の予後変数をマッチさせたグループを比較し、喫煙、非ステロイド性抗炎症薬の使用、骨折のパターンなどの他の予後変数を分析し、これらと非結合の発生に関連性があるかどうか確認することが可能であろう。 この計画の欠点は、分析できないような未知の、あるいはまだ同定されていない危険因子があるかもしれないということである。 しかし、既知のものについては、関連性の強さを判断し、オッズ比や場合によっては相対リスクという形で示すことができるかもしれない。 この研究デザインの他の長所は、通常、実施に費用がかからず、特定の質問に対する「答え」を早く出せることである。
ケースコントロールとは対照的に、エビデンスレベルがやや高いコホート研究3は、通常プロスペクティブに行われ(レトロスペクティブに行うこともできるが)、通常2つの患者群を追跡する。 これらの群の一方は対象となる危険因子または予後因子を有し、他方は有しない。 危険因子を持つ患者と持たない患者を比較し、疾患や特定の転帰の発生率を確認するために、両群を追跡調査する。 これは通常前向きに行われるため、データ収集とフォローアップをより綿密に監視し、可能な限り完全で正確なものにしようとすることができるため、より上位の階層に位置づけられます。 このような研究デザインは、場合によっては非常に有効である。 例えば、喫煙が非癒合率に及ぼす影響を調べたい場合、骨折患者を喫煙する人としない人に無作為に分けることは倫理的にも一般的にも不可能でしょう。 しかし、例えば脛骨骨折をした喫煙者と非喫煙者の2つの患者グループを追跡調査することで、2つのグループ間の非癒合率を記録することができるのです。 この場合、前向きなデザインであるため、少なくとも年齢、骨折のパターン、治療の種類など、既知の予後変数のバイアスを制限するためにグループをマッチングさせることができる
研究デザイン間の区別を理解することは重要である。 研究者の中には,よく構成された観察研究はRCTと同様の結論を導くと主張する者もいる11。しかし,観察研究は治療効果を過大評価したり過小評価したりする可能性がより高いと指摘する者もいる。 実際、無作為化試験と非無作為化試験の間で矛盾した結果が得られることを示す例は、内科と整形外科の両分野に存在する。13,14 以前の観察研究では、ホルモン補充療法は骨密度に対して有意な効果があり、好ましいリスクプロファイルがあることが示唆されている。 しかし、最近行われた大規模なRCTでは、ホルモン補充療法を受けた患者において、有害な心疾患やその他の有害事象の発生率が増加しており、これまで観察研究によって過小評価されていたリスクがあることが判明しました。 整形外科の文献では、関節形成術と内部固定術の研究を用いて、無作為化試験と非 無作為化試験を評価したところ、非無作為化試験は関節形成術後の死亡率リスクを過大評価 し、関節形成術の再手術のリスクを過小評価していたことが示唆されている8。 興味深いことに、無作為化研究と同様の結果を得た非ランダム化研究において、患者の年齢、性別、骨折の変位がグループ間でコントロールされていることもわかった。
このように、使用された研究デザインのタイプは、ケースシリーズから無作為化対照試験までの証拠の階層に研究を広く位置づける。 しかし、全体的なエビデンスレベルの中にも内部的な階層があり、それは通常、研究の方法論と全体的な質に基づいている。