Abstract
圧倒的な状況証拠が地球上のすべての現存生物の共通祖先の存在を支持しているが、共通祖先が存在したかどうかはまだ未解決問題である。 Theobald (Nature 465, 219-222 (2010))は最近、生命の全領域からサンプリングした保存タンパク質のアラインメント配列に適用した公式統計検定でこの問題に挑み、普遍的共通祖先仮説が成り立つと結論づけた。 しかし、我々は、整列配列を用いたTheobaldの方法には根本的な欠陥があることを指摘する。 我々は、アラインメントが共通祖先仮説に強いバイアスを与えることを示し、一見無関係な2つのタンパク質コード配列ファミリー(ミトコンドリアのcytbとnd2)に対してTheobaldの方法が共通祖先仮説を支持した例を示す。 このことは、「形式的」な検定の有効性に対する疑念を喚起するものである
1. はじめに
多種多様な種からゲノム配列決定プロジェクトによって得られたデータは、現在、普遍的な生命の木を再構築するために、組み合わせたタンパク質配列データセットの組み立てを可能にした(例えば、)。 一方、地球上の現存するすべての生命の普遍的共通祖先(UCA)が存在したかどうかについては、まだ未解決の問題である。 分子系統学的手法では、配列データが提供されると自動的に木が構築されるが、通常、分子系統学では最初からUCAの存在が暗黙のうちに仮定されているので、推論された木は必ずしもUCAの存在を保証するものではない。 しかし、真正細菌(バクテリア)、古細菌(アーキア)、真核生物(ユーカリア)という生命の3つのドメイン(またはスーパーキングダム)間でUCA仮説を分子配列を使って検証する試みは、Theobaldがこの問題に正式な統計検定で挑戦するまで行われていない。 ブラウンらによって編集された配列データセットを用い、モデル選択基準AICを用いて、UCA仮説がどの独立起源仮説よりもはるかに優れていることを示し、UCA説が成り立つと結論づけたのである。 UCA仮説が、真正細菌、古細菌、真核生物がUCAという単一の共通祖先から派生したと仮定するのに対し、独立起源仮説は、真正細菌が古細菌・真核生物と異なる起源を持つ、あるいは3領域が互いに異なる起源を持つというシナリオを含んでおり、UCA仮説は、古細菌・真核生物と古細菌・真核生物の起源が異なる、あるいは3領域が互いに異なるというシナリオを含んでいる。 彼の試みは、UCA説を統計的な根拠をもって確立するという目標に向けた第一歩である。 しかし、彼の方法論は、我々が議論したように、UCA説を確立するためのいくつかの問題を含んでおり、この通信で、我々の議論の詳細を述べる。
Theobaldの分析の最も深刻な問題は、各生物領域が単系統クレードを構成しているかどうかを含む古細菌、真正細菌および真核生物の系統関係の解決に興味を持っていたブラウンらにより編集された配列の配列を用いた点である。 そのため、彼らはUCAの存在を優先的に仮定した。 実際、アラインメントは、共通の祖先配列から分岐した配列であるという前提のもとに行われる手続きである。 Brownらは、「個々のタンパク質ファミリーをまずコンピュータで整列させ、その後、手作業で整列を精密化した。 個々のタンパク質アラインメントにおいて保存状態の悪い領域を削除した。” この手順は明らかにUCAの存在を前提としており、ブラウンらが興味を持っていたのは地球上の全ての種の系統関係であり、UCAの存在は状況証拠によって裏付けられていたので、これは問題にはならなかった 。 しかし、UCAの存在を証明するためには、UCA仮説に強いバイアスを与えるアライメント手順を使用すべきではない。
以前のコミュニケーションで、我々は、AICが共通起源仮説を選択する2つの一見無関係な核酸コーディング配列のファミリー(ミトコンドリアのcytbとnd2)の例を提供した。 アライメントは共通祖先のバイアスを与えるので、我々はcytbとnd2の間のアライメントは行わなかったが、それでもcytbとnd2の共通起源はこれら2つの遺伝子の独立起源より好まれた。 この結果を、cytbとnd2が究極的に共通祖先であることの証拠とみなすべきと考える人は、おそらくいないでしょう。 むしろこれはTheobaldのテストの有効性に疑問符をつけるものである。
Theobaldは、GTR+Γのヌクレオチド置換モデルがあまりにもナイーブであると指摘し、我々の分析を批判している。 我々は 2 つの遺伝子の同じ読み枠を使用したが、Theobald によれば、遺伝暗号の制約がこれらの配列間に共通祖先によるものではない相関を引き起こすことが予想されるのである。 これは良い指摘であり、本研究では、この相関を説明するためにアミノ酸置換モデルも用いることにする。 アライメントなしで最も印象的なケースを示すために、ヌクレオチド置換のGTR+Γモデルのみを使用したが、実は共通起源モデルが独立起源モデルより好ましいかどうかは、想定した置換モデルによって異なる。 そこで、アミノ酸だけでなく、ヌクレオチドについてもいくつかの代替置換モデルを用いて、Theobaldのデータセットが作成されたアラインメントプログラムのデフォルト設定が、一見無関係な二つの遺伝子の共通起源仮説を否定するかどうかを調べる。 材料と方法
解析に用いた配列データセットと同じものを提供した。 ウシ(EU177848)、シカ(AB210267)、カバ(NC_000889)のミトコンドリア遺伝子cytbとnd2の5′末端1,038bp(開始コドンを除く)を図1に示すように((カウ、シカ)、カバ)の関係を仮定してPAMLに実装した最尤法により解析を実施した。 図 1 の左側に示す独立起源仮説と右側に示す共通起源仮説を AIC の基準で比較した。 本研究で使用した置換モデルは以下の通りである。 塩基置換は JC , K80 , HKY , GTR , K80+Γ , HKY+Γ , GTR+Γ , アミノ酸置換は Poisson, JTT , mtmam , Poisson+Γ , JTT+F+Γ , mtmam+F+Γ モデルである。 CLUSTAL Wを使用し、gap open penalty (GOP) と gap extension penalty (GEP) を変化させてアライメントを行いました。 GOP、GEPのデフォルト値は、塩基配列が(15、6.66)、アミノ酸配列が(10、0.1)であり、アミノ酸配列のみを解析した , で用いたデータセットの作成ではアミノ酸配列のデフォルト値を使用した。
cytbとnd2の独立起源仮説と共通起源仮説の対比。 独立起源仮説では2つの遺伝子を結ぶ枝が存在せず、共通起源仮説では2つの遺伝子の共通祖先が存在する。 結果と考察
ヌクレオチドレベルでの解析結果を表1に示す。 アライメントを行わない場合、JC、K80+Γ、HKY+Γ、GTR+Γモデルは共通起源仮説を好み、K80、HKY、GTRモデルは独立起源仮説を好むことがわかった。 AICに関して最も良いモデルはGTR+Γモデルであり、これは共通起源を好む。 次に、様々なGOPとGEPの値を持つCLUSTAL Wで整列された配列を分析した。 GOPとGEPの値が大きいと、ギャップ挿入やギャップ拡張に対するペナルティが強くなり、その結果、値が大きいアライメントは、値が小さいアライメントよりも、アライメントなしのデータセットに近くなることが分かりました。 GOPとGEPを大きな値から小さな値へ変化させると、置換モデルに関係なく、共通起源仮説が独立起源仮説より優先される傾向にある。 興味深いことに、このような状況は、デフォルト値の(15, 6.66)の前に、(GOP, GEP) = (50, 6.66)で実現されているのである。
(a) | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
|
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
(b) | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
|
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
独立起源仮説と共通起源仮説を比較した各モデルのAICを示している。 2つの仮説の比較では,AICが低い仮説を†で示した。 各データセットでAICが最小となる置換モデルを下線で示した。 GOPとGEPのデフォルト値は太字で示した。 *cytbとnd2のアラインメント間の相同性は、1-(cytbとnd2の平均𝑝-距離)で定義した。 |
アミノ酸レベルでも同様の分析が表2で示されています。 この場合、共通起源仮説はアライメントなしのPoissonモデルとJTTモデルでのみ好まれ、mtmam+F+Γの最良モデルでは独立起源が好まれることがわかる。 デフォルト設定の整列配列でも、想定した置換モデルによって異なる結果が得られました。Poisson、JTT、Poisson+ΓΓなどの単純なモデルは共通起源仮説を好みますが、AICに関して最良のモデルであるmtmam+F+Γモデルは独立起源を好みました。 おそらく、塩基レベルの解析で共通祖先仮説がより強く優先されるのは、Theobaldが指摘したように、共通祖先によらない配列間の相関を誘発する遺伝暗号の制約によるものであろう。 特に今回の解析で用いた重鎖の哺乳類ミトコンドリアタンパク質コード遺伝子では、第2コドン位置がTに偏り、第3コドン位置はAに偏り、Gに偏っている 。 したがって、塩基配列解析で共通起源仮説が強く優先されるのは、遺伝暗号の制約によるものと思われる。 しかし、アライメントなし、およびデフォルト設定のアライメントありのアミノ酸解析の最良の置換モデルは独立起源仮説を好むが、いくつかの置換モデルでは共通起源仮説が好まれていることは言及に値すると思われる。 このことは、形式的な検定の有効性に関して重大な問題を提起している。 Theobaldは、個々のタンパク質データセットのアライメントにCLUSTALWをデフォルト設定で使用したBrownらと同様のアミノ酸配列のデータセットを使用した。 実際には、TheobaldはCLUSTALWの代わりにProbConsという別のプログラムを使って配列を整列させたが、この違いは我々の議論にとって決定的な重要性を持つものではないだろう。
|
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
独立起源仮説と共通起源仮説を比較した各モデルのAICが示された。 2つの仮説の比較では,AICが低い仮説を†で示した。 各データセットでAICが最小となる置換モデルを下線で示した。 GOPとGEPのデフォルト値は太字で示した。 *cytbとnd2のアラインメント間の相同性は、1-(cytbとnd2の平均𝑝-距離)で定義した。 |
ミトコンドリアDNAの重鎖にコードされるcytbとnd2はアミノ酸組成が似ているので、共通祖先によるものではない相関がこれらの配列間に誘発される可能性があります。 このことは、Theobaldの分析におけるもう一つの欠陥を明らかにする。すなわち、彼は、我々が議論したような収斂進化の可能性を考慮していないのである。 つまり、類似のアミノ酸組成に収斂することであり、これは様々な方法で達成できる。 cytbとnd2のアミノ酸組成の類似は、真正の収束ではなく、同一ゲノム内に2つの遺伝子が共存することによる制約に過ぎないかもしれないが、実質的には収斂進化の同様の状況を表していると考えられる
アライメントによるバイアスについては、理論的には、最尤樹推定の枠組みの中にアライメントの手続きを含めることによって解決できる。 現在のアライメントプログラムの多くは、アライメントと系統を別々に扱っているが、実際には両者は相互に依存している。 最尤法の枠組みでアライメントと系統樹を同時に推定する実用的な方法が開発されれば、挿入・欠失過程の対数尤度を考慮することにより、UCA仮説に偏ることなく、独立起源仮説とAICを比較することが可能になるであろう。 しかし一方で、現在用いられている最尤法は、多様化進化を表す確率過程を仮定しており、この枠組みでは収斂進化を考慮することは困難であると思われる。 Theobaldが挑戦した問題を最終的に解決するには、全く新しいパラダイムが必要なのかもしれない。 このように統計的検定によるUCAの存在の証明には問題があるが、その存在を証明する強力な状況証拠があることは事実である
Charles Darwinは『種の起源』で次のように書いている。 「この地球上に存在するすべての有機物は、おそらく生命が最初に吹き込まれた原始的な形態から派生したものであろう」と。 ダーウィンは、地球上の生命の起源が複数あることを否定しているようだ。 しかし、セオバードの指摘するように、UCA説は生命の独立した複数の起源の可能性を認めている。 UCA仮説とは、地球上のすべての現存する生命は、単一の共通祖先種から派生したとするものである。 生命の歴史の中で膨大な数の絶滅があったはずで、生命の進化の初期にどのような種類の生命が絶滅したかを知る術はない。 それでも、生命の出現の過程で膨大な量のさまざまな形態の試行錯誤が行われ、UCAが存在したとすればその一つに過ぎない可能性が高いと思われる。 さらに、ラウプとバレンタインが主張するように、複数の起源が存在しない限り、生命が生存する確率は低くなる。
謝辞
この研究の一部は、日本学術振興会の科学研究費補助金(C22570099)の助成を受けて実施したものです。