- Results
- Identifying Orphans.
- Class 0: Transposons, pseudogenes, and other artifacts.
- クラス1:種を越えたオルソログを持つ遺伝子
- クラス3:ヒトのみのパラログを持つ遺伝子
- Class 5: Orphans.
- Characterizing the Orphans.
- ORFの長さ
- コドン置換頻度
- Orphans Do Not Represent Protein-Coding Genes.
- コード化されたタンパク質の実験的証拠
- Revising the Human Gene Catalogs.
- Ensembl catalog.
- 他のカタログ
- Combined analysis.
- Limitations on the Analysis.
- Improving Gene Annotations.
Results
Identifying Orphans.
我々の分析では、異種間対応物を持たない、我々が「孤児」と呼ぶヒト ORF の特性を調べることが必要です。 このような研究には、対応する遺伝子を特定し、孤児の分析の妨げとなるさまざまなアーチファクトを排除するために、ヒト遺伝子カタログを慎重にフィルタリングする必要があります。 このため、ヒト遺伝子カタログの徹底的な再解析を行った。
Ensembl カタログ(バージョン 35)に焦点を当てた。 ミトコンドリア染色体、Y染色体、および特別な配慮が必要な「未配置コンティグ」は省略した。)
我々は、ヒト、マウス、イヌのゲノムとの比較に基づいて推定遺伝子を分類する計算プロトコルを開発した(図1;材料と方法参照)。 マウスとイヌのゲノムを用いたのは、高品質のゲノム配列が入手可能であり(7, 8)、配列の分岐の程度が遺伝子同定に適しているためである。 ヒトに対する塩基置換率は、マウスで≈0.50/base、イヌで≈0.35/baseであり、挿入および欠失(indel)事象は≈10倍低い頻度で発生している(8, 9)。 これらの頻度は、信頼できる配列アライメントを行うには十分低いが、コーディング領域とノンコーディング領域で予想される変異のパターンの違いを明らかにするには十分高い。
解析のフローチャート。 中央のパイプラインは、Ensemblカタログ(v35)中の21,895の推定遺伝子を計算機で解析した結果を示している。 その後、1,178件に対して手動検査を行い、有効と思われる遺伝子と無効な遺伝子のテーブルを得た。 また、計算パイプラインの後、アルゴリズムの限界や報告されたヒト遺伝子アノテーションの明らかな誤りによる誤分類を検出するために、≈1,200件の目視検査を行い、417件の分類を修正した。
Class 0: Transposons, pseudogenes, and other artifacts.
Ensembl カタログを構築するために使用するプロセスをすり抜けたトランスポゾン要素または処理済みの偽遺伝子からなる推定遺伝子がいくつかあります。 より厳密なフィルターを用いて、そのようなケースを1,538件特定した。 その内訳は、トランスポゾン由来の配列が487件、マルチエクソン親遺伝子由来の加工偽遺伝子(スプライシングによりイントロンが除去されているので認識可能)が483件、シングルエクソン親遺伝子由来の加工偽遺伝子(ヒトとマウスやイヌのオルソログ配列がほぼ正確に交差しているため認識可能)568件です。
クラス1:種を越えたオルソログを持つ遺伝子
次に、マウスまたはイヌのシンテニック領域に対応する遺伝子を持つ推定遺伝子を同定した。 マウスやイヌの現在の遺伝子カタログに既にオーソログ遺伝子が注釈されていないか、注釈されていない場合はオーソログ遺伝子を特定できるかどうかを確認しながら、それぞれの種のオーソログDNA配列を検討した。 このようなケースを「単純正相」(または1:1正相)と呼ぶ。 次に、局所的な遺伝子ファミリーの拡大を考慮して、マウスとイヌの1Mbの周辺領域まで検索を拡大した。 このようなケースは「複雑な正相性」(または「coorthology」)と呼ばれる。 いずれの場合も、正相遺伝子は、ヒト遺伝子の相当部分(≧80%)と整列するORFを持ち、相当なペプチド同一性(マウスは≧50%、イヌは≧60%)を有することが必要であった。 クラス2:種を超えたパラログを持つ遺伝子
パイプラインは、ヒトゲノム内にパラログを持ち、それがマウスやイヌにオルソログを持っている155例のヒト遺伝子を同定した。 これらの遺伝子の多くは、ヒト系統の非局所的重複(4分の3はセグメント的重複)、あるいは他の系統での遺伝子喪失を表している可能性がある。
クラス3:ヒトのみのパラログを持つ遺伝子
パイプラインは、ヒトゲノム内に1つ以上のパラログを持ち、これらのパラログのうちマウスやイヌにオルソログを持たない、推定ヒト遺伝子を68例同定した。 精査の結果、17件は追加のレトロポゾンや他のアーチファクトとして除外された(SI Appendix参照)。 残りの51件は有効な遺伝子と思われ、15件は霊長類特異的遺伝子の3つの既知のファミリー(DUF1220、NPIP、CDRT15ファミリー)に属し、その他はより小さなパラロググループ(2〜8メンバー)で発生し、これも霊長類特異的ファミリーを表すと思われた。 このうち、21件はレトロポゾンの追加や他のアーティファクト(SI Appendix 参照)、40件はヒトのアノテーションに少し変更を加えることで明確なヒトのオルソログを同定できるようにしたもので、精査により除外した。 残りの36件は有効な遺伝子と思われ、10件は既知の霊長類特異的ドメインを含み、26件は多くの種に共通するドメインを含む。
Class 5: Orphans.
上記の手順の後、合計1285件の推定遺伝子が残された。 精査の結果、明らかにアーチファクト(ストップコドンをたまたま欠いたロングタンデムリピート)であるものが40件、ヒト遺伝子アノテーションにわずかな変更を加えただけで異種間オーソログが割り当てられるものが68件であることがわかった。 残りの1,177例は、既知の遺伝子とのオーソロジー、パラロジーを欠き、明らかなアーティファクトではないため、オーファンであると宣言した。 2904>
Characterizing the Orphans.
We were characterized the orphans the properties to see those seen for protein-coding genes or expected for randoms ORFs arising in noncoding transcripts.我々は、遺児の特性が、タンパク質をコードする遺伝子に類似しているかどうか、あるいは非コード化転写物に生じるランダムなORFに期待されているかどうかを調べるために、遺伝子を慎重に見直すことが重要であることを指摘した。
ORFの長さ
オーファンは55%のGC含量を持ち、これはヒトゲノムの平均(39%)よりはるかに高く、異種間の対応するタンパク質コード遺伝子に見られるもの(53%)と同様であった。 この高いGC含量は、孤児が遺伝子に富む領域に存在する傾向を反映している。
我々は、GC含量に対する孤児たちのORF長を調べた。 また、ORFの長さの分布は、GC含有量が観測されたヒトゲノムDNAに由来する転写物で偶然に生じるであろう最長のORFの数学的予想に酷似していた(SI Fig.4)。 様々な尺度の感度を評価するために、5つ以上の発表論文で議論されているという基準で定義された「よく研究されている」遺伝子5,985個のセットを調べた。 各研究された遺伝子について、ヒトゲノムから、同じような長さの「エクソン」の数、同じような割合の繰り返し配列、同じような割合の種を越えたアラインメントを持ち、どの推定遺伝子とも重複していないマッチしたランダムコントロール配列を選択した
研究された遺伝子とマッチしたランダムコントロールは、研究したすべての保全特性に関して異なる(SI図5とSI表1)。 ヌクレオチドの同一性とKa/Ks比は明らかに異なるが、分布は広く、かなりの重複がある。 インデルの密度はより厳密で、よく研究された遺伝子の97.3%は1kbあたり<10個のインデルを持つが、ランダムな対照群ではわずか2.8%である。 しかし、タンパク質コード遺伝子の特徴的な進化を反映する2つの指標、すなわち読み取り枠保存(RFC)スコアとコドン置換頻度(CSF)スコアで最も鋭い違いが見出された。 RFC スコアは、ヒトの配列をその種を越えたオーソログに整列させ、オーソログの可能な 3 つの読み取り枠にわたって、保存された読み取り枠を持つヌクレオチドの最大割合を計算することによって決定されます。 結果は、配列アライメントや遺伝子境界のアノテーションの誤差による局所的な影響の伝播を制限するために、100塩基のスライディングウィンドウで平均化されています。 マウスとイヌのゲノムに対するRFCスコアを別々に計算し、2つのスコアのうち大きい方として定義されるJoint RFCスコアに注目しました。 RFCスコアはもともと酵母の研究で報告されたものであるが、ヒトの配列に頻繁に存在するイントロンに適応させた(SI Appendix 参照)。 RFC >90 の閾値を超えるのはランダムコントロールのわずか1%であるのに対し、よく調べられた遺伝子の98.2%はこの閾値を超えた。 種を越えた対応する18,752遺伝子のフルセットでも状況は同様で、97%が閾値を超えた(Fig. 2 a)。 RFCスコアはより急速に進化する遺伝子では若干低くなるが、急速に進化する遺伝子の上位1%でさえ、RFC分布はランダムコントロールと大きく分かれている(SI図5)
RFCスコアの累積分布。 (左)種を超えたオルソログを持つヒト遺伝子(青)対マッチしたランダムコントロール(黒)。 (右)ヒトの孤児(赤)対マッチしたランダムなコントロール(黒)。 RFCスコアは、マウスとイヌを合わせたもの(上)、マカク(中)、チンパンジー(下)に対して計算されています。 すべての場合において、オルソログはマッチしたランダムコントロールと著しく異なるが、孤児はマッチしたランダムコントロールと本質的に区別がつかない。 図2b)また、18,572個の遺伝子のうち最も急速に進化しているものでさえ、種を超えて対応するものには似ていない。 つまり、孤児たちはリーディングフレームを保存する傾向が全くないのである
コドン置換頻度
CSFスコアはタンパク質コード化遺伝子の進化パターンを補完するテストである。 RFC スコアがインデルに基づくのに対し、CSF スコアは、タンパク質をコードする DNA とランダムな DNA で見られるヌクレオチド置換の異なるパターンに基づいています。 最近、ショウジョウバエの種の比較ゲノム解析のために開発された(11)この方法は、多くの種にわたるアラインメントに基づいてコドン置換頻度(CSF)スコアを計算するものである。 マウス、イヌ、ラット、ウシ、フクロネズミの高カバー率配列(≒7×)とウサギ、アルマジロ、ゾウ、テンレックの低カバー率配列(≒2×)からなる哺乳類9種とヒトのアラインメントにCSF手法を適用した。
その結果、やはり異種間の対応遺伝子と孤児が強く区別されることがわかった。 単純な相同性を持つ16,210個の遺伝子のうち、99.2%はタンパク質をコードする遺伝子の予想される進化と一致するCSFスコアを得た。 一方、1,177個のオーファンには、コドン進化パターンが有効な遺伝子を示しているケースが2つだけ含まれていた。
Orphans Do Not Represent Protein-Coding Genes.
上記の結果は、孤児が有効なヒトのタンパク質コード遺伝子ではなく、単にランダムなORFであることと矛盾しない。 しかし、整合性は証明にはならない。
仮に、孤児が有効なヒトのタンパク質コーディング遺伝子で、マウスとイヌでは対応するORFがないとします。 孤児は2つのクラスに分類されるだろう。 (すなわち、マウスとイヌの両方で失われた祖先遺伝子である場合と、分岐後の遺伝子であり、ヒトに至る系統で生じた新規遺伝子である場合である。 これらの可能性をどのように排除すればよいのだろうか。 私たちは、マカクとチンパンジーという2つの霊長類の近縁種を研究することで解決しました。
-
孤児の遺伝子は、イヌとマウスでは失われたが、ヒトに至る系統では保持されている哺乳類の祖先遺伝子だと仮定しよう。
-
孤児たちは、イヌとマウスから分岐した後、ヒトにつながる系統で生じた新しい遺伝子であると仮定します。 新しい遺伝子の発生が定常的であると仮定すれば、誕生日はこの期間に分散しているはずである。 その場合、誕生日のほとんどはマカクからの分岐(≒30Mya)より前、ほぼすべてはチンパンジーからの分岐(≒6Mya)より前となる(12)。
上記のシナリオのいずれにおいても、孤児の大部分はマカクまたはチンパンジーの機能タンパク質コード化遺伝子に対応しているはずだ。
そこで私たちは、RFCスコアを用いて、孤児がマカクまたはチンパンジーのいずれかと比較して、タンパク質コード保存の証拠を示しているかどうかをテストしました。 驚くべきことに、孤児の RFC スコアの分布は、ランダムな対照の分布と本質的に同じである (図 2 d および f)。 孤児たちの分布は、種を越えて対応する最も急速に進化する遺伝子の上位 1%に見られる分布とも似ていない(SI 図 7-9)
したがって、孤児たちのセットは、我々の最も近い霊長類の親族においてさえ、リーディングフレーム保存の証拠をまったく示さない。 (もちろん、孤児が少数の有効なタンパク質コード化遺伝子を含む可能性はあるが、その割合は全体のRFC分布に識別可能な影響を及ぼさないほど小さいに違いない)。 我々は、遺児の大部分はマカクとチンパンジーの機能的なタンパク質コード化遺伝子に対応しておらず、したがって祖先遺伝子でも新しく生じた遺伝子でもないと結論づけた。
もし孤児が有効なヒトのタンパク質コード遺伝子を表しているなら、孤児の大部分はチンパンジーから分岐した後に生まれたと結論づけなければならないでしょう。 このようなモデルでは、哺乳類の系統で遺伝子が大量に誕生し、チンパンジーから分岐する前に誕生した膨大な数の遺伝子が猛烈な勢いで死滅することが必要である。 我々は、このようなモデルは全くあり得ないとして却下する。 最後に、上記のヒト遺伝子カタログの慎重なフィルタリングは、孤児の特性の正確な分析を妨げる偽遺伝子や人工物を排除するため、上記の分析に不可欠であったことを指摘する。
コード化されたタンパク質の実験的証拠
我々の結論に対する独自のチェックとして、我々は科学文献を調べ、コード化されたタンパク質に対する実験的証拠があるかどうかを判断するために、孤児に言及した公開論文を検討した。 よく研究されている遺伝子の大部分は、タンパク質をコードしていることが直接示されているのに対し、我々は、1,177の孤児のうち12人についてのみ、生体内でコードされたタンパク質の実験的証拠を報告する論文を発見し、これらの報告のいくつかはあいまいである (SI 表 2)。 このように、実験的証拠は、非保存型ORFの大部分はタンパク質をコードしていないという我々の結論と一致する。 実験的証拠が存在する、あるいは将来発見される一握りのケースでは、ケースバイケースで遺伝子をカタログに復元することができる。
Revising the Human Gene Catalogs.
大部分の孤児がタンパク質コード遺伝子ではないという強い証拠があれば、原理的な方法でヒト遺伝子カタログを改訂することが可能である。
Ensembl catalog.
Ensembl(v35)カタログの分析によると、現在のゲノムアセンブリ内の1-22番染色体およびX染色体の有効なタンパク質コード化遺伝子が19,108個含まれていることが示されています。 残りの15%はレトロポゾン、アーティファクト、または孤児として排除されている。 ミトコンドリア染色体、Y染色体と合わせると19,199個になる。
Ensembl(v38)カタログに解析を拡張し、2,212個の推定遺伝子が追加され、多くの以前のエントリーが修正または削除された。 我々の計算パイプラインは、異種間の対応関係に基づく598の有効なタンパク質コード遺伝子を追加し、1,135のレトロポゾンと479の遺児を発見した。 孤児たちの RFC カーブは、再びランダム DNA の予想と密接に一致した。
他のカタログ
我々は同じアプローチを Vega (v34) と RefSeq (March 2007) カタログに適用した。 両カタログとも、異種間の対応関係がないことから、有効なタンパク質コード遺伝子ではないと思われるエントリーがかなりの割合で含まれています(それぞれ16%、10%)(SI Fig.10 および SI Appendix 参照)。 RefSeqのエントリーを最も信頼性の高いものに限定すると(このセットにはより多くの遺伝子が含まれるという注意点がある)、無効と思われるのはわずか1%である。 2904>
Combined analysis.
Combined analysis of the three major gene catalogs, we find that only 20,470 of the 24,551 entries appear to be valid protein-coding genes.この2つのカタログは、さらに673のタンパク質コード化遺伝子を追加しています。
Limitations on the Analysis.
Our analysis of the current gene catalogs has certain limitations that should be noted.
First, we eliminated all pseudogenes and orphans. 処理された偽遺伝子またはトランスポゾンが脱適応を受けて機能的な遺伝子を生成した 6 つの報告例 (SI 表 1 および 3) と、コードされたタンパク質の実験的証拠を持つ孤児の 12 の報告例を発見した。 これらの18例は容易にカタログに復元することができる(20,488例に増加)。 現在の遺伝子カタログに存在しない、潜在的に機能的なレトロポゾンの事例がさらにある(15)。
次に、”unmapped contigs “にある197の推定遺伝子は考慮されていない。 これらの領域は、ヒトゲノムの完成したアセンブリから省かれた配列である。 これらの領域は、大部分が断片的な重複で構成されており、ほとんどの遺伝子はアセンブリ内の他の遺伝子と非常に類似している。 配列の多くは代替対立遺伝子かゲノムのミスアセンブリーである可能性がある。 しかし、分節的重複領域は進化的革新の苗床であることが知られており(16)、有効な遺伝子が含まれている可能性がある。 2904>
第三に、最も重要なことは、今回研究した非保存型ORFは、少なくとも100アミノ酸をコードする可能性があるため、現在の遺伝子カタログに通常含まれていることである。 したがって、私たちの結論がもっと短いORFに適用されるかどうかはわからない。 原理的には、ペプチドホルモンのような短いタンパク質をコードする遺伝子はさらに多く存在し、それらは通常、はるかに大きな前駆体から翻訳され、急速に進化する可能性があります。
Improving Gene Annotations.
Ensembl (v35) の22,218個の推定遺伝子について、詳細なグラフィックレポート・カードを作成しました。 このレポートカードは、遺伝子構造、配列アラインメント、進化的保存性の尺度、および我々の最終的な分類を示す(図3)
19番染色体上の小さな遺伝子、HAMPの遺伝子レポートカードの例。 Ensembl v35に含まれる全22,218個の推定遺伝子のレポートカードは、www.broad.mit.edu/mammals/alpheus から入手可能である。 このレポートカードは、種を超えた保存性を研究したり、ヒトの遺伝子アノテーションで起こりうる問題を発見するための視覚的な枠組みを提供する。 また、ヒトの遺伝子アノテーションの問題点を発見することができる。 その下のパネルでは、マウスやイヌのゲノムとヒトの遺伝子のアラインメントをグラフィカルに表示することができる。 「Synteny “はゲノム配列の大規模アライメントを示し、アライメントされたセグメントとアライメントされていないセグメントの両方を示している。 ヒトの配列は、白色でエクソン、濃い灰色で反復配列が注釈されている。 「Alignment detail “では、DNA配列のアラインメントとタンパク質のアラインメントが表示されます。 DNA配列のアラインメントでは、ヒトの配列が一番上に示され、他の種の塩基は一致(薄いグレー)または非一致(濃いグレー)、エクソン境界は縦線で、インデルは配列の上に小さな三角形で示されている(挿入は頂点が下、削除は頂点が上、数字は塩基長)、注釈された開始コドンは緑、停止コドンは紫で示されている。 タンパク質アラインメントでは、ヒトのアミノ酸配列が一番上に示され、他の種の配列は、一致(薄いグレー)、類似(ピンク)、非一致(赤)の印が付けられている。 “Frame alignment “は、各コドン位置で見つかったヌクレオチドのミスマッチの分布を示し、3番目の位置で過剰な変異が予想される。 マッチングは薄いグレーで、ミスマッチは濃いグレーで表示されます。 “Indels, starts and stops “は、主要なイベントの概要を示している。 インデルは三角形で示され(挿入は頂点が下、欠失は頂点が上)、フレームシフト(赤)またはフレームプリザーブ(灰)としてマークされている。 開始コドンは緑で、停止コドンは紫で表示されている。 「スプライスサイト」は、スプライスサイト周辺の配列保存を示し、2塩基のドナーおよびアクセプターサイトはグレーでハイライトし、ミスマッチ塩基は赤で表示した。 「RFCスコア、塩基同一性、保存されたスプライスサイトの数、フレームシフトおよび非フレームシフトのindel density/kb、遺伝子近傍など、マウスとイヌに対する様々な保存統計がリストアップされている。 遺伝子近傍は上流と下流の3つの遺伝子をドットで表示し、シンテニーが保たれている場合は灰色に、そうでない場合は赤色に着色される。
このレポートカードは、遺伝子進化の研究および遺伝子注釈を洗練させるために貴重なものである。 異種間比較による局所的な異常を調べることで、遺伝子アノテーションの明らかな誤り(リーディングフレームやコーディングストランドを変更することで異種間オーソログが明確になる場合を含む)23件、異種間保存により開始または停止コドンの変更、内部エクソンの削除、スプライスサイトの移動が示唆される332件を発見した。 後者は、ヒト遺伝子のアノテーションに誤りがある可能性が高いが、一部は真の種間差異である可能性がある。 レポートカードは、検索ツールや要約表とともに、www.broad.mit.edu/mammals/alpheus.
で入手可能である。