Abstract
Obwohl überwältigende Indizien die Existenz des universellen gemeinsamen Vorfahren allen existierenden Lebens auf der Erde belegen, ist es immer noch eine offene Frage, ob der universelle gemeinsame Vorfahre existierte oder nicht. Theobald (Nature 465, 219-222 (2010)) hat dieses Problem kürzlich mit einem formalen statistischen Test auf ausgerichtete Sequenzen konservativer Proteine aus allen Bereichen des Lebens untersucht und ist zu dem Schluss gekommen, dass die Hypothese des gemeinsamen Vorfahren Bestand hat. Wir weisen jedoch auf einen grundlegenden Fehler in Theobalds Methode hin, die ausgerichtete Sequenzen verwendet. Wir zeigen, dass das Alignment einen starken Einfluss auf die Hypothese des gemeinsamen Vorfahren hat, und wir geben ein Beispiel dafür, dass Theobalds Methode die Hypothese des gemeinsamen Vorfahren für zwei scheinbar nicht miteinander verwandte Familien von Protein-kodierenden Sequenzen (cytb und nd2 der Mitochondrien) unterstützt. Dies lässt Zweifel an der Wirksamkeit des „formalen“ Tests aufkommen.
1. Einleitung
Daten, die im Rahmen von Genomsequenzierungsprojekten aus einer Vielzahl von Arten gewonnen wurden, ermöglichen jetzt die Zusammenstellung kombinierter Proteinsequenzdatensätze, um den universellen Lebensbaum zu rekonstruieren (z. B. ). Andererseits ist es immer noch eine offene Frage, ob der universelle gemeinsame Vorfahre (UCA) allen existierenden Lebens auf der Erde existierte oder nicht. Obwohl molekularphylogenetische Methoden automatisch einen Baum konstruieren, wenn ein Sequenzdatensatz zur Verfügung gestellt wird, garantiert der abgeleitete Baum nicht notwendigerweise die Existenz des UCA, da seine Existenz in der Regel in der molekularen Phylogenetik von Anfang an implizit angenommen wird.
Die Theorie des UCA hat eine überzeugende Liste von Indizien genossen, wie sie von Theobald gegeben wurde. Es gab jedoch keinen Versuch, die UCA-Hypothese zwischen den drei Domänen (oder Superkingdomen) des Lebens, d. h. Eubakterien (Bacteria), Archaebakterien (Archaea) und Eukaryoten (Eukarya), mit Hilfe molekularer Sequenzen zu testen, bis Theobald dieses Problem mit einem formalen statistischen Test in Angriff nahm. Unter Verwendung der von Brown et al. zusammengestellten Sequenzdatensätze und des Modellauswahlkriteriums AIC zeigte er, dass die UCA-Hypothese jeder unabhängigen Ursprungshypothese weit überlegen ist, und er kam zu dem Schluss, dass die UCA-Theorie Bestand hat. Während die UCA-Hypothese postuliert, dass Eubakterien, Archaebakterien und Eukaryoten von einem einzigen gemeinsamen Vorfahren abstammen, der UCA genannt wird, umfassen die unabhängigen Ursprungshypothesen Szenarien wie Eubakterien, die einen anderen Ursprung als Archaebakterien/Eukaryoten haben, oder die drei Bereiche haben unterschiedliche Ursprünge voneinander. Sein Versuch ist der erste Schritt in Richtung des Ziels, die UCA-Theorie auf eine solide statistische Grundlage zu stellen. Seine Methodik birgt jedoch einige Probleme für die Aufstellung der UCA-Theorie, die wir erörtert haben, und in dieser Mitteilung werden wir unsere Argumente näher erläutern.
Das schwerwiegendste Problem von Theobalds Analyse besteht darin, dass er ausgerichtete Sequenzen verwendet hat, die von Brown et al. zusammengestellt wurden, die daran interessiert waren, die phylogenetischen Beziehungen zwischen Archaebakterien, Eubakterien und Eukaryonten zu klären, einschließlich der Frage, ob jede Lebensdomäne eine monophyletische Klade bildet. Sie gingen also grundsätzlich von der Existenz der UCA aus. Das Alignment ist nämlich ein Verfahren, das auf der Annahme beruht, dass sich die Sequenzen von einer gemeinsamen Vorgängersequenz entfernt haben. Brown et al. schrieben: „Einzelne Proteinfamilien wurden zuerst am Computer ausgerichtet und dann haben wir die Ausrichtungen manuell verfeinert. Wir entfernten schlecht konservierte Regionen in den einzelnen Protein-Alignments“. Dieses Verfahren setzt eindeutig die Existenz von UCA voraus, was für Brown et al. kein Problem darstellte, denn sie interessierten sich für die phylogenetischen Beziehungen zwischen allen Arten auf der Erde, und die Existenz von UCA wurde durch Indizien belegt. Zum Nachweis der Existenz von UCA sollte das Alignment-Verfahren jedoch nicht verwendet werden, da es eine starke Verzerrung zugunsten der UCA-Hypothese bewirkt.
In einer früheren Mitteilung haben wir ein Beispiel für zwei scheinbar nicht miteinander verwandte Familien von Nukleinsäure-kodierenden Sequenzen (cytb und nd2 der Mitochondrien) angeführt, für die AIC eine gemeinsame Ursprungshypothese wählt. Da das Alignment eine Tendenz zur gemeinsamen Abstammung ergibt, haben wir kein Alignment zwischen cytb und nd2 durchgeführt, aber dennoch wurde der gemeinsame Ursprung von cytb und nd2 dem unabhängigen Ursprung dieser beiden Gene vorgezogen. Wahrscheinlich wird niemand glauben, dass dieses Ergebnis als Beweis für die endgültige gemeinsame Abstammung von cytb und nd2 angesehen werden sollte. Vielmehr wirft dies ein Fragezeichen hinter die Wirksamkeit von Theobalds Test auf.
Theobald kritisierte unsere Analyse, indem er darauf hinwies, dass unser Nukleotid-Substitutionsmodell von GTR+Γ zu naiv ist. Wir haben das gleiche Leseraster der beiden Gene verwendet, aber laut Theobald ist zu erwarten, dass die Beschränkungen des genetischen Codes Korrelationen zwischen diesen Sequenzen hervorrufen, die nicht auf eine gemeinsame Abstammung zurückzuführen sind. Dies ist ein guter Punkt, und in dieser Arbeit werden wir auch das Modell der Aminosäuresubstitution verwenden, um diese Korrelation zu erklären. Wir haben nur das GTR+Γ-Modell der Nukleotidsubstitution verwendet, um den eindrucksvollsten Fall ohne Alignment zu zeigen, aber tatsächlich hängt die Bevorzugung des Modells des gemeinsamen Ursprungs gegenüber dem Modell des unabhängigen Ursprungs von dem angenommenen Substitutionsmodell ab. Daher werden wir unter Verwendung mehrerer alternativer Substitutionsmodelle für Nukleotide und Aminosäuren untersuchen, ob die Standardeinstellungen des Alignment-Programms, mit dem der Datensatz von Theobald erstellt wurde, die Hypothese des gemeinsamen Ursprungs der beiden scheinbar nicht verwandten Gene zurückweisen.
2. Materialien und Methoden
Für die Analysen wurde der gleiche Sequenzdatensatz wie in verwendet. Die 5′-terminalen 1.038 bp (ohne das Initiationscodon) der mitochondrialen Gene von cytb und nd2 von Kuh (EU177848), Hirsch (AB210267) und Flusspferd (NC_000889) wurden mit der in PAML implementierten Maximum-Likelihood-Methode unter der Annahme der in Abbildung 1 dargestellten Beziehungen ((Kuh, Hirsch), Flusspferd) analysiert. Die auf der linken Seite von Abbildung 1 dargestellte Hypothese des unabhängigen Ursprungs wird mit der auf der rechten Seite dargestellten Hypothese des gemeinsamen Ursprungs mit dem Kriterium des AIC verglichen. Die in dieser Arbeit verwendeten Substitutionsmodelle sind folgende: JC , K80 , HKY , GTR , K80+Γ , HKY+Γ und GTR+Γ für Nukleotidsubstitutionen und Poisson, JTT , mtmam , Poisson+Γ , JTT+F+Γ , mtmam+F+Γ Modelle für Aminosäuresubstitutionen. CLUSTAL W wurde für das Alignment mit verschiedenen Werten für Gap Open Penalty (GOP) und Gap Extension Penalty (GEP) verwendet. Die Standardwerte von (GOP, GEP) sind (15, 6.66) für Nukleotidsequenzen und (10, 0.1) für Aminosäuresequenzen, und die Standardwerte für Aminosäuresequenzen wurden bei der Vorbereitung der in verwendeten Datensätze verwendet, bei denen nur Aminosäuresequenzen analysiert wurden.
Unabhängige Ursprungshypothese versus gemeinsame Ursprungshypothese von cytb und nd2. Bei der Hypothese des unabhängigen Ursprungs gibt es keinen Zweig, der die beiden Gene verbindet, während bei der Hypothese des gemeinsamen Ursprungs ein gemeinsamer Vorfahre der beiden Gene existiert.
3. Ergebnisse und Diskussion
Das Ergebnis der Analyse auf Nukleotidebene ist in Tabelle 1 dargestellt. Ohne Alignment bevorzugen die Modelle JC, K80+Γ, HKY+Γ und GTR+Γ die Hypothese des gemeinsamen Ursprungs, während die Modelle K80, HKY und GTR die Hypothese des unabhängigen Ursprungs bevorzugen. Das beste Modell in Bezug auf AIC ist das Modell GTR+Γ, das den gemeinsamen Ursprung bevorzugt. Anschließend wurden mit CLUSTAL W alignierte Sequenzen mit verschiedenen GOP- und GEP-Werten analysiert. Größere Werte von GOP und GEP bedeuten eine stärkere Bestrafung für das Einfügen einer Lücke und Lückenerweiterung, und dementsprechend ist das resultierende Alignment mit größeren Werten näher am Datensatz ohne Alignment als das mit kleineren Werten. Ändert man die GOP- und GEP-Werte von großen auf kleine Werte, wird die Hypothese des gemeinsamen Ursprungs gegenüber der Hypothese des unabhängigen Ursprungs bevorzugt, unabhängig vom Substitutionsmodell. Interessanterweise wird eine solche Situation mit (GOP, GEP) = (50, 6.66) vor den Standardwerten von (15, 6.66) realisiert.
(a) | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
|
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
(b) | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
|
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
AICs jedes Modells, das die Hypothese des unabhängigen und des gemeinsamen Ursprungs vergleicht, wurden gezeigt. Beim Vergleich zwischen den beiden Hypothesen wurde die Hypothese mit dem niedrigeren AIC durch † gekennzeichnet. Das Substitutionsmodell mit dem minimalen AIC in jedem Datensatz wurde durch einen Unterstrich gekennzeichnet. Die Standardwerte von GOP und GEP wurden in fetter Schrift angegeben. *Homologie zwischen cytb- und nd2-Alignments, definiert durch 1-(durchschnittliche 𝑝-Distanz zwischen cytb und nd2). |
Eine ähnliche Analyse auf der Ebene der Aminosäuren ist in Tabelle 2 dargestellt. In diesem Fall wird die Hypothese des gemeinsamen Ursprungs nur von den Poisson- und JTT-Modellen ohne Alignment bevorzugt, während das beste Modell von mtmam+F+Γ die unabhängigen Ursprünge bevorzugt. Die ausgerichteten Sequenzen mit der Standardeinstellung liefern auch unterschiedliche Ergebnisse je nach angenommenem Substitutionsmodell; während einfache Modelle wie das Poisson-, das JTT- und das Poisson+Γ-Modell die Hypothese des gemeinsamen Ursprungs bevorzugen, bevorzugt das beste verfügbare Modell in Bezug auf AIC, das mtmam+F+Γ-Modell, die unabhängigen Ursprünge. Die stärkere Bevorzugung der Hypothese des gemeinsamen Vorfahren bei der Analyse auf Nukleotidebene ist, wie Theobald feststellte, wahrscheinlich auf die Beschränkungen des genetischen Codes zurückzuführen, die Korrelationen zwischen den Sequenzen hervorrufen, die nicht auf eine gemeinsame Abstammung zurückzuführen sind. Insbesondere in den mitochondrialen proteinkodierenden Genen von Säugetieren auf dem schweren Strang, die in unserer Analyse verwendet wurden, sind die Positionen des zweiten Codons gegenüber dem T voreingenommen, während die Positionen des dritten Codons gegenüber dem A und gegenüber dem G voreingenommen sind. Daher ist die starke Bevorzugung der Hypothese des gemeinsamen Ursprungs durch die Nukleotidanalyse wahrscheinlich auf die Beschränkungen des genetischen Codes zurückzuführen. Es ist jedoch erwähnenswert, dass, obwohl das beste verfügbare Substitutionsmodell der Aminosäureanalyse ohne Alignment und mit Alignment in der Standardeinstellung die Hypothese des unabhängigen Ursprungs bevorzugt, die Hypothese des gemeinsamen Ursprungs von einigen Substitutionsmodellen bevorzugt wird. Dies wirft ein ernsthaftes Problem in Bezug auf die Wirksamkeit des formalen Tests auf. Theobald verwendete einen ähnlichen Datensatz von Aminosäuresequenzen wie Brown et al., die CLUSTALW mit Standardeinstellungen zum Alignment einzelner Proteindatensätze verwendeten. Tatsächlich verwendete Theobald beim Alignment der Sequenzen ein anderes Programm namens ProbCons anstelle von CLUSTALW, aber der Unterschied sollte für unsere Argumente nicht von entscheidender Bedeutung sein.
|
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
AICs jedes Modells, das die Hypothese des unabhängigen und des gemeinsamen Ursprungs vergleicht, wurden gezeigt. Beim Vergleich zwischen den beiden Hypothesen wurde die Hypothese mit dem niedrigeren AIC durch † gekennzeichnet. Das Substitutionsmodell mit dem minimalen AIC in jedem Datensatz wurde durch einen Unterstrich gekennzeichnet. Standardwerte von GOP und GEP wurden in fetter Schrift angegeben. *Homologie zwischen cytb- und nd2-Alignments, definiert durch 1-(durchschnittliche 𝑝-Distanz zwischen cytb und nd2). |
Da cytb und nd2, die auf dem schweren Strang der mitochondrialen DNA kodiert werden, eine ähnliche Aminosäurenzusammensetzung haben, kann dies zu Korrelationen zwischen diesen Sequenzen führen, die nicht auf eine gemeinsame Abstammung zurückzuführen sind. Dies verdeutlicht einen weiteren Fehler in Theobalds Analyse, nämlich dass er die Möglichkeit einer konvergenten Evolution, wie sie von uns diskutiert wird, nicht berücksichtigt hat. Während es sich bei den diskutierten Beispielen um Konvergenz aufgrund der Anforderung einer ähnlichen Funktion und der Anpassung an eine ähnliche Umwelt handelt, gibt es eine andere Art von Konvergenz, nämlich die Konvergenz zu einer ähnlichen Aminosäurezusammensetzung, die auf viele verschiedene Arten erreicht werden kann. Eine ähnliche Aminosäurenzusammensetzung zwischen cytb und nd2 ist möglicherweise keine echte Konvergenz, sondern nur eine Einschränkung aufgrund der Koexistenz der beiden Gene im selben Genom, stellt aber effektiv eine ähnliche Situation konvergenter Evolution dar.
Was die durch das Alignment verursachte Verzerrung betrifft, so kann sie theoretisch gelöst werden, indem das Alignment-Verfahren in den Rahmen der Maximum-Likelihood-Baumschätzung einbezogen wird. Die meisten aktuellen Alignment-Programme behandeln Alignment und Phylogenie getrennt, obwohl sie in Wirklichkeit voneinander abhängig sind. Wenn eine praktische Methode zur gleichzeitigen Schätzung von Alignment und Phylogenie im Rahmen der Maximum-Likelihood-Methode entwickelt wird, könnten wir den AIC zwischen der UCA- und der unabhängigen Ursprungshypothese vergleichen, indem wir die log-likelihood für den Insertions-/Deletionsprozess berücksichtigen, ohne dass die UCA-Hypothese verzerrt wird. Andererseits scheint es jedoch nicht einfach zu sein, die Möglichkeit einer konvergenten Evolution zu berücksichtigen, da jede derzeit verwendete Maximum-Likelihood-Methode von einem stochastischen Prozess ausgeht, der eine diversifizierende Evolution darstellt, und es schwierig ist, in diesem Rahmen eine konvergente Evolution zu berücksichtigen. Es könnte ein völlig neues Paradigma erforderlich sein, um das von Theobald angesprochene Problem endgültig zu lösen. Trotz dieser Probleme, die Existenz von UCA durch statistische Tests zu beweisen, gibt es starke Indizien für ihre Existenz.
Charles Darwin schrieb in On the Origin of Species wie folgt: „Ich sollte aus der Analogie schließen, dass wahrscheinlich alle organischen Wesen, die jemals auf dieser Erde gelebt haben, von einer Urform abstammen, in die das Leben zuerst gehaucht wurde.“ Darwin scheint mehrere Ursprünge des Lebens auf der Erde verworfen zu haben. Wie Theobald jedoch richtig feststellte, lässt die UCA-Theorie die Möglichkeit mehrerer unabhängiger Ursprünge des Lebens zu. Die UCA-Hypothese besagt einfach, dass alles Leben auf der Erde von einer einzigen gemeinsamen Vorfahrenart abstammt. Im Laufe der Geschichte des Lebens muss es eine große Anzahl von Aussterbeereignissen gegeben haben, und es gibt keine Möglichkeit zu erfahren, welche Arten von Leben während der frühen Evolution des Lebens ausgestorben sind. Dennoch scheint es wahrscheinlich, dass es während der Entstehung des Lebens eine große Anzahl von Versuchen und Irrtümern verschiedener Formen gab und dass UCA, falls es existierte, nur einer davon war. Außerdem ist, wie Raup und Valentine argumentieren, die Wahrscheinlichkeit des Überlebens von Leben gering, wenn es nicht mehrere Ursprünge gibt. Selbst wenn die UCA-Hypothese zutrifft, bedeutet das Überleben einer bestimmten Lebensform nicht, dass sie einzigartig oder überlegen war.
Danksagung
Diese Forschung wurde teilweise durch Grants-in-Aid for Scientific Research C22570099 an M. Hasegawa von JSPS unterstützt.