Some Problems in Proving the Existence of the Universal Common Ancestor of Life on Earth

author
11 minutes, 54 seconds Read

Abstract

Although overwhelming circumstantial evidence supports the existence of the universal common ancestor of all extant life on Earth, it is still an open question whether the universal common ancestor existed or not. Theobald (Nature 465, 219-222 (2010)) ostatnio zakwestionował ten problem za pomocą formalnego testu statystycznego zastosowanego do wyrównanych sekwencji konserwatywnych białek ze wszystkich dziedzin życia i stwierdził, że hipoteza uniwersalnego wspólnego przodka istnieje. My jednak wskazujemy na fundamentalną wadę metody Theobalda, w której zastosowano wyrównane sekwencje. Pokazujemy, że wyrównanie daje silny bias na rzecz hipotezy wspólnego przodka i podajemy przykład, że metoda Theobalda wspiera hipotezę wspólnego przodka dla dwóch pozornie niepowiązanych rodzin sekwencji kodujących białka (cytb i nd2 z mitochondriów). Budzi to podejrzenia co do skuteczności „formalnego” testu.

1. Wprowadzenie

Dane generowane przez projekty sekwencjonowania genomowego z szerokiej gamy gatunków pozwalają obecnie na składanie połączonych zestawów danych o sekwencjach białkowych w celu rekonstrukcji uniwersalnego drzewa życia (np., ). Z drugiej strony, nadal pozostaje otwartą kwestią, czy istniał uniwersalny wspólny przodek (UCA) wszystkich istniejących form życia na Ziemi, czy też nie. Chociaż molekularne metody filogenetyczne automatycznie konstruują drzewo, gdy dostarczony jest zestaw danych sekwencyjnych, wywnioskowane drzewo niekoniecznie gwarantuje istnienie UCA, ponieważ jego istnienie jest zakładane implicite od samego początku zwykle w filogenetyce molekularnej.

Teoria UCA cieszyła się przekonującą listą poszlak podaną przez Theobalda . Nie było jednak próby przetestowania hipotezy UCA wśród trzech domen (lub superkrólestw) życia, to jest eubakterii (Bacteria), archaebakterii (Archaea) i eukariontów (Eukarya), przy użyciu sekwencji molekularnych, dopóki Theobald nie zakwestionował tego problemu formalnym testem statystycznym. Używając zestawów danych sekwencyjnych skompilowanych przez Browna i in. oraz stosując kryterium wyboru modelu AIC , wykazał, że hipoteza UCA jest znacznie lepsza niż jakakolwiek hipoteza niezależnego pochodzenia i doszedł do wniosku, że teoria UCA jest słuszna. Podczas gdy hipoteza UCA postuluje, że eubakterie, archaebakterie i eukarionty wywodzą się od jednego wspólnego przodka zwanego UCA, hipotezy niezależnego pochodzenia obejmują takie scenariusze, jak eubakterie mające inne pochodzenie niż archaebakterie/eukarionty lub te trzy domeny mają inne pochodzenie od siebie. Jego próba jest pierwszym krokiem w kierunku ugruntowania teorii UCA na solidnych podstawach statystycznych. Jednak jego metodologia zawiera pewne problemy z ustaleniem teorii UCA, o których mówimy, a w tym komunikacie podamy dalsze szczegóły naszych argumentów.

Najpoważniejszym problemem analizy Theobalda jest to, że wykorzystał on wyrównane sekwencje skompilowane przez Browna i wsp. , którzy byli zainteresowani rozstrzygnięciem filogenetycznych relacji między archaebakteriami, eubakteriami i eukariontami, w tym czy każda dziedzina życia stanowi monofiletyczny klad. Założyli więc z góry istnienie UCA. Rzeczywiście, wyrównanie jest procedurą opartą na założeniu, że sekwencje odbiegły od wspólnej sekwencji przodków. Brown et al. napisali „Poszczególne rodziny białek zostały najpierw wyrównane komputerowo, a następnie ręcznie poprawiliśmy wyrównania. Usunęliśmy słabo konserwowane regiony w poszczególnych wyrównaniach białek.” Ta procedura wyraźnie zakłada istnienie UCA, a to nie stanowiło problemu dla Browna i wsp. ponieważ to, co ich interesowało, to pokrewieństwo filogenetyczne wśród wszystkich gatunków na Ziemi, a istnienie UCA było poparte poszlakami . Jednak w dowodzeniu istnienia UCA nie należy stosować procedury wyrównywania, ponieważ daje ona silny bias na rzecz hipotezy UCA.

W poprzednim komunikacie podaliśmy przykład dwóch pozornie niepowiązanych rodzin sekwencji kodujących kwasy nukleinowe (cytb i nd2 mitochondriów), dla których AIC wybiera hipotezę wspólnego pochodzenia. Ponieważ wyrównanie daje bias dla wspólnego rodowodu, nie zrobiliśmy wyrównania między cytb i nd2, ale nadal wspólne pochodzenie cytb i nd2 było preferowane w stosunku do niezależnego pochodzenia tych dwóch genów. Prawdopodobnie nikt nie uwierzy, że ten wynik należy traktować jako dowód na ostateczne wspólne pochodzenie cytb i nd2. Raczej stawia to znak zapytania co do skuteczności testu Theobalda.

Theobald skrytykował naszą analizę wskazując, że nasz model substytucji nukleotydów GTR+Γ jest zbyt naiwny. Użyliśmy tej samej ramki odczytu obu genów, ale, według Theobalda, ograniczenia kodu genetycznego powinny wywołać korelacje między tymi sekwencjami, które nie wynikają ze wspólnego rodowodu. Jest to słuszna uwaga, dlatego w niniejszej pracy wykorzystamy model substytucji aminokwasów, aby uwzględnić tę korelację. Użyliśmy tylko modelu GTR+Γ substytucji nukleotydów, aby pokazać najbardziej imponujący przypadek bez wyrównania, ale w rzeczywistości preferencja modelu wspólnego pochodzenia nad modelem niezależnego pochodzenia zależy od przyjętego modelu substytucji. Dlatego też, stosując kilka alternatywnych modeli substytucji nukleotydów, jak również aminokwasów, zbadamy, czy domyślne ustawienia programu wyrównującego, za pomocą którego wykonano zestaw danych Theobalda, odrzucają hipotezę wspólnego pochodzenia dwóch pozornie niepowiązanych genów.

2. Materiały i Metody

Do analiz dostarczono ten sam zestaw danych sekwencyjnych, jaki zastosowano w. 5′-końcowe 1038 bp (z wyłączeniem kodonu inicjacyjnego) mitochondrialnych genów cytb i nd2 pochodzących od krowy (EU177848), jelenia (AB210267) i hipopotama (NC_000889) analizowano metodą największego prawdopodobieństwa zaimplementowaną w PAML zakładając relacje ((krowa, jeleń), hipopotam) jak pokazano na Rysunku 1. Hipoteza niezależnego pochodzenia przedstawiona w lewej części rysunku 1 jest porównywana z hipotezą wspólnego pochodzenia przedstawioną w prawej części przy pomocy kryterium AIC . Modele substytucyjne użyte w tej pracy są następujące: JC , K80 , HKY , GTR , K80+Γ , HKY+Γ , i GTR+Γ dla substytucji nukleotydowych oraz modele Poisson, JTT , mtmam , Poisson+Γ , JTT+F+Γ , mtmam+F+Γ dla substytucji aminokwasowych. Do wyrównania użyto CLUSTAL W z różnymi wartościami dla gap open penalty (GOP) i gap extension penalty (GEP). Domyślne wartości (GOP, GEP) wynoszą (15, 6.66) dla sekwencji nukleotydów i (10, 0.1) dla sekwencji aminokwasów, a wartości domyślne dla sekwencji aminokwasów zostały użyte do przygotowania zestawów danych użytych w , w których analizowano tylko sekwencje aminokwasów.

Rysunek 1

Independent origins hypothesis versus common origin hypotheses of cytb and nd2. W hipotezie niezależnego pochodzenia nie istnieje gałąź łącząca te dwa geny, natomiast w hipotezie wspólnego pochodzenia istnieje wspólny przodek tych dwóch genów.

3. Wyniki i dyskusja

Wyniki analizy na poziomie nukleotydów podano w tabeli 1. Bez wyrównania, modele JC, K80+Γ, HKY+Γ i GTR+Γ preferują hipotezę wspólnego pochodzenia, natomiast modele K80, HKY i GTR preferują hipotezę niezależnego pochodzenia. Najlepszym modelem pod względem AIC jest model GTR+Γ, który preferuje wspólne pochodzenie. Następnie przeanalizowano sekwencje wyrównane za pomocą CLUSTAL W o różnych wartościach GOP i GEP. Większe wartości GOP i GEP oznaczają silniejszą karę za wstawienie luki i wydłużenie luki, a co za tym idzie, otrzymane wyrównanie z większymi wartościami jest bliższe zbiorowi danych bez wyrównania niż z mniejszymi wartościami. Poprzez zmianę wartości GOP i GEP z dużych na małe, hipoteza wspólnego pochodzenia ma tendencję do preferowania hipotezy niezależnego pochodzenia niezależnie od modelu substytucji. Co ciekawe, taka sytuacja realizuje się przy (GOP, GEP) = (50, 6.66) przed wartościami domyślnymi (15, 6.66).

(a)
Model Brak wyrównania (1038 bp) (GOP, GEP) = (100, 100) (1026 bp) (GOP, GEP) = (50, 6.66) (1029 bp)
Niezależny Wspólny Niezależny Wspólny
JC 11043.8 11005.5† 10876.9 10844.5† 10935.0 10862.9†
K80 10820.8† 10821.2 10669.3 10662.2† 10727.6 10684.4†
HKY 10398.6† 10414.7 10255.3† 10266.6 10309.7 10294.4†
GTR 10307.5† 10320.4 10186.5† 10192.1 10242.4 10224.3†
K80+Γ 10789.5 10723.4† 10637.5 10562.7† 10695.7 10650.4†
HKY+Γ 10329.8 10274.8† 10186.4 10119.4† 10239.7 10228.4†
GTR+Γ 10271.9 10216.4 † 10129.5 10066.6 † 10184.1 10168.6 †
Homologia* 0.314 0.317 0.349
(b)
Model (GOP, GEP) = (30, 6.66) (1025 bp) (GOP, GEP) = (15, 6.66) (999 bp) (GOP, GEP) = (3, 6.66) (974 bp)
Niezależny Wspólny Niezależny Wspólny
JC 10890.6 10802.2† 10592.4 10409.2 † 10262.1 9865.7†
K80 10684.6 10623.3† 10395.0 10221.3 † 10056.9 9613.1†
HKY 10271.8 10241.0† 9991.1 9875.0 † 9645.8 9283.2†
GTR 10204.9 10170.3 † 9921.1 9820.4 † 9585.0 9234.3†
K80+Γ 10652.5 10577.5† 10363.0 10188.2 † 10028.1 9595.4†
HKY+Γ 10202.4 10162.0† 9920.5 9817.6 † 9580.9 9249.5 †
GTR+Γ 10146.3 10099.7 † 9863.6 9768.5 † 9531.1 9201.7 †
Homologia* 0.360 0.419 0.504
Przedstawiono współczynniki AIC każdego modelu porównującego hipotezy o niezależnym i wspólnym pochodzeniu. Przy porównaniu obu hipotez, hipoteza o niższym AIC była oznaczana przez †. Model substytucji z minimalnym AIC w każdym zbiorze danych został oznaczony podkreśleniem. Domyślne wartości GOP i GEP zaznaczono pogrubioną czcionką.
*Homologia między alignacjami cytb i nd2, którą zdefiniowano przez 1-(średnia 𝑝-odległość między cytb i nd2).
Tabela 1
Formalne testy wspólnego pochodzenia pomiędzy cytb i nd2 na podstawie zestawów danych sekwencji nukleotydowych wyrównanych z różnymi wartościami kar gap (GOP i GEP).

Analogiczną analizę na poziomie aminokwasów przedstawia Tabela 2. W tym przypadku hipoteza wspólnego pochodzenia preferowana jest jedynie przez modele Poissona i JTT bez wyrównania, natomiast najlepszy model mtmam+F+Γ preferuje pochodzenie niezależne. Sekwencje wyrównane przy domyślnych ustawieniach dają również różne wyniki w zależności od przyjętego modelu substytucji; podczas gdy proste modele, takie jak Poisson, JTT i Poisson+Γ preferują hipotezę wspólnego pochodzenia, najlepszy dostępny model pod względem AIC, model mtmam+F+Γ, preferuje niezależne pochodzenie. Prawdopodobnie silniejsza preferencja hipotezy wspólnego przodka przy analizie na poziomie nukleotydów wynika, jak zauważył Theobald, z ograniczeń kodu genetycznego, które powodują korelacje między sekwencjami, które nie wynikają ze wspólnego przodka. Zwłaszcza w genach kodujących białka mitochondrialne ssaków na nici ciężkiej, wykorzystanych w naszej analizie, pozycje drugiego kodonu są skośne w kierunku T, podczas gdy pozycje trzeciego kodonu są skośne w kierunku A i skośne przeciwko G . Tak więc silne preferowanie hipotezy wspólnego pochodzenia przez analizę nukleotydową jest prawdopodobnie spowodowane ograniczeniami kodu genetycznego. Warto jednak wspomnieć, że chociaż najlepszy dostępny model substytucyjny analizy aminokwasów bez wyrównania i z wyrównaniem o domyślnych ustawieniach preferuje hipotezę niezależnego pochodzenia, to hipoteza wspólnego pochodzenia jest preferowana przez niektóre modele substytucyjne. To rodzi poważny problem co do skuteczności testu formalnego. Theobald użył podobnego zestawu danych o sekwencjach aminokwasów jak Brown et al. , który użył CLUSTALW z domyślnymi ustawieniami do wyrównania poszczególnych zestawów danych o białkach. W rzeczywistości Theobald użył innego programu o nazwie ProbCons zamiast CLUSTALW do wyrównania sekwencji, ale różnica ta nie powinna być krytycznie istotna dla naszych argumentów.

.

Model Brak wyrównania (346 aa) (GOP, GEP) = (100, 100) (338 aa) (GOP, GEP) = (15, 6.66) (342 aa) (GOP, GEP) = (10, 0.1) (330 aa) (GOP, GEP) = (1, 0.1) (313 aa)
Independent Common Independent Common Independent Common Common Independent Common Independent Common
Poisson 5934.3 5933.5† 5748.6 5745.8† 5856.9 5838.6† 5664.9 5638.0 † 5403.1 5288.6†
Poisson+Γ 5922.0† 5933.5 5735.9† 5740.6 5843.9 5832.3† 5651.7 5639.0 † 5392.7 5288.5†
JTT 5591.5 5586.1† 5420.3 5414.0† 5515.8 5495.6† 5335.5 5276,4 † 5080,2 4879,8†
mtmam 5247,4† 5252,5 5083,1† 5090,8 5174.7† 5176.0 4995.4 4989.9 † 4754.3 4688.6†
JTT+F+Γ 5304.3† 5325.8 5133.7† 5152.8 5226.8† 5231.7 5044.8 5034.2 † 4809.5 4682.4†
mtmam+F+Γ 5248.1 † 5272.3 5082.6 † 5107.7 5174.6 † 5185.4 4995.0 † 4995,6 4759,7 4678,7 †
Homologia* 0,077 0,083 0.107 0.123 0.216
Przedstawiono współczynniki AIC każdego modelu porównującego hipotezy o niezależnym i wspólnym pochodzeniu. Przy porównaniu obu hipotez, hipoteza o niższym AIC była oznaczana przez †. Model substytucji z minimalnym AIC w każdym zbiorze danych został oznaczony podkreśleniem. Domyślne wartości GOP i GEP zaznaczono pogrubioną czcionką.
*Homologia między alignacjami cytb i nd2, którą zdefiniowano przez 1-(średnia 𝑝-odległość między cytb i nd2).
Tabela 2
Formalne testy wspólnego rodowodu między cytb i nd2 na podstawie zestawów danych sekwencji aminokwasowych wyrównanych z różnymi wartościami kar gap (GOP i GEP).

Ponieważ cytb i nd2 kodowane na ciężkiej nici mitochondrialnego DNA mają podobne składy aminokwasowe , może to wywoływać korelacje między tymi sekwencjami, które nie wynikają ze wspólnego przodka. To oświetla kolejną wadę w analizie Theobalda; to znaczy, że nie wziął pod uwagę możliwości ewolucji konwergentnej, jak omówione przez nas . Podczas gdy przykłady omówione w były w konwergencji ze względu na wymóg podobnej funkcji i adaptacji do podobnego środowiska, istnieje inny rodzaj konwergencji, to jest konwergencja do podobnego składu aminokwasów, które mogą być osiągnięte przez wiele różnych sposobów. Podobny skład aminokwasowy między cytb i nd2 może nie być bona fide konwergencją, ale może jedynie reprezentować ograniczenia wynikające ze współistnienia tych dwóch genów w tym samym genomie, ale skutecznie reprezentuje podobną sytuację ewolucji konwergentnej.

Jeśli chodzi o stronniczość spowodowaną przez wyrównanie, teoretycznie można ją rozwiązać przez włączenie procedury wyrównania w ramy estymacji drzewa z maksymalnym prawdopodobieństwem. Większość obecnych programów wyrównujących traktuje wyrównanie i filogenezę oddzielnie, podczas gdy w rzeczywistości są one współzależne. Kiedy zostanie opracowana praktyczna metoda jednoczesnego szacowania wyrównania i filogenezy w ramach maksymalnego prawdopodobieństwa, będziemy mogli porównać AIC między hipotezą UCA i hipotezą niezależnego pochodzenia, biorąc pod uwagę log-likelihood dla procesu insercji/delecji, bez żadnego uprzedzenia dla hipotezy UCA. Z drugiej jednak strony, uwzględnienie możliwości ewolucji konwergentnej wydaje się niełatwe, gdyż każda obecnie stosowana metoda największej wiarygodności zakłada proces stochastyczny reprezentujący ewolucję różnicującą, a w tych ramach trudno jest uwzględnić ewolucję konwergentną. Być może potrzebny jest zupełnie nowy paradygmat, aby ostatecznie rozwiązać problem, który podważył Theobald. Niezależnie od tych problemów z udowodnieniem istnienia UCA za pomocą testów statystycznych, prawdą jest, że istnieją silne poszlaki na jego istnienie .

Charles Darwin napisał w O pochodzeniu gatunków w następujący sposób: „Powinienem wnioskować z analogii, że prawdopodobnie wszystkie istoty organiczne, które kiedykolwiek żyły na tej ziemi, wywodzą się z jakiejś pierwotnej formy, w którą najpierw tchnęło życie”. Wydaje się, że Darwin odrzucił wielorakie początki życia na Ziemi. Jednak, jak słusznie zauważył Theobald, teoria UKF dopuszcza możliwość wielu niezależnych początków życia. Hipoteza UCA stwierdza po prostu, że całe istniejące życie na Ziemi wywodzi się z jednego wspólnego gatunku przodka. W trakcie historii życia musiało dojść do ogromnej ilości wymierań i nie wiadomo, jakie rodzaje życia wymarły w trakcie wczesnej ewolucji życia. Mimo to wydaje się prawdopodobne, że podczas powstawania życia doszło do ogromnej ilości prób i błędów różnych form, a UCA, jeśli istniała, była tylko jedną z nich. Ponadto, jak twierdzą Raup i Valentine, prawdopodobieństwo przetrwania życia jest niskie, chyba że istnieje wiele źródeł. Nawet jeśli hipoteza UCA trzyma się, przetrwanie konkretnej formy życia nie implikuje, że była ona unikalna lub lepsza.

Podziękowania

Badania te były częściowo wspierane przez Grants-in-Aid for Scientific Research C22570099 dla M. Hasegawy z JSPS.

.

Similar Posts

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany.