Abstrakt
Ačkoli přesvědčivé nepřímé důkazy podporují existenci univerzálního společného předka veškerého existujícího života na Zemi, je stále otevřenou otázkou, zda univerzální společný předek existoval, či nikoli. Theobald (Nature 465, 219-222 (2010)) nedávno zpochybnil tento problém formálním statistickým testem aplikovaným na zarovnané sekvence konzervativních proteinů vybraných ze všech domén života a dospěl k závěru, že hypotéza univerzálního společného předka platí. Poukazujeme však na to, že v Theobaldově metodě, která používala zarovnané sekvence, je zásadní chyba. Ukazujeme, že zarovnání dává silné zkreslení ve prospěch hypotézy společného předka, a uvádíme příklad, že Theobaldova metoda podporuje hypotézu společného předka pro dvě zdánlivě nepříbuzné rodiny sekvencí kódujících proteiny (cytb a nd2 z mitochondrií). To vzbuzuje podezření ohledně účinnosti „formálního“ testu.
1. Úvod
Data získaná v rámci projektů genomického sekvenování nejrůznějších druhů nyní umožňují sestavit kombinované soubory dat o proteinových sekvencích a rekonstruovat tak univerzální strom života (např. ). Na druhou stranu je stále otevřenou otázkou, zda univerzální společný předek (UCA) všeho existujícího života na Zemi existoval, či nikoli. Ačkoli molekulárně fylogenetické metody automaticky konstruují strom, je-li poskytnut soubor sekvenčních dat, odvozený strom nemusí nutně zaručovat existenci UCA, protože jeho existence se v molekulární fylogenetice obvykle od počátku implicitně předpokládá.
Teorie UCA se těší přesvědčivému seznamu nepřímých důkazů, jak je uvádí Theobald . Neexistoval však žádný pokus otestovat hypotézu UCA mezi třemi doménami (nebo naddoménami) života, tj. eubakteriemi (Bacteria), archeobakteriemi (Archaea) a eukaryoty (Eukarya), pomocí molekulárních sekvencí, dokud Theobald nezpochybnil tento problém formálním statistickým testem. Pomocí souborů sekvenčních dat sestavených Brownem et al. a pomocí kritéria výběru modelu AIC , ukázal, že hypotéza UCA je mnohem lepší než jakákoli hypotéza nezávislého původu, a dospěl k závěru, že teorie UCA platí. Zatímco hypotéza UCA postuluje, že eubakterie, archeobakterie a eukaryota vzešly z jediného společného předka zvaného UCA, hypotézy nezávislého původu zahrnují scénáře, jako že eubakterie mají jiný původ než archeobakterie/eukaryota nebo že tyto tři domény mají navzájem odlišný původ. Jeho pokus je prvním krokem k cíli vytvořit teorii UCA s pevným statistickým základem. Jeho metodika však obsahuje některé problémy pro stanovení teorie UCA, jak jsme o nich hovořili my , a v tomto sdělení uvedeme další podrobnosti našich argumentů.
Nejzávažnějším problémem Theobaldovy analýzy je, že použil srovnané sekvence sestavené Brownem a spol, kteří se zajímali o řešení fylogenetických vztahů mezi archeobakteriemi, eubakteriemi a eukaryoty, včetně toho, zda každá doména života tvoří monofyletický klad. Proto a priory předpokládali existenci UCA. Zarovnání je totiž postup založený na předpokladu, že sekvence se oddělily od společné sekvence předků. Brown a kol. napsali: „Jednotlivé proteinové rodiny byly nejprve zarovnány na počítači a poté jsme zarovnání ručně upřesnili. V zarovnáních jednotlivých proteinů jsme odstranili málo konzervované oblasti.“ Tento postup zjevně předpokládá existenci UCA, a to pro Browna a spol. nebyl problém, protože je zajímaly fylogenetické vztahy mezi všemi druhy na Zemi a existence UCA byla podpořena nepřímými důkazy . Při dokazování existence UCA by se však postup zarovnávání neměl používat, protože silně vychyluje ve prospěch hypotézy UCA.
V předchozím sdělení jsme uvedli příklad ze dvou zdánlivě nepříbuzných rodin kódujících sekvencí nukleových kyselin (cytb a nd2 mitochondrií), pro které AIC vybírá hypotézu společného původu. Protože zarovnání dává přednost společnému původu, neprovedli jsme zarovnání mezi cytb a nd2, ale přesto byl společný původ cytb a nd2 upřednostněn před nezávislým původem těchto dvou genů. Pravděpodobně nikdo neuvěří, že by tento výsledek měl být považován za důkaz konečného společného původu cytb a nd2. Spíše to vyvolává pochybnosti o účinnosti Theobaldova testu.
Theobald kritizoval naši analýzu poukazem na to, že náš model nukleotidových substitucí GTR+Γ je příliš naivní. Použili jsme stejný čtecí rámec obou genů, ale podle Theobalda se očekává, že omezení genetického kódu vyvolá korelace mezi těmito sekvencemi, které nejsou způsobeny společným původem. To je dobrý postřeh a v této práci použijeme model substituce aminokyselin i k zohlednění této korelace. Použili jsme pouze model substituce nukleotidů GTR+Γ, abychom ukázali nejpůsobivější případ bez zarovnání, ale ve skutečnosti preference modelu společného původu před modelem nezávislého původu závisí na předpokládaném modelu substituce. Proto pomocí několika alternativních substitučních modelů nukleotidů i aminokyselin prozkoumáme, zda výchozí nastavení programu pro zarovnávání, s nímž byl vytvořen soubor dat Theobald, zamítá hypotézu o společném původu dvou zdánlivě nepříbuzných genů.
2. Materiál a metody
Pro analýzy byl poskytnut stejný soubor sekvenčních dat, jaký byl použit v práci. Metodou maximální věrohodnosti implementovanou v programu PAML za předpokladu vztahů ((kráva, jelen), hroch), jak je znázorněno na obrázku 1, byl analyzován 5′-konec 1 038 bp (bez iniciačního kodonu) mitochondriálních genů cytb a nd2 od krávy (EU177848), jelena (AB210267) a hrocha (NC_000889). Hypotéza nezávislého původu zobrazená v levé části obrázku 1 je porovnána s hypotézou společného původu zobrazenou v pravé části pomocí kritéria AIC . Substituční modely použité v této práci jsou následující: JC , K80 , HKY , GTR , K80+Γ , HKY+Γ a GTR+Γ pro substituce nukleotidů a modely Poisson, JTT , mtmam , Poisson+Γ , JTT+F+Γ , mtmam+F+Γ pro substituce aminokyselin. Pro zarovnání byl použit model CLUSTAL W s různými hodnotami penalizace za otevření mezery (GOP) a penalizace za rozšíření mezery (GEP). Výchozí hodnoty (GOP, GEP) jsou (15, 6,66) pro sekvence nukleotidů a (10, 0,1) pro sekvence aminokyselin a výchozí hodnoty pro sekvence aminokyselin byly použity při přípravě souborů dat použitých v , v nichž byly analyzovány pouze sekvence aminokyselin.
Hypotéza nezávislého původu versus hypotézy společného původu cytb a nd2. V hypotéze nezávislého původu neexistuje žádná větev spojující oba geny, zatímco v hypotéze společného původu existuje společný předek obou genů.
3. Výsledky a diskuse
Výsledek analýzy na úrovni nukleotidů je uveden v tabulce 1. Bez zarovnání preferují modely JC, K80+Γ, HKY+Γ a GTR+Γ hypotézu společného původu, zatímco modely K80, HKY a GTR hypotézu nezávislého původu. Nejlepším modelem s ohledem na AIC je model GTR+Γ, který preferuje společný původ. Poté byly analyzovány sekvence zarovnané pomocí CLUSTAL W s různými hodnotami GOP a GEP. Větší hodnoty GOP a GEP znamenají silnější postih za vložení mezery a prodloužení mezery, a podle toho je výsledné zarovnání s většími hodnotami blíže souboru dat bez zarovnání než zarovnání vytvořené s menšími hodnotami. Při změně hodnot GOP a GEP z velkých na malé má hypotéza společného původu tendenci být upřednostňována před hypotézou nezávislého původu bez ohledu na substituční model. Zajímavé je, že taková situace se realizuje při (GOP, GEP) = (50, 6,66) před výchozími hodnotami (15, 6,66).
(a) | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
|
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
(b) | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
|
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Byly uvedeny AIC jednotlivých modelů porovnávajících hypotézy nezávislého a společného původu. Při porovnání obou hypotéz byla hypotéza s nižším AIC označena †. Substituční model s minimálním AIC v každém souboru dat byl označen podtržením. Výchozí hodnoty GOP a GEP byly vyznačeny tučným písmem. *Homologie mezi zarovnáními cytb a nd2, která je definována jako 1-(průměrná 𝑝-vzdálenost mezi cytb a nd2). |
Podobná analýza na úrovni aminokyselin je uvedena v tabulce 2. V tomto případě hypotézu společného původu preferují pouze Poissonův model a model JTT bez zarovnání, zatímco nejlepší model mtmam+F+Γ preferuje nezávislý původ. Zarovnané sekvence s výchozím nastavením také poskytují různé výsledky v závislosti na předpokládaném substitučním modelu; zatímco jednoduché modely jako Poisson, JTT a Poisson+Γ preferují hypotézu společného původu, nejlepší dostupný model s ohledem na AIC, model mtmam+F+Γ, preferuje nezávislý původ. Pravděpodobně silnější preference hypotézy společného původu při analýze na úrovni nukleotidů je, jak upozornil Theobald, způsobena omezeními genetického kódu, která vyvolávají korelace mezi sekvencemi, jež nejsou způsobeny společným původem. Zejména v savčích mitochondriálních genech kódujících proteiny na těžkém vlákně, které byly použity v naší analýze, jsou pozice druhého kodonu vychýleny směrem k T, zatímco pozice třetího kodonu jsou vychýleny směrem k A a vychýleny proti G . Silná preference hypotézy společného původu podle nukleotidové analýzy je tedy pravděpodobně způsobena omezeními genetického kódu. Je však třeba zmínit, že ačkoli nejlepší dostupný substituční model aminokyselinové analýzy bez zarovnání a se zarovnáním výchozího nastavení upřednostňuje hypotézu nezávislého původu, hypotézu společného původu upřednostňují některé substituční modely. To vyvolává vážný problém, pokud jde o účinnost formálního testu. Theobald použil podobný soubor dat sekvencí aminokyselin jako Brown et al. , kteří použili CLUSTALW s výchozím nastavením k zarovnání jednotlivých souborů dat proteinů. Ve skutečnosti Theobald použil při zarovnávání sekvencí místo programu CLUSTALW jiný program s názvem ProbCons, ale tento rozdíl by neměl být pro naše argumenty kriticky důležitý.
|
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Byly uvedeny AIC jednotlivých modelů porovnávajících hypotézy nezávislého a společného původu. Při porovnání obou hypotéz byla hypotéza s nižším AIC označena †. Substituční model s minimálním AIC v každém souboru dat byl označen podtržením. Výchozí hodnoty GOP a GEP byly vyznačeny tučným písmem. *Homologie mezi zarovnáními cytb a nd2, která je definována jako 1-(průměrná 𝑝-vzdálenost mezi cytb a nd2). |
Jelikož cytb a nd2 kódované na těžkém vlákně mitochondriální DNA mají podobné složení aminokyselin , může to vyvolat korelace mezi těmito sekvencemi, které nejsou způsobeny společným původem. To osvětluje další chybu v Theobaldově analýze; to znamená, že nevzal v úvahu možnost konvergentní evoluce, o které jsme hovořili . Zatímco v diskutovaných příkladech šlo o konvergenci v důsledku požadavku podobné funkce a adaptace na podobné prostředí, existuje i jiný typ konvergence, a to konvergence k podobnému složení aminokyselin, které lze dosáhnout mnoha různými způsoby. Podobné složení aminokyselin mezi cytb a nd2 nemusí být konvergence v dobré víře, ale může představovat pouze omezení v důsledku koexistence obou genů ve stejném genomu, ale účinně představuje podobnou situaci konvergentní evoluce.
Pokud jde o zkreslení způsobené zarovnáním, teoreticky jej lze vyřešit zahrnutím postupu zarovnání do rámce odhadu stromu maximální věrohodnosti . Většina současných zarovnávacích programů zachází se zarovnáním a fylogenezí odděleně, zatímco ve skutečnosti jsou na sobě závislé. Až bude vyvinuta praktická metoda odhadu zarovnání i fylogeneze současně v rámci maximální věrohodnosti, budeme moci porovnat AIC mezi hypotézou UCA a hypotézou nezávislého původu s přihlédnutím k logaritmické věrohodnosti pro proces inzerce/delece bez zkreslení pro hypotézu UCA. Na druhé straně se však zdá, že není snadné zohlednit možnost konvergentní evoluce, protože každá v současnosti používaná metoda maximální věrohodnosti předpokládá stochastický proces představující diverzifikační evoluci a v tomto rámci je obtížné zohlednit konvergentní evoluci. K definitivnímu vyřešení problému, který Theobald zpochybnil, bude možná zapotřebí zcela nové paradigma. Bez ohledu na tyto problémy při dokazování existence UCA pomocí statistického testování je pravda, že existují silné nepřímé důkazy o její existenci .
Charles Darwin napsal v knize O původu druhů následující: „Z analogie bych měl vyvodit, že pravděpodobně všechny organické bytosti, které kdy žily na této zemi, vzešly z nějaké prvotní formy, do níž se poprvé vdechl život“. Darwin zřejmě zavrhl vícenásobný původ života na Zemi. Jak však Theobald správně poznamenal, teorie UCA připouští možnost vícenásobného nezávislého vzniku života . Hypotéza UCA jednoduše tvrdí, že veškerý existující život na Zemi vzešel z jediného společného předka. V průběhu historie života muselo dojít k obrovskému množství vymírání a není možné zjistit, jaké druhy života vymřely během raného vývoje života. Přesto se zdá pravděpodobné, že během vzniku života došlo k obrovskému množství pokusů a omylů různých forem a že UCA, pokud existovala, byla jen jednou z nich. Dále, jak tvrdí Raup a Valentine , pravděpodobnost přežití života je nízká, pokud neexistuje více původů. I kdyby hypotéza UCA platila, přežití konkrétní formy života neznamená, že byla jedinečná nebo nadřazená.
Poděkování
Tento výzkum byl částečně podpořen Grants-in-Aid for Scientific Research C22570099 M. Hasegawovi od JSPS.
.