Abstract
Och även om överväldigande indicier stöder existensen av den universella gemensamma förfadern till allt existerande liv på jorden är det fortfarande en öppen fråga om den universella gemensamma förfadern existerade eller inte. Theobald (Nature 465, 219-222 (2010)) utmanade nyligen detta problem med ett formellt statistiskt test som tillämpades på anpassade sekvenser av konservativa proteiner från alla livets domäner och drog slutsatsen att hypotesen om den universella gemensamma förfadern håller. Vi påpekar dock att det finns en grundläggande brist i Theobalds metod som använde anpassade sekvenser. Vi visar att anpassningen ger en stark bias för hypotesen om en gemensam förfader, och vi ger ett exempel på att Theobalds metod stöder hypotesen om en gemensam förfader för två till synes obesläktade familjer av sekvenser som kodar för proteiner (cytb och nd2 i mitokondrier). Detta väcker misstankar om effektiviteten hos det ”formella” testet.
1. Introduktion
Data som genererats av genomsekvenseringsprojekt från en mängd olika arter gör det nu möjligt att sammanställa kombinerade datamängder av proteinsekvenser för att rekonstruera livets universella träd (t.ex. ). Å andra sidan är det fortfarande en öppen fråga om den universella gemensamma förfadern (UCA) för allt existerande liv på jorden existerade eller inte. Även om molekylära fylogenetiska metoder automatiskt konstruerar ett träd när ett sekvensdataset tillhandahålls, garanterar det härledda trädet inte nödvändigtvis existensen av UCA, eftersom dess existens förutsätts implicit från början vanligtvis i molekylär fylogenetik.
Teorin om UCA har åtnjutit en övertygande lista med indicier som ges av Theobald . Det hade dock inte gjorts något försök att testa UCA-hypotesen bland tre domäner (eller superriken) av liv, det vill säga eubakterier (Bacteria), archaebakterier (Archaea) och eukaryoter (Eukarya), med hjälp av molekylära sekvenser förrän Theobald utmanade detta problem med ett formellt statistiskt test. Genom att använda de sekvensdata som sammanställts av Brown et al. och genom att använda modellvalskriteriet AIC , visade han att UCA-hypotesen är mycket överlägsen alla hypoteser om oberoende ursprung, och han drog slutsatsen att UCA-teorin håller. Medan UCA-hypotesen postulerar att eubakterier, arkebakterier och eukaryoter härstammar från en enda gemensam förfader som kallas UCA, omfattar de oberoende ursprungshypoteserna scenarier som t.ex. att eubakterier har ett annat ursprung än arkebakterier/eukaryoter eller att de tre områdena har olika ursprung från varandra. Hans försök är det första steget mot målet att etablera UCA-teorin med en solid statistisk grund. Hans metodik innehåller dock vissa problem för att etablera UCA-teorin som vi diskuterat , och i detta meddelande kommer vi att ge ytterligare detaljer om våra argument.
Det allvarligaste problemet med Theobalds analys är att han använde anpassade sekvenser som sammanställts av Brown et al. , som var intresserade av att lösa de fylogenetiska relationerna mellan archaebakterier, eubakterier och eukaryoter, inklusive huruvida varje livsdomän utgör en monofyletisk klad. Därför antog de a priori att UCA existerar. Just anpassning är ett förfarande som bygger på ett antagande om att sekvenserna har divergerat från en gemensam förgrundssekvens. Brown et al. skrev: ”Enskilda proteinfamiljer anpassades först med hjälp av en dator och sedan förfinade vi anpassningarna manuellt. Vi tog bort dåligt bevarade regioner i individuella proteinanpassningar”. Detta förfarande förutsätter helt klart att UCA existerar, och detta var inget problem för Brown et al. eftersom det de var intresserade av var det fylogenetiska förhållandet mellan alla arter på jorden, och existensen av UCA stöddes av indicier . När det gäller att bevisa existensen av UCA bör dock inte anpassningsförfarandet användas, eftersom det ger en stark bias för UCA-hypotesen.
I ett tidigare meddelande gav vi ett exempel från två till synes obesläktade familjer av nukleinsyrakodande sekvenser (cytb och nd2 i mitokondrier) för vilka AIC väljer en hypotes om ett gemensamt ursprung. Eftersom en anpassning ger en bias för gemensam härstamning gjorde vi ingen anpassning mellan cytb och nd2, men ändå föredrogs det gemensamma ursprunget för cytb och nd2 framför oberoende ursprung för dessa två gener. Förmodligen kommer ingen att tro att detta resultat bör betraktas som ett bevis för att cytb och nd2 har ett ytterst gemensamt ursprung. Snarare väcker detta ett frågetecken om effektiviteten av Theobalds test.
Theobald kritiserade vår analys genom att påpeka att vår nukleotidersättningsmodell för GTR+Γ är alltför naiv. Vi använde samma läsram för de två generna, men enligt Theobald förväntas begränsningarna i den genetiska koden framkalla korrelationer mellan dessa sekvenser som inte beror på gemensam härstamning. Detta är en bra poäng, och i det här arbetet kommer vi också att använda aminosyrasubstitutionsmodellen för att redogöra för denna korrelation. Vi använde endast GTR+Γ-modellen för nukleotiders substitution för att visa det mest imponerande fallet utan anpassning, men i själva verket beror föredraget av modellen med gemensamt ursprung framför modellen med oberoende ursprung på den antagna substitutionsmodellen. Genom att använda flera alternativa substitutionsmodeller för nukleotider såväl som för aminosyror kommer vi därför att undersöka om standardinställningarna för anpassningsprogrammet, med vilket Theobalds datamängd gjordes, förkastar hypotesen om gemensamt ursprung för de två till synes obesläktade generna.
2. Material och metoder
För analyserna tillhandahölls samma sekvensdatamängd som användes i . De 5′-terminala 1 038 bp (exklusive initieringskoden) av mitokondriegener av cytb och nd2 från ko (EU177848), hjort (AB210267) och flodhäst (NC_000889) analyserades med hjälp av den maximala sannolikhetsmetoden som implementerats i PAML och som utgår från relationerna ((ko, hjort), flodhäst) som visas i figur 1. Hypotesen om oberoende ursprung som visas till vänster i figur 1 jämförs med hypotesen om gemensamt ursprung som visas till höger med kriteriet AIC . De substitutionsmodeller som används i detta arbete är följande: JC , K80 , HKY , GTR , K80+Γ , HKY+Γ , och GTR+Γ för nukleotidersättningar och Poisson, JTT , mtmam , Poisson+Γ , JTT+F+Γ , mtmam+F+Γ modeller för aminosyraersättningar. CLUSTAL W användes för anpassningen med olika värden för gap open penalty (GOP) och gap extension penalty (GEP). Standardvärdena för (GOP, GEP) är (15, 6,66) för nukleotidsekvenser och (10, 0,1) för aminosyrasekvenser, och standardvärdena för aminosyrasekvenser användes vid utarbetandet av de datamängder som användes i , där endast aminosyrasekvenser analyserades.
Hypotesen om oberoende ursprung kontra hypoteser om gemensamt ursprung för cytb och nd2. Det finns ingen gren som förbinder de två generna i hypotesen om oberoende ursprung, medan det finns en gemensam förfader för de två generna i hypotesen om gemensamt ursprung.
3. Resultat och diskussion
Resultatet av analysen på nukleotidnivå finns i tabell 1. Utan anpassning föredrar JC-, K80+Γ-, HKY+Γ- och GTR+Γ-modellerna hypotesen om gemensamt ursprung, medan K80-, HKY- och GTR-modellerna föredrar hypotesen om oberoende ursprung. Den bästa modellen med avseende på AIC är GTR+Γ-modellen, och den föredrar det gemensamma ursprunget. Därefter analyserades sekvenser som anpassats med CLUSTAL W med olika GOP- och GEP-värden. Större värden på GOP och GEP innebär en starkare straffavgift för att infoga en lucka och en förlängning av luckan, och följaktligen är den resulterande anpassningen med större värden närmare datamängden utan anpassning än den som produceras med mindre värden. Genom att ändra GOP- och GEP-värdena från stora till små värden tenderar hypotesen om ett gemensamt ursprung att föredras framför hypotesen om ett oberoende ursprung, oavsett substitutionsmodell. Det är intressant att en sådan situation uppstår med (GOP, GEP) = (50, 6,66) före standardvärdena (15, 6,66).
(a) | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
|
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
(b) | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
|
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
AIC för varje modell som jämförde hypoteserna om oberoende och gemensamt ursprung visades. I jämförelsen mellan de två hypoteserna angavs hypotesen med lägre AIC med †. Substitutionsmodellen med minsta AIC i varje datamängd angavs med en understrykning. Standardvärden för GOP och GEP angavs med fetstil. *Homologi mellan cytb- och nd2-anpassningar, som definieras av 1-(genomsnittligt 𝑝-avstånd mellan cytb och nd2). |
En liknande analys på aminosyranivå ges i tabell 2. I detta fall föredras hypotesen om gemensamt ursprung endast av Poisson- och JTT-modellerna utan anpassning, medan den bästa modellen mtmam+F+Γ föredrar oberoende ursprung. Medan enkla modeller som Poisson, JTT och Poisson+Γ föredrar hypotesen om ett gemensamt ursprung, föredrar den bästa tillgängliga modellen med avseende på AIC, mtmam+F+Γ-modellen, de oberoende ursprungskällorna. Den starkare preferensen för hypotesen om ett gemensamt ursprung med analysen på nukleotidnivå beror troligen, som Theobald påpekade, på den genetiska kodens begränsningar som framkallar korrelationer mellan sekvenserna som inte beror på ett gemensamt ursprung. Särskilt i däggdjurens mitokondriella proteinkodande gener på den tunga strängen som används i vår analys är andra kodonpositioner förskjutna mot T, medan tredje kodonpositioner är förskjutna mot A och förskjutna mot G . Den starka preferensen för hypotesen om ett gemensamt ursprung enligt nukleotidanalysen beror därför troligen på begränsningarna i den genetiska koden. Det är dock värt att nämna att även om den bästa tillgängliga substitutionsmodellen för aminosyraanalys utan anpassning och med anpassning enligt standardinställningen föredrar hypotesen om oberoende ursprung, föredrar vissa substitutionsmodeller hypotesen om gemensamt ursprung. Detta ger upphov till ett allvarligt problem när det gäller det formella testets effektivitet. Theobald använde en liknande datamängd av aminosyrasekvenser som Brown et al. , som använde CLUSTALW med standardinställningar för att anpassa enskilda proteindatamängder. I själva verket använde Theobald ett annat program som heter ProbCons i stället för CLUSTALW för att anpassa sekvenserna, men skillnaden bör inte vara kritiskt viktig för våra argument.
|
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
AIC för varje modell som jämförde hypoteserna om oberoende och gemensamt ursprung visades. I jämförelsen mellan de två hypoteserna angavs hypotesen med lägre AIC med †. Substitutionsmodellen med minsta AIC i varje datamängd angavs med en understrykning. Standardvärden för GOP och GEP angavs med fetstil. *Homologi mellan cytb- och nd2-anpassningar, som definieras av 1-(genomsnittligt 𝑝-avstånd mellan cytb och nd2). |
Eftersom cytb och nd2 som kodas på den tunga strängen av mitokondrie-DNA har liknande aminosyrasammansättningar , kan detta framkalla korrelationer mellan dessa sekvenser som inte beror på gemensam härstamning. Detta belyser en annan brist i Theobalds analys, nämligen att han inte tog hänsyn till möjligheten till konvergent utveckling som vi diskuterat. Medan de exempel som diskuterades i detta kapitel gällde konvergens på grund av krav på liknande funktion och anpassning till liknande miljö, finns det en annan typ av konvergens, nämligen konvergens till liknande aminosyrasammansättning, som kan åstadkommas på många olika sätt. En liknande aminosyrasammansättning mellan cytb och nd2 är kanske inte bona fide-konvergens utan representerar endast begränsningar på grund av de två genernas samexistens i samma genom, men representerar i själva verket en liknande situation av konvergent evolution.
När det gäller den snedvridning som orsakas av anpassningen kan den teoretiskt sett lösas genom att inkludera anpassningsförfarandet inom ramen för maximal sannolikhetsbedömning av träd . De flesta nuvarande anpassningsprogrammen behandlar anpassning och fylogeni separat, medan de i själva verket är ömsesidigt beroende av varandra. När en praktisk metod för att skatta både anpassning och fylogeni samtidigt inom ramen för maximal sannolikhet utvecklas, skulle vi kunna jämföra AIC mellan UCA-hypotesen och hypotesen om oberoende ursprung genom att ta hänsyn till log-likelihood för insättnings-/utplåningsprocessen utan att UCA-hypotesen påverkas negativt. Å andra sidan verkar det dock inte vara lätt att ta hänsyn till möjligheten av konvergent utveckling, eftersom alla för närvarande använda maximala sannolikhetsmetoder utgår från en stokastisk process som representerar diversifierande utveckling, och det är svårt att ta hänsyn till konvergent utveckling inom denna ram. Det kan behövas ett helt nytt paradigm för att slutligen lösa det problem som Theobald ifrågasatte. Trots dessa problem med att bevisa existensen av UCA genom statistiska tester är det sant att det finns starka indicier för dess existens .
Charles Darwin skrev i On the Origin of Species följande: ”Jag skulle av en analogi dra slutsatsen att förmodligen alla organiska varelser som någonsin har levt på denna jord har härstammat från någon urform, i vilken livet först andades in”. Darwin tycks ha förkastat flera olika ursprung för livet på jorden. Men som Theobald korrekt noterade, tillåter teorin om UCA möjligheten av flera oberoende ursprung till liv . UCA-hypotesen säger helt enkelt att allt existerande liv på jorden härstammar från en enda gemensam stamart. Det måste ha skett ett enormt antal utdöenden under livets historia, och det finns inget sätt att veta vilka typer av liv som dog ut under livets tidiga utveckling. Ändå verkar det troligt att en enorm mängd försök och misstag av olika former inträffade under livets uppkomst och att UCA, om den existerade, bara var en av dem. Vidare, som Raup och Valentine hävdar, är sannolikheten för livets överlevnad låg om det inte finns flera olika ursprung. Även om UCA-hypotesen håller, innebär inte överlevnaden av en viss livsform att den var unik eller överlägsen.
Acknowledgment
Denna forskning stöddes delvis av Grants-in-Aid for Scientific Research C22570099 till M. Hasegawa från JSPS.