Some Problems in Proving the Existence of the Universal Common Ancestor of Life on Earth

author
12 minutes, 13 seconds Read

Abstract

Og selv om overvældende indicier støtter eksistensen af den universelle fælles forfader for alt eksisterende liv på Jorden, er det stadig et åbent spørgsmål, om den universelle fælles forfader har eksisteret eller ej. Theobald (Nature 465, 219-222 (2010)) udfordrede for nylig dette problem med en formel statistisk test, der blev anvendt på tilpassede sekvenser af konservative proteiner fra alle livets domæner, og konkluderede, at hypotesen om den universelle fælles forfader holder. Vi påpeger imidlertid, at der er en grundlæggende fejl i Theobalds metode, som anvendte justerede sekvenser. Vi viser, at alignment giver en stærk bias for hypotesen om en fælles forfader, og vi giver et eksempel på, at Theobalds metode støtter hypotesen om en fælles forfader for to tilsyneladende ikke-relaterede familier af sekvenser, der koder for proteiner (cytb og nd2 i mitokondrier). Dette vækker mistanke om effektiviteten af den “formelle” test.

1. Indledning

Data genereret af genomiske sekventeringsprojekter fra en lang række arter gør det nu muligt at samle kombinerede proteinsekvensdatasæt med henblik på at rekonstruere livets universelle træ (f.eks.) På den anden side er det stadig et åbent spørgsmål, om den universelle fælles forfader (UCA) for alt eksisterende liv på Jorden har eksisteret eller ej. Selv om molekylære fylogenetiske metoder automatisk konstruerer et træ, når der leveres et sekvensdatasæt, garanterer det udledte træ ikke nødvendigvis eksistensen af UCA, fordi dens eksistens antages implicit fra begyndelsen normalt i molekylær fylogenetik.

Teorien om UCA har nydt godt af en overbevisende liste af indicier, som angivet af Theobald . Der havde imidlertid ikke været noget forsøg på at teste UCA-hypotesen blandt tre domæner (eller superriger) af liv, det vil sige eubakterier (Bacteria), archaebakterier (Archaea) og eukaryoter (Eukarya), ved hjælp af molekylære sekvenser, indtil Theobald udfordrede dette problem med en formel statistisk test. Ved at anvende de sekvensdatasæt, der er udarbejdet af Brown et al. og ved at anvende modelvalgskriteriet AIC , viste han, at UCA-hypotesen er langt bedre end enhver uafhængig oprindelseshypotese, og han konkluderede, at UCA-teorien holder. Mens UCA-hypotesen postulerer, at eubakterier, arkæebakterier og eukaryoter nedstammer fra en enkelt fælles forfader kaldet UCA, omfatter de uafhængige oprindelseshypoteser scenarier som f.eks. at eubakterier har en anden oprindelse end arkæebakterier/eukaryoter, eller at de tre domæner har forskellige oprindelser fra hinanden. Hans forsøg er det første skridt mod målet om at etablere UCA-teorien med et solidt statistisk grundlag. Hans metode indeholder imidlertid nogle problemer med hensyn til at etablere UCA-teorien, som vi har diskuteret , og i denne meddelelse vil vi give yderligere detaljer om vores argumenter.

Det alvorligste problem ved Theobalds analyse er, at han brugte justerede sekvenser udarbejdet af Brown et al. , som var interesseret i at opklare de fylogenetiske relationer mellem arkæebakterier, eubakterier og eukaryoter, herunder om hvert livsdomæne udgør en monofyletisk klade. Så de en priory antog eksistensen af UCA. Alignment er nemlig en procedure, der er baseret på en antagelse om, at sekvenserne har divergeret fra en fælles forfædresekvens. Brown et al. skrev: “Individuelle proteinfamilier blev først computerjusteret, og derefter raffinerede vi manuelt justeringerne. Vi fjernede dårligt konserverede regioner i individuelle protein alignments.” Denne procedure forudsætter klart eksistensen af UCA, og dette var ikke et problem for Brown et al., fordi det, de var interesseret i, var det fylogenetiske forhold mellem alle arter på Jorden, og eksistensen af UCA blev understøttet af indicier . Men når det drejer sig om at bevise eksistensen af UCA, bør alignment-proceduren ikke anvendes, fordi den giver en stærk bias til fordel for UCA-hypotesen.

I en tidligere meddelelse , gav vi et eksempel fra to tilsyneladende ikke-relaterede familier af nukleinsyre-kodningssekvenser (cytb og nd2 i mitokondrier), for hvilke AIC vælger en fælles oprindelseshypotese. Da alignment giver en bias for fælles afstamning, foretog vi ikke en alignment mellem cytb og nd2, men alligevel blev den fælles oprindelse af cytb og nd2 foretrukket frem for uafhængige oprindelser af disse to gener. Der er nok ingen, der vil mene, at dette resultat skal betragtes som bevis for, at cytb og nd2 i sidste ende har fælles forfædre. Det rejser snarere et spørgsmålstegn ved effektiviteten af Theobalds test.

Theobald kritiserede vores analyse ved at påpege, at vores nucleotid-substitutionsmodel for GTR+Γ er for naiv. Vi brugte den samme læseramme for de to gener, men ifølge Theobald forventes begrænsningerne i den genetiske kode at fremkalde korrelationer mellem disse sekvenser, som ikke skyldes fælles forfædre. Dette er en god pointe, og i dette arbejde vil vi også anvende aminosyresubstitutionsmodellen for at tage højde for denne korrelation. Vi har kun anvendt GTR+Γ-modellen for nukleotid-substitution for at vise det mest imponerende tilfælde uden alignment, men faktisk afhænger præferencen af modellen med fælles oprindelse frem for modellen med uafhængig oprindelse af den antagne substitutionsmodel. Ved at anvende flere alternative substitutionsmodeller for nukleotider såvel som aminosyrer vil vi derfor undersøge, om standardindstillingerne i alignmentprogrammet, hvormed Theobalds datasæt blev lavet, afviser hypotesen om fælles oprindelse for de to tilsyneladende ikke-relaterede gener.

2. Materialer og metoder

Det samme sekvensdatasæt som anvendt i blev stillet til rådighed for analyserne. De 5′-terminale 1 038 bp (eksklusive initieringskodonet) af mitokondriegener af cytb og nd2 fra ko (EU177848), hjort (AB210267) og flodhest (NC_000889) blev analyseret ved hjælp af maximum likelihood-metoden implementeret i PAML under antagelse af relationerne ((ko, hjort), flodhest), som vist i figur 1. Den uafhængige oprindelseshypotese, der er vist i venstre side af figur 1, sammenlignes med den fælles oprindelseshypotese, der er vist i højre side, ved hjælp af AIC-kriteriet . De substitutionsmodeller, der anvendes i dette arbejde, er følgende: JC , K80 , HKY , GTR , K80+Γ , HKY+Γ , og GTR+Γ for nukleotid-substitutioner og Poisson-, JTT- , mtmam- , Poisson+Γ , JTT+F+Γ , mtmam+F+Γ -modeller for aminosyre-substitutioner. CLUSTAL W blev anvendt til alignment med forskellige værdier for gap open penalty (GOP) og gap extension penalty (GEP). Standardværdierne for (GOP, GEP) er (15, 6,66) for nukleotidsekvenser og (10, 0,1) for aminosyresekvenser, og standardværdierne for aminosyresekvenser blev anvendt ved udarbejdelsen af de datasæt, der blev anvendt i , hvor kun aminosyresekvenser blev analyseret.

Figur 1

Hypotesen om uafhængig oprindelse versus hypoteser om fælles oprindelse af cytb og nd2. Der findes ingen gren, der forbinder de to gener i hypotesen om uafhængig oprindelse, mens der findes en fælles forfader for de to gener i hypotesen om fælles oprindelse.

3. Resultater og diskussion

Resultatet af analysen på nukleotidniveau er angivet i tabel 1. Uden alignment foretrækker JC-, K80+Γ-, HKY+Γ- og GTR+Γ-modellerne den fælles oprindelseshypotese, mens K80-, HKY- og GTR-modellerne foretrækker hypotesen om uafhængig oprindelse. Den bedste model med hensyn til AIC er GTR+Γ-modellen, og den foretrækker den fælles oprindelse. Derefter blev sekvenser, der blev tilpasset med CLUSTAL W med forskellige GOP- og GEP-værdier, analyseret. Større værdier for GOP og GEP betyder en større straf for at indsætte et mellemrum og en mellemrumsforlængelse, og følgelig er den resulterende alignment med større værdier tættere på datasættet uden alignment end den alignment, der er produceret med mindre værdier. Ved at ændre GOP- og GEP-værdierne fra store til små værdier er der en tendens til at foretrække hypotesen om fælles oprindelse frem for hypotesen om uafhængig oprindelse, uanset substitutionsmodellen. Det er interessant, at en sådan situation realiseres med (GOP, GEP) = (50, 6,66) før standardværdierne på (15, 6,66).

(a)
Model No alignment (1038 bp) (GOP, GEP) = (100, 100) (1026 bp) (GOP, GEP) = (50, 6.66) (1029 bp)
Uafhængig Uafhængig Uafhængig Uafhængig Uafhængig Uafhængig Uafhængig
JC 11043.8 11005.5† 10876.9 10844.5† 10935.0 10862.9†
K80 10820.8† 10821.2 10669.3 10662.2† 10727.6 10684.4†
HKY 10398.6† 10414.7 10255.3† 10266.6 10309.7 10294.4†
GTR 10307.5† 10320.4 10186.5† 10192.1 10242.4 10224.3†
K80+Γ 10789.5 10723.4† 10637.5 10562.7† 10695.7 10650.4†
HKY+Γ 10329.8 10274.8† 10186.4 10119.4† 10239.7 10228.4†
GTR+Γ 10271.9 10216.4 † 10129.5 10066.6 † 10184.1 10168.6 †
Homologi* 0,314 0,317 0,317 0.349
(b)
Model (GOP, GEP) = (30, 6.66) (1025 bp) (GOP, GEP) = (15, 6.66) (999 bp) (GOP, GEP) = (3, 6.66) (974 bp)
Uafhængig Uafhængig Uafhængig Uafhængig Uafhængig Uafhængig Uafhængig
JC 10890.6 10802.2† 10592.4 10409.2 † 10262.1 9865.7†
K80 10684.6 10623.3† 10395.0 10221.3 † 10056.9 9613.1†
HKY 10271.8 10241.0† 9991.1 9875.0 † 9645.8 9283.2†
GTR 10204.9 10170.3† 9921.1 9820.4 † 9585.0 9234.3†
K80+Γ 10652.5 10577.5† 10363.0 10188.2 † 10028.1 9595.4†
HKY+Γ 10202.4 10162.0† 9920.5 9817.6 † 9580.9 9249,5†
GTR+Γ 10146,3 10099,7 † 9863,6 9768.5 † 9531.1 9201.7 †
Homologi* 0.360 0,419 0,504
AIC’er for hver model, der sammenligner hypoteserne om uafhængig og fælles oprindelse, blev vist. I sammenligningen mellem de to hypoteser blev den hypotese med lavere AIC angivet med †. Substitutionsmodellen med den mindste AIC i hvert datasæt blev angivet med en understregning. Standardværdierne for GOP og GEP blev angivet med fed skrifttype.
*Homologi mellem cytb- og nd2-udligninger, som er defineret ved 1-(gennemsnitlig 𝑝-afstand mellem cytb og nd2).
Tabel 1
Formelle tests af den fælles afstamning mellem cytb og nd2 baseret på nukleotidsekvensdatasættene, der er afstemt med forskellige værdier af gap penalties (GOP og GEP).

En lignende analyse på aminosyreniveau er angivet i tabel 2. I dette tilfælde foretrækkes hypotesen om fælles oprindelse kun af Poisson- og JTT-modellerne uden alignment, mens den bedste model mtmam+F+Γ foretrækker de uafhængige oprindelser. De justerede sekvenser med standardindstillingen giver også forskellige resultater afhængigt af den antagne substitutionsmodel; mens simple modeller som Poisson, JTT og Poisson+Γ foretrækker hypotesen om fælles oprindelse, foretrækker den bedste tilgængelige model med hensyn til AIC, mtmam+F+Γ-modellen, de uafhængige oprindelser. Den stærkere præference for hypotesen om fælles forfædre med analysen på nukleotidniveau skyldes sandsynligvis, som Theobald påpegede, begrænsningerne i den genetiske kode, der skaber korrelationer mellem sekvenserne, som ikke skyldes fælles forfædre. Især i pattedyrs mitokondrielle proteinkodende gener på den tunge streng, der er anvendt i vores analyse, er anden kodonpositioner forudindtaget i retning af T, mens tredje kodonpositioner er forudindtaget i retning af A og forudindtaget mod G . Derfor skyldes den stærke præference for hypotesen om fælles oprindelse, som nucleotidanalysen viser, sandsynligvis begrænsningerne i den genetiske kode. Det er dog værd at nævne, at selv om den bedste tilgængelige substitutionsmodel for aminosyreanalyser uden justering og med justering i standardindstillingen foretrækker hypotesen om uafhængig oprindelse, foretrækker nogle substitutionsmodeller hypotesen om fælles oprindelse. Dette giver anledning til et alvorligt problem med hensyn til den formelle tests effektivitet. Theobald anvendte et lignende datasæt af aminosyresekvenser som Brown et al. , der anvendte CLUSTALW med standardindstillinger til at tilpasse individuelle proteindatasæt. Faktisk brugte Theobald et andet program ved navn ProbCons i stedet for CLUSTALW til at tilpasse sekvenserne, men forskellen bør ikke være af kritisk betydning for vores argumenter.

Model Ingen alignment (346 aa) (GOP, GEP) = (100, 100) (338 aa) (GOP, GEP) = (15, 6.66) (342 aa) (GOP, GEP) = (10, 0,1) (330 aa) (GOP, GEP) = (1, 0.1) (313 aa)
Uafhængig Fælles Uafhængig Fælles Uafhængig Uafhængig Fælles Fælles Uafhængig Fælles Uafhængig Fælles
Poisson 5934.3 5933.5† 5748.6 5745.8† 5856.9 5838.6† 5664.9 5638.0 † 5403.1 5288.6†
Poisson+Γ 5922.0† 5933.5 5735.9† 5740.6 5843.9 5832.3† 5651.7 5639.0 † 5392.7 5288.5†
JTT 5591.5 5586.1† 5420.3 5414.0† 5515.8 5495.6† 5335.5 5276.4 † 5080.2 4879.8†
mtmam 5247.4† 5252.5 5083.1† 5090.8 5174.7† 5176.0 4995.4 4989.9 † 4754.3 4688.6†
JTT+F+Γ 5304.3† 5325.8 5133.7† 5152.8 5226.8† 5231.7 5044.8 5034.2 † 4809.5 4682.4†
mtmam+F+Γ 5248.1 † 5272.3 5082.6 † 5107.7 5174.6 † 5185.4 4995.0 † 4995.6 4759.7 4678.7 †
Homologi* 0.077 0.077 0.083 0.107 0,123 0,216
AIC’er for hver model, der sammenligner hypoteserne om uafhængig og fælles oprindelse, blev vist. I sammenligningen mellem de to hypoteser blev den hypotese med lavere AIC angivet med †. Substitutionsmodellen med den mindste AIC i hvert datasæt blev angivet med en understregning. Standardværdierne for GOP og GEP blev angivet med fed skrifttype.
*Homologi mellem cytb- og nd2-udligninger, som er defineret ved 1-(gennemsnitlig 𝑝-afstand mellem cytb og nd2).
Tabel 2
Formelle tests af den fælles afstamning mellem cytb og nd2 baseret på aminosyresekvensdatasættene, der er afstemt med forskellige værdier for gap penalties (GOP og GEP).

Da cytb og nd2, der er kodet på den tunge streng af mitokondrie-DNA, har lignende aminosyresammensætninger , kan dette fremkalde korrelationer mellem disse sekvenser, som ikke skyldes fælles forfædre. Dette belyser en anden fejl i Theobalds analyse, nemlig at han ikke tog højde for muligheden for konvergent evolution, som vi har diskuteret . Mens de eksempler, der blev diskuteret i var konvergens på grund af krav om samme funktion og tilpasning til samme miljø, er der en anden type konvergens, nemlig konvergens til samme aminosyresammensætning, som kan opnås på mange forskellige måder. En lignende aminosyresammensætning mellem cytb og nd2 er måske ikke bona fide konvergens, men repræsenterer måske kun begrænsninger som følge af de to geners sameksistens i samme genom, men repræsenterer effektivt en lignende situation med konvergent evolution.

Med hensyn til den bias, der forårsages af tilpasningen, kan den teoretisk set løses ved at inkludere tilpasningsproceduren inden for rammerne af maximum likelihood tree estimation . De fleste nuværende tilpasningsprogrammer behandler tilpasning og fylogeni separat, selv om de i virkeligheden er indbyrdes afhængige. Når der udvikles en praktisk metode til at estimere både alignment og fylogeni samtidigt inden for rammerne af maximum likelihood, vil vi kunne sammenligne AIC mellem UCA-hypotesen og hypotesen om uafhængig oprindelse ved at tage hensyn til log-likelihood for insertion/deletion-processen uden nogen form for bias for UCA-hypotesen. På den anden side synes det imidlertid ikke let at tage hensyn til muligheden for konvergerende udvikling, da alle de i øjeblikket anvendte maximum likelihood-metoder forudsætter en stokastisk proces, der repræsenterer en diversificerende udvikling, og det er vanskeligt at tage hensyn til konvergerende udvikling inden for denne ramme. Der kan være behov for et helt nyt paradigme for endelig at løse det problem, som Theobald udfordrede. Uanset disse problemer med at bevise eksistensen af UCA ved hjælp af statistiske test, er det rigtigt, at der er stærke indicier for dens eksistens .

Charles Darwin skrev i On the Origin of Species som følger: “Jeg skulle ud fra en analogi konkludere, at sandsynligvis alle de organiske væsener, der nogensinde har levet på denne jord, er nedstammer fra nogen urform, i hvilken livet først blev åndet ind”. Darwin synes at have forkastet flere oprindelser af liv på Jorden. Men som Theobald korrekt bemærkede, giver teorien om UCA mulighed for flere uafhængige oprindelser af liv . UCA-hypotesen siger ganske enkelt, at alt eksisterende liv på Jorden nedstammer fra en enkelt fælles forfaderart. Der må have været et enormt antal udrykninger i løbet af livets historie, og der er ingen måde at vide, hvilke arter af liv der uddøde i løbet af livets tidlige udvikling. Alligevel virker det sandsynligt, at der har fundet en enorm mængde forsøg og fejltagelser af forskellige former sted under livets opståen, og at UCA, hvis den eksisterede, blot var en af dem. Endvidere er sandsynligheden for overlevelse af liv, som Raup og Valentine hævder, lav, medmindre der er flere oprindelser. Selv hvis UCA-hypotesen holder, betyder overlevelsen af en bestemt livsform ikke, at den var unik eller overlegen.

Anerkendelse

Denne forskning blev delvist støttet af Grants-in-Aid for Scientific Research C22570099 til M. Hasegawa fra JSPS.

Similar Posts

Skriv et svar

Din e-mailadresse vil ikke blive publiceret.