Enkele problemen bij het bewijzen van het bestaan van de universele gemeenschappelijke voorouder van het leven op aarde

author
11 minutes, 55 seconds Read

Abstract

Hoewel overweldigend indirect bewijs het bestaan van de universele gemeenschappelijke voorouder van al het leven op aarde ondersteunt, is het nog steeds een open vraag of de universele gemeenschappelijke voorouder heeft bestaan of niet. Theobald (Nature 465, 219-222 (2010)) heeft onlangs dit probleem aan de orde gesteld met een formele statistische test die is toegepast op uitgelijnde sequenties van conservatieve eiwitten uit alle levensdomeinen, en concludeerde dat de universele gemeenschappelijke voorouderhypothese standhoudt. Wij wijzen er echter op dat er een fundamentele fout zit in Theobald’s methode die gebruik maakte van uitgelijnde sequenties. Wij tonen aan dat de uitlijning een sterke vooringenomenheid geeft voor de gemeenschappelijke-voorouder-hypothese, en wij geven een voorbeeld dat Theobalds methode een gemeenschappelijke-voorouder-hypothese ondersteunt voor twee schijnbaar niet-verwante families van eiwit-coderende sequenties (cytb en nd2 van mitochondria). Dit wekt argwaan over de effectiviteit van de “formele” test.

1. Inleiding

Data gegenereerd door genomische sequentieprojecten van een grote verscheidenheid van soorten maken nu de assemblage van gecombineerde eiwitsequentie datasets mogelijk om de universele boom des levens te reconstrueren (b.v. ). Aan de andere kant is het nog steeds een open vraag of de universele gemeenschappelijke voorouder (UCA) van al het leven op aarde heeft bestaan of niet. Hoewel moleculaire fylogenetische methoden automatisch een boom construeren wanneer een reeks sequentiegegevens wordt verstrekt, garandeert de afgeleide boom niet noodzakelijkerwijs het bestaan van UCA, omdat het bestaan ervan gewoonlijk in de moleculaire fylogenetica vanaf het begin impliciet wordt verondersteld.

De theorie van UCA heeft kunnen profiteren van een overtuigende lijst van indirect bewijsmateriaal, zoals gegeven door Theobald . Er was echter geen poging gedaan om de UCA-hypothese te testen tussen drie domeinen (of superkingdoms) van het leven, dat wil zeggen, eubacteria (Bacteria), archaebacteria (Archaea), en eukaryoten (Eukarya), door gebruik te maken van moleculaire sequenties totdat Theobald dit probleem uitdaagde met een formele statistische test. Aan de hand van de door Brown et al. verzamelde sequentiegegevens en met gebruikmaking van het modelselectiecriterium AIC toonde hij aan dat de UCA-hypothese veel beter is dan om het even welke hypothese van onafhankelijke oorsprong, en hij concludeerde dat de UCA-theorie opgaat. Terwijl de UCA-hypothese postuleert dat eubacteria, archaebacteria en eukaryoten afstammen van één gemeenschappelijke voorouder die UCA wordt genoemd, omvatten de onafhankelijke oorsprongshypothesen scenario’s zoals eubacteria die een andere oorsprong hebben dan archaebacteria/eukaryoten of de drie domeinen die een verschillende oorsprong van elkaar hebben. Zijn poging is de eerste stap naar het doel om de UCA-theorie met een stevige statistische basis te onderbouwen. Zijn methodologie bevat echter enkele problemen voor het vaststellen van de UCA theorie, zoals door ons besproken, en in deze mededeling zullen wij onze argumenten nader toelichten.

Het grootste probleem van Theobald’s analyse is dat hij gebruik maakte van uitgelijnde sequenties, verzameld door Brown e.a. , die geïnteresseerd waren in het oplossen van de fylogenetische relaties tussen archaebacteria, eubacteria, en eukaryoten, inclusief de vraag of elk levensdomein een monofyletische clade vormt. Zij veronderstelden dus a priori het bestaan van UCA. Uitlijning is immers een procedure die gebaseerd is op de veronderstelling dat de sequenties gedivergeerd zijn van een gemeenschappelijke voorouderlijke sequentie. Brown e.a. schreven: “Individuele eiwitfamilies werden eerst met de computer uitgelijnd en vervolgens verfijnden we de uitlijningen handmatig. We verwijderden slecht geconserveerde gebieden in individuele eiwituitlijningen.” Deze procedure veronderstelt duidelijk het bestaan van UCA, en dit was geen probleem voor Brown e.a., omdat zij geïnteresseerd waren in de fylogenetische verwantschap tussen alle soorten op Aarde, en het bestaan van UCA werd ondersteund door indirect bewijsmateriaal. Echter, bij het bewijzen van het bestaan van UCA, zou de alignment procedure niet gebruikt moeten worden, omdat het een sterke bias geeft voor de UCA hypothese.

In een eerdere mededeling gaven wij een voorbeeld van twee schijnbaar niet-verwante families van nucleïnezuur-coderende sequenties (cytb en nd2 van mitochondria) waarvoor AIC kiest voor een gemeenschappelijke oorsprong hypothese. Aangezien alignment een bias geeft voor gemeenschappelijke voorouders, hebben we geen alignment gemaakt tussen cytb en nd2, maar toch werd de gemeenschappelijke oorsprong van cytb en nd2 verkozen boven de onafhankelijke oorsprong van deze twee genen. Waarschijnlijk zal niemand geloven dat dit resultaat moet worden beschouwd als bewijs voor de uiteindelijke gemeenschappelijke afstamming van cytb en nd2. Eerder roept dit een vraagteken op ten aanzien van de effectiviteit van Theobald’s test.

Theobald bekritiseerde onze analyse door erop te wijzen dat ons nucleotide-substitutiemodel van GTR+Γ te naïef is. Wij gebruikten hetzelfde leesraam van de twee genen, maar volgens Theobald wordt verwacht dat de beperkingen van de genetische code correlaties tussen deze sequenties zullen veroorzaken die niet het gevolg zijn van gemeenschappelijke voorouders. Dit is een goed punt, en in dit werk zullen wij ook het aminozuursubstitutiemodel gebruiken om deze correlatie te verklaren. Wij hebben alleen het GTR+Γ model van nucleotide substitutie gebruikt om het meest indrukwekkende geval zonder uitlijning te laten zien, maar in feite hangt de voorkeur van het gemeenschappelijke oorsprongsmodel boven het onafhankelijke oorsprongsmodel af van het veronderstelde substitutiemodel. Daarom zullen we, door gebruik te maken van verschillende alternatieve substitutiemodellen van zowel nucleotiden als aminozuren, bestuderen of de standaardinstellingen van het uitlijningsprogramma, waarmee de dataset van Theobald is gemaakt, de hypothese van de gemeenschappelijke oorsprong van de twee schijnbaar niet-verwante genen verwerpen.

2. Materialen en Methoden

Dezelfde sequentie-dataset als gebruikt in werd voor de analyses verstrekt. De 5′-terminale 1.038 bp (exclusief het initiatiecodon) van mitochondriale genen van cytb en nd2 van koe (EU177848), hert (AB210267) en nijlpaard (NC_000889) werd geanalyseerd met de maximale waarschijnlijkheid methode geïmplementeerd in PAML uitgaande van de relaties van ((koe, hert), nijlpaard) zoals getoond in figuur 1. De hypothese van onafhankelijke oorsprong links in figuur 1 wordt vergeleken met de hypothese van gemeenschappelijke oorsprong rechts met het criterium AIC . In dit werk zijn de volgende substitutiemodellen gebruikt: JC , K80 , HKY , GTR , K80+Γ , HKY+Γ , en GTR+Γ voor nucleotide-substituties, en Poisson, JTT , mtmam , Poisson+Γ , JTT+F+Γ , mtmam+F+Γ modellen voor aminozuur-substituties. CLUSTAL W werd gebruikt voor de uitlijning met verschillende waarden voor gap open penalty (GOP) en gap extension penalty (GEP). De standaardwaarden van (GOP, GEP) zijn (15, 6.66) voor nucleotide-sequenties en (10, 0.1) voor aminozuur-sequenties, en de standaardwaarden voor aminozuur-sequenties werden gebruikt bij de voorbereiding van de gegevensreeksen die in , waarin alleen aminozuur-sequenties werden geanalyseerd.

Figuur 1

Hypothese van onafhankelijke oorsprong versus hypothese van gemeenschappelijke oorsprong van cytb en nd2. In de hypothese van onafhankelijke oorsprong bestaat er geen tak die de twee genen verbindt, terwijl in de hypothese van gemeenschappelijke oorsprong de gemeenschappelijke voorouder van de twee genen bestaat.

3. Resultaten en discussie

Het resultaat van de analyse op nucleotideniveau wordt gegeven in tabel 1. Zonder uitlijning geven JC, K80+Γ, HKY+Γ, en GTR+Γ modellen de voorkeur aan de gemeenschappelijke oorsprongshypothese, terwijl K80, HKY, en GTR modellen de voorkeur geven aan de onafhankelijke oorsprongshypothese. Het beste model met betrekking tot AIC is het GTR+Γ model, dat de voorkeur geeft aan de gemeenschappelijke oorsprong. Vervolgens werden sequenties geanalyseerd die uitgelijnd waren met CLUSTAL W met verschillende GOP en GEP waarden. Grotere waarden van GOP en GEP betekenen een sterkere straf voor het invoegen van een hiaat en hiaatverlenging, en bijgevolg ligt de resulterende uitlijning met grotere waarden dichter bij de gegevensreeks zonder uitlijning dan die welke met kleinere waarden wordt geproduceerd. Door de GOP en GEP van grote naar kleine waarden te veranderen, heeft de hypothese van de gemeenschappelijke oorsprong de neiging de voorkeur te krijgen boven de hypothese van de onafhankelijke oorsprong, ongeacht het substitutiemodel. Interessant is dat een dergelijke situatie wordt gerealiseerd met (GOP, GEP) = (50, 6.66) vóór de standaardwaarden van (15, 6.66).

(a)
Model Geen uitlijning (1038 bp) (GOP, GEP) = (100, 100) (1026 bp) (GOP, GEP) = (50, 6.66) (1029 bp)
Independent Common Independent Independent Common
JC 11043.8 11005.5† 10876.9 10844.5† 10935.0 10862.9†
K80 10820.8† 10821.2 10669.3 10662.2† 10727.6 10684.4†
HKY 10398.6† 10414.7 10255.3† 10266.6 10309.7 10294.4†
GTR 10307.5† 10320.4 10186.5† 10192.1 10242.4 10224.3†
K80+Γ 10789.5 10723.4† 10637.5 10562.7† 10695.7 10650.4†
HKY+Γ 10329.8 10274.8† 10186.4 10119.4† 10239.7 10228.4†
GTR+Γ 10271.9 10216.4 † 10129.5 10066.6 † 10184.1 10168.6 †
Homologie* 0.314 0.317 0.349
(b)
Model (GOP, GEP) = (30, 6.66) (1025 bp) (GOP, GEP) = (15, 6.66) (999 bp) (GOP, GEP) = (3, 6.66) (974 bp)
Independent Common Independent Independent Common
JC 10890.6 10802.2† 10592.4 10409.2 † 10262.1 9865.7†
K80 10684.6 10623.3† 10395.0 10221.3 † 10056.9 9613.1†
HKY 10271.8 10241.0† 9991.1 9875.0 † 9645.8 9283.2†
GTR 10204.9 10170.3† 9921.1 9820.4 † 9585.0 9234.3†
K80+Γ 10652.5 10577.5† 10363.0 10188.2 † 10028.1 9595.4†
HKY+Γ 10202.4 10162.0† 9920.5 9817.6 † 9580.9 9249.5†
GTR+Γ 10146.3 10099.7 † 9863.6 9768.5 † 9531.1 9201.7 †
Homologie* 0.360 0.419 0.504
AIC’s van elk model waarin de hypothesen van onafhankelijke en gemeenschappelijke oorsprong met elkaar worden vergeleken, werden getoond. Bij de vergelijking tussen de twee hypothesen werd de hypothese met de laagste AIC aangegeven met †. Het substitutiemodel met de minimale AIC in elke gegevensverzameling werd met een onderstreping aangegeven. Standaardwaarden van GOP en GEP werden vetgedrukt.
*Homologie tussen cytb en nd2 alignments, die wordt gedefinieerd door 1-(gemiddelde 𝑝-afstand tussen cytb en nd2).
Tabel 1
Formele tests van de gemeenschappelijke afstamming tussen cytb en nd2 op basis van de reeksen nucleotiden-sequentiegegevens die zijn uitgelijnd met verschillende waarden van “gap penalties” (GOP en GEP).

Een soortgelijke analyse op aminozuurniveau wordt gegeven in tabel 2. In dit geval wordt de gemeenschappelijke oorsprongshypothese alleen verkozen door de Poisson en JTT modellen zonder uitlijning, terwijl het beste model van mtmam+F+Γ de voorkeur geeft aan de onafhankelijke oorsprongen. De uitgelijnde sequenties met de standaardinstelling geven ook verschillende resultaten, afhankelijk van het veronderstelde substitutiemodel; terwijl eenvoudige modellen zoals het Poisson-, JTT- en Poisson+Γ-model de voorkeur geven aan de hypothese van de gemeenschappelijke oorsprong, geeft het beste beschikbare model met betrekking tot AIC, het mtmam+F+Γ-model, de voorkeur aan de onafhankelijke oorsprong. Waarschijnlijk is de sterkere voorkeur voor de gemeenschappelijke-oorsprong-hypothese bij de analyse op nucleotideniveau, zoals Theobald opmerkte, te wijten aan de beperkingen van de genetische code die correlaties tussen de sequenties teweegbrengen die niet het gevolg zijn van gemeenschappelijke afstamming. Met name in de mitochondriale proteïne-coderende zoogdiergenen op de zware streng die in onze analyse zijn gebruikt, zijn de tweede codonposities bevooroordeeld in de richting van T, terwijl de derde codonposities bevooroordeeld zijn in de richting van A en bevooroordeeld in de richting van G . Daarom is de sterke voorkeur voor de gemeenschappelijke oorsprongshypothese door de nucleotidenanalyse waarschijnlijk te wijten aan de beperkingen van de genetische code. Het is echter de moeite waard te vermelden dat, hoewel het beste beschikbare substitutiemodel van aminozuuranalyse zonder uitlijning en met uitlijning van de standaardinstelling de voorkeur geeft aan de hypothese van de onafhankelijke oorsprong, de hypothese van de gemeenschappelijke oorsprong door sommige substitutiemodellen wordt geprefereerd. Dit doet een ernstig probleem rijzen met betrekking tot de doeltreffendheid van de formele test. Theobald gebruikte een soortgelijke gegevensreeks van aminozuursequenties als Brown e.a., die CLUSTALW met standaardinstellingen gebruikten om afzonderlijke reeksen eiwitgegevens op elkaar af te stemmen. In werkelijkheid gebruikte Theobald een ander programma, ProbCons genaamd, in plaats van CLUSTALW voor het uitlijnen van de sequenties, maar het verschil zou voor onze argumenten niet van kritiek belang moeten zijn.

Model Geen uitlijning (346 aa) (GOP, GEP) = (100, 100) (338 aa) (GOP, GEP) = (15, 6.66) (342 aa) (GOP, GEP) = (10, 0.1) (330 aa) (GOP, GEP) = (1, 0.1) (313 aa)
Onafhankelijk Gemeenschappelijk Onafhankelijk Gemeenschappelijk Onafhankelijk Gemeenschappelijk Onafhankelijk Gezamenlijk Onafhankelijk Gezamenlijk
Poisson 5934.3 5933.5† 5748.6 5745.8† 5856.9 5838.6† 5664.9 5638.0 † 5403.1 5288.6†
Poisson+Γ 5922.0† 5933.5 5735.9† 5740.6 5843.9 5832.3† 5651.7 5639.0 † 5392.7 5288.5†
JTT 5591.5 5586.1† 5420.3 5414.0† 5515.8 5495.6† 5335.5 5276.4 † 5080.2 4879.8†
mtmam 5247.4† 5252.5 5083.1† 5090.8 5174.7† 5176.0 4995.4 4989.9 † 4754.3 4688.6†
JTT+F+Γ 5304.3† 5325.8 5133.7† 5152.8 5226.8† 5231.7 5044.8 5034.2 † 4809.5 4682.4†
mtmam+F+Γ 5248.1 † 5272.3 5082.6 † 5107.7 5174.6 † 5185.4 4995.0 † 4995.6 4759.7 4678.7 †
Homologie* 0.077 0.083 0.107 0.123 0.216
AIC’s van elk model waarin de hypothesen van onafhankelijke en gemeenschappelijke oorsprong met elkaar worden vergeleken, werden getoond. Bij de vergelijking tussen de twee hypothesen werd de hypothese met de laagste AIC aangegeven met †. Het substitutiemodel met de minimale AIC in elke gegevensverzameling werd met een onderstreping aangegeven. Standaardwaarden van GOP en GEP werden vetgedrukt.
*Homologie tussen cytb en nd2 alignments, die wordt gedefinieerd door 1-(gemiddelde 𝑝-afstand tussen cytb en nd2).
Tabel 2
Formele tests van de gemeenschappelijke afstamming tussen cytb en nd2 op basis van de aminozuursequentie-gegevensreeksen die zijn uitgelijnd met verschillende waarden van gap penalties (GOP en GEP).

Aangezien cytb en nd2, gecodeerd op de zware streng van het mitochondriaal DNA, vergelijkbare aminozuursamenstellingen hebben, kan dit leiden tot correlaties tussen deze sequenties die niet het gevolg zijn van gemeenschappelijke voorouders. Dit brengt een andere tekortkoming in Theobald’s analyse aan het licht, namelijk dat hij geen rekening heeft gehouden met de mogelijkheid van convergente evolutie zoals door ons besproken. Terwijl de besproken voorbeelden betrekking hadden op convergentie ten gevolge van de eis van een soortgelijke functie en van aanpassing aan een soortgelijke omgeving, is er nog een ander type convergentie, namelijk convergentie naar een soortgelijke aminozuursamenstelling, die op vele verschillende manieren kan worden bereikt. Een gelijksoortige aminozuursamenstelling tussen cytb en nd2 is misschien geen bonafide convergentie, maar kan slechts beperkingen vertegenwoordigen als gevolg van het naast elkaar bestaan van de twee genen in hetzelfde genoom, maar vertegenwoordigt in feite een gelijksoortige situatie van convergente evolutie.

Wat betreft de bias veroorzaakt door de uitlijning, theoretisch kan deze worden opgelost door het opnemen van de uitlijning procedure in het kader van de maximale waarschijnlijkheid boomschatting . De meeste huidige uitlijningsprogramma’s behandelen uitlijning en fylogenie afzonderlijk, terwijl ze in feite van elkaar afhankelijk zijn. Wanneer een praktische methode wordt ontwikkeld om de uitlijning en de fylogenie gelijktijdig te schatten in het kader van de maximale waarschijnlijkheid, zouden we de AIC tussen de UCA-hypothese en de hypothese van de onafhankelijke oorsprong kunnen vergelijken door rekening te houden met de log-likelihood voor het insertie/deletie-proces zonder enige bias voor de UCA-hypothese. Anderzijds lijkt het niet gemakkelijk om rekening te houden met de mogelijkheid van convergente evolutie, aangezien elke momenteel gebruikte maximumwaarschijnlijkheidsmethode uitgaat van een stochastisch proces dat diversifiërende evolutie voorstelt, en het moeilijk is om in dit kader rekening te houden met convergente evolutie. Er zou een geheel nieuw paradigma nodig kunnen zijn om het probleem dat Theobald aan de orde stelde eindelijk op te lossen. Ondanks deze problemen bij het bewijzen van het bestaan van UCA door statistische testen, is het waar dat er sterk indirect bewijs is voor het bestaan ervan.

Charles Darwin schreef in On the Origin of Species het volgende: “Ik zou uit analogie moeten afleiden dat waarschijnlijk alle organische wezens die ooit op deze aarde hebben geleefd, zijn voortgekomen uit een oervorm, waarin het leven voor het eerst ademde”. Darwin lijkt meerdere oorsprongen van leven op aarde te hebben verworpen. Echter, zoals Theobald correct opmerkte, de theorie van UCA laat de mogelijkheid van meerdere onafhankelijke oorsprongen van leven toe . De UCA-hypothese stelt eenvoudigweg dat al het leven op aarde afstamt van één enkele gemeenschappelijke voorouderlijke soort. Er moeten in de loop van de geschiedenis van het leven een groot aantal uitstervingen zijn geweest, en er is geen manier om te weten welke soorten leven tijdens de vroege evolutie van het leven zijn uitgestorven. Toch lijkt het waarschijnlijk dat er tijdens het ontstaan van het leven een enorme hoeveelheid vallen en opstaan van verschillende vormen heeft plaatsgevonden en dat UCA, als het al bestond, er slechts één van was. Bovendien is, zoals Raup en Valentine betogen, de overlevingskans van het leven gering, tenzij er meerdere oorsprongen zijn. Zelfs als de UCA-hypothese standhoudt, impliceert het overleven van een bepaalde levensvorm niet dat deze uniek of superieur was.

Acknowledgment

Dit onderzoek werd gedeeltelijk ondersteund door Subsidies-in-Aid voor Wetenschappelijk Onderzoek C22570099 aan M. Hasegawa van JSPS.

Similar Posts

Geef een antwoord

Het e-mailadres wordt niet gepubliceerd.