Joitakin ongelmia maapallon elämän universaalin yhteisen esi-isän olemassaolon todistamisessa

author
10 minutes, 18 seconds Read

Abstract

Maassa elävän elämän universaalin yhteisen esi-isän olemassaolosta on olemassa ylivoimainen määrä aihetodisteita, mutta on edelleen avoin kysymys, oliko universaali yhteinen esi-isä olemassa vai ei. Theobald (Nature 465, 219-222 (2010)) kyseenalaisti hiljattain tämän ongelman muodollisella tilastollisella testillä, jota sovellettiin kaikista elämän alueista poimittujen konservatiivisten proteiinien linjattuihin sekvensseihin, ja päätyi siihen tulokseen, että universaalin yhteisen esi-isän hypoteesi pitää paikkansa. Huomautamme kuitenkin, että Theobaldin menetelmässä, jossa käytettiin linjattuja sekvenssejä, on perustavanlaatuinen virhe. Osoitamme, että kohdistaminen antaa vahvan harhan yhteisen esi-isän hypoteesin puolesta, ja annamme esimerkin, jonka mukaan Theobaldin menetelmä tukee yhteisen esi-isän hypoteesia kahdelle näennäisesti toisiinsa liittymättömälle proteiineja koodaavalle sekvenssiperheelle (mitokondrioiden cytb ja nd2). Tämä herättää epäilyksiä ”muodollisen” testin tehokkuudesta.

1. Johdanto

Tietoja, jotka on tuotettu genomisekvensointihankkeissa lukuisista eri lajeista, voidaan nyt koota yhdistetyistä proteiinisekvenssitietoaineistoista universaalin elämänpuun rekonstruoimiseksi (esim ). Toisaalta on edelleen avoin kysymys, oliko kaiken maapallolla elävän elämän universaali yhteinen esi-isä (Universal Common Ancestor, UCA) olemassa vai ei. Vaikka molekyylifylogeneettiset menetelmät rakentavat automaattisesti puun, kun annetaan sekvenssidataa, johdettu puu ei välttämättä takaa UCA:n olemassaoloa, koska sen olemassaolo oletetaan implisiittisesti alusta alkaen yleensä molekyylifylogenetiikassa.

Teoria UCA:sta on nauttinut vakuuttavasta listasta aihetodisteita, kuten Theobald . UCA-hypoteesia ei kuitenkaan ollut yritetty testata elämän kolmen alueen (tai superkunnan) eli eubakteerien (Bakteerit), arkebakteerien (Arkeat) ja eukaryoottien (Eukarya) välillä molekyylisekvenssien avulla, ennen kuin Theobald haastoi tämän ongelman virallisella tilastollisella testillä. Käyttämällä Brownin ym. kokoamia sekvenssitietoaineistoja ja käyttämällä mallinvalintakriteeriä AIC hän osoitti, että UCA-hypoteesi on paljon parempi kuin mikään riippumattoman alkuperän hypoteesi, ja hän päätteli, että UCA-teoria pitää paikkansa. UCA-hypoteesin mukaan eubakteerit, arkebakteerit ja eukaryootit polveutuvat yhdestä yhteisestä esi-isästä, jota kutsutaan UCA:ksi, kun taas riippumattoman alkuperän hypoteeseihin sisältyy skenaarioita, joiden mukaan eubakteereilla on erilainen alkuperä kuin arkebakteereilla/eukaryooteilla, tai että näillä kolmella alueella on erilainen alkuperä kuin toisillaan. Hänen yrityksensä on ensimmäinen askel kohti UCA-teorian vakiinnuttamista vankalla tilastollisella pohjalla. Hänen metodologiansa sisältää kuitenkin joitakin ongelmia UCA-teorian vakiinnuttamisen kannalta, kuten me olemme käsitelleet , ja tässä tiedonannossa esitämme tarkempia yksityiskohtia väitteistämme.

Theobaldin analyysin vakavin ongelma on se, että hän käytti linjattuja sekvenssejä, jotka oli koonnut Brown et al. , jotka olivat kiinnostuneita ratkaisemaan fylogeneettiset sukulaisuussuhteet arkebakteerien, eubakteerien ja eukaryoottien välillä, mukaan lukien se, muodostaako kukin elämänalue monofyyttisen klaanin. Niinpä he lähtökohtaisesti olettivat UCA:n olemassaolon. Kohdistus on menettely, joka perustuu oletukseen, että sekvenssit ovat eronneet yhteisestä esi-isäsekvenssistä. Brown ym. kirjoittavat: ”Yksittäiset proteiiniperheet linjattiin ensin tietokoneella, minkä jälkeen linjoja tarkennettiin manuaalisesti. Poistimme huonosti konservoituneita alueita yksittäisten proteiinien kohdistuksista.” Tässä menettelyssä oletetaan selvästi UCA:n olemassaolo, mikä ei ollut ongelma Brownille ja muille, koska heitä kiinnosti kaikkien maapallon lajien väliset fylogeneettiset sukulaisuussuhteet, ja UCA:n olemassaoloa tukivat aihetodisteet . UCA:n olemassaolon todistamisessa ei kuitenkaan pitäisi käyttää kohdistamismenettelyä, koska se antaa vahvan harhan UCA-hypoteesin puolesta.

Aiemmassa tiedonannossa esitimme esimerkin kahdesta näennäisesti toisiinsa liittymättömästä nukleiinihappoja koodaavasta sekvenssiperheestä (mitokondrioiden cytb- ja nd2-sekvenssit), joille AIC valitsee yhteisen alkuperän hypoteesin. Koska kohdistaminen antaa harhaa yhteisen alkuperän puolesta, emme tehneet kohdistusta cytb:n ja nd2:n välillä, mutta silti cytb:n ja nd2:n yhteistä alkuperää pidettiin parempana kuin näiden kahden geenin itsenäistä alkuperää. Todennäköisesti kukaan ei usko, että tätä tulosta olisi pidettävä todisteena cytb:n ja nd2:n lopullisesta yhteisestä alkuperästä. Pikemminkin tämä herättää kysymysmerkin Theobaldin testin tehokkuudesta.

Theobald kritisoi analyysiämme huomauttamalla, että nukleotidisubstituutiomallimme GTR+Γ:lle on liian naiivi. Käytimme kahden geenin samaa lukukehystä, mutta Theobaldin mukaan geneettisen koodin rajoitusten odotetaan aiheuttavan näiden sekvenssien välille korrelaatioita, jotka eivät johdu yhteisestä esi-isästä. Tämä on hyvä huomio, ja tässä työssä käytämme myös aminohappojen substituutiomallia tämän korrelaation huomioon ottamiseksi. Käytimme vain nukleotidien substituutiomallia GTR+Γ, jotta voisimme näyttää vaikuttavimman tapauksen ilman kohdistusta, mutta itse asiassa yhteisen alkuperän mallin suosiminen itsenäisen alkuperän malliin nähden riippuu oletetusta substituutiomallista. Käyttämällä useita vaihtoehtoisia nukleotidien sekä aminohappojen substituutiomalleja tutkimme siis, hylkäävätkö linjausohjelman oletusasetukset, joilla Theobaldin aineisto tehtiin, kahden näennäisesti toisiinsa liittymättömän geenin yhteisen alkuperän hypoteesin.

2. Materiaalit ja menetelmät

Analyysejä varten tarjottiin sama sekvenssiaineisto kuin kohdassa käytettiin. Lehmän (EU177848), peuran (AB210267) ja virtahevon (NC_000889) mitokondriaalisten cytb- ja nd2-geenien 1038 bp:n 5′-pääte (lukuun ottamatta aloituskodonia) analysoitiin PAML:iin implementoidulla maksimitodennäköisyysmenetelmällä olettaen, että relaatiot ((lehmä, peura), virtahepo) ovat kuvassa 1 esitetyt. Kuvan 1 vasemmalla puolella esitettyä itsenäisen alkuperän hypoteesia verrataan oikealla puolella esitettyyn yhteisen alkuperän hypoteesiin AIC-kriteerin avulla. Tässä työssä käytetyt korvausmallit ovat seuraavat: JC , K80 , HKY , GTR , K80+Γ , HKY+Γ ja GTR+Γ nukleotidisubstituutioiden osalta ja Poisson, JTT , mtmam , Poisson+Γ , JTT+F+Γ , mtmam+F+Γ mallit aminohapposubstituutioiden osalta. Kohdistamiseen käytettiin CLUSTAL W -ohjelmaa, jossa käytettiin eri arvoja gap open penalty (GOP) ja gap extension penalty (GEP) -malleille. (GOP, GEP) oletusarvot ovat (15, 6,66) nukleotidisekvensseille ja (10, 0,1) aminohapposekvensseille, ja aminohapposekvenssejä koskevia oletusarvoja käytettiin valmisteltaessa tietokokonaisuuksia, joita käytettiin , jossa analysoitiin vain aminohapposekvenssejä.

Kuva 1

Cytb:n ja nd2:n riippumattoman alkuperän hypoteesi vs. yhteisen alkuperän hypoteesi. Riippumattoman alkuperän hypoteesissa kahta geeniä yhdistävää haaraa ei ole olemassa, kun taas yhteisen alkuperän hypoteesissa näiden kahden geenin yhteinen esi-isä on olemassa.

3. Tulokset ja pohdinta

Taulukossa 1 on esitetty analyysin tulos nukleotiditasolla. Ilman kohdistusta JC-, K80+Γ-, HKY+Γ- ja GTR+Γ-mallit suosivat yhteisen alkuperän hypoteesia, kun taas K80-, HKY- ja GTR-mallit suosivat itsenäisen alkuperän hypoteesia. AIC:n suhteen paras malli on GTR+Γ-malli, ja se suosii yhteistä alkuperää. Tämän jälkeen analysoitiin CLUSTAL W -ohjelmalla kohdistettuja sekvenssejä, joilla oli erilaisia GOP- ja GEP-arvoja. Suuremmat GOP- ja GEP-arvot merkitsevät voimakkaampaa rangaistusta aukon lisäämisestä ja aukon laajentamisesta, ja vastaavasti tuloksena oleva kohdistaminen suuremmilla arvoilla on lähempänä datasarjaa ilman kohdistamista kuin pienemmillä arvoilla tuotettu kohdistaminen. Kun GOP- ja GEP-arvoja muutetaan suurista pieniin arvoihin, yhteistä alkuperää koskeva hypoteesi on yleensä parempi kuin riippumatonta alkuperää koskeva hypoteesi riippumatta korvausmallista. Mielenkiintoista on, että tällainen tilanne toteutuu, kun (GOP, GEP) = (50, 6,66) ennen oletusarvoja (15, 6,66).

(a)
Malli Ei kohdistusta (1038 bp) (GOP, GEP) = (100, 100) (1026 bp) (GOP, GEP) = (50, 6.66) (1029 bp)
riippumaton yhteis riippumaton riippumaton riippumaton riippumaton riippumaton riippumaton
>
JC 11043.8 11005.5† 10876.9 10844.5† 10935.0 10862.9†
K80 10820.8† 10821.2 10669.3 10662.2† 10727.6 10684.4†
HKY 10398.6† 10414.7 10255.3† 10266.6 10309.7 10294.4†
GTR 10307.5† 10320.4 10186.5† 10192.1 10242.4 10224.3†
K80+Γ 10789.5 10723.4† 10637.5 10562.7† 10695.7 10650.4†
HKY+Γ 10329.8 10274.8† 10186.4 10119.4† 10239.7 10228.4†
GTR+Γ 10271.9 10216.4 † 10129.5 10066.6 † 10184.1 10168.6 †
Homologia* 0.314 0.317 0.349
(b)
>

>

Malli (GOP, GEP) = (30, 6.66) (1025 bp) (GOP, GEP) = (15, 6.66) (999 bp) (GOP, GEP) = (3, 6.66) (974 bp)
riippumaton yhteinen riippumaton riippumaton riippumaton riippumaton riippumaton riippumaton
JC 10890.6 10802.2† 10592.4 10409.2 † 10262.1 9865.7†
K80 10684.6 10623.3† 10395.0 10221.3 † 10056.9 9613.1†
HKY 10271.8 10241.0† 9991.1 9875.0 † 9645.8 9283.2†
GTR 10204.9 10170.3† 9921.1 9820.4 † 9585.0 9234.3†
K80+Γ 10652.5 10577.5† 10363.0 10188.2 † 10028.1 9595.4†
HKY+Γ 10202.4 10162.0† 9920.5 9817.6 † 9580.9 9249.5†
GTR+Γ 10146.3 10099.7 † 9863.6 9768.5 † 9531.1 9201.7 †
Homologia* 0.360 0.419 0.504
Kunkin riippumattoman ja yhteisen alkuperän hypoteeseja vertailevan mallin AIC:t on esitetty. Kahden hypoteesin välisessä vertailussa alhaisemman AIC:n omaava hypoteesi oli merkitty †:llä. Substituutiomalli, jonka AIC oli kussakin aineistossa pienin, oli merkitty alleviivauksella. GOP:n ja GEP:n oletusarvot oli merkitty lihavoidulla fontilla.
*Cytb- ja nd2-kohdistusten välinen homologia, joka on määritelty 1-(keskimääräinen 𝑝-etäisyys cytb:n ja nd2:n välillä).
Taulukko 1
Taulukossa 1
Formaaliset testit cytb:n ja nd2:n välisestä yhteisestä polveutumisesta perustuen nukleotidisekvenssiaineistoihin, jotka on kohdistettu erilaisilla aukkosanktioiden (GOP ja GEP) arvoilla.

Taulukkoon 2 on merkitty samanlainen analyysi aminohappotasolla. Tässä tapauksessa yhteistä alkuperää koskevaa hypoteesia suosivat vain Poisson- ja JTT-mallit ilman kohdistusta, kun taas paras malli mtmam+F+Γ suosii riippumatonta alkuperää. Kohdistetut sekvenssit oletusasetuksella antavat myös erilaisia tuloksia riippuen oletetusta substituutiomallista; kun yksinkertaiset mallit, kuten Poisson-, JTT- ja Poisson+Γ-mallit, suosivat yhteisen alkuperän hypoteesia, AIC:n suhteen paras käytettävissä oleva malli, mtmam+F+Γ-malli, suosii riippumatonta alkuperää. Todennäköisesti yhteisen alkuperän hypoteesin vahvempi suosiminen nukleotiditason analyysissä johtuu, kuten Theobald huomautti, geneettisen koodin rajoituksista, jotka aiheuttavat sekvenssien välille korrelaatioita, jotka eivät johdu yhteisestä alkuperästä. Erityisesti nisäkkäiden mitokondrioiden proteiineja koodaavissa geeneissä analyysissämme käytetyllä raskaalla säikeellä toisen kodonin paikat ovat vinoutuneet kohti T:tä, kun taas kolmannen kodonin paikat ovat vinoutuneet kohti A:ta ja vinoutuneet G:tä vastaan. Näin ollen yhteisen alkuperän hypoteesin voimakas suosiminen nukleotidianalyysin perusteella johtuu todennäköisesti geneettisen koodin asettamista rajoituksista. On kuitenkin syytä mainita, että vaikka paras saatavilla oleva aminohappoanalyysin substituutiomalli ilman kohdistusta ja oletusasetusten mukaisella kohdistuksella suosii itsenäisen alkuperän hypoteesia, jotkut substituutiomallit suosivat yhteisen alkuperän hypoteesia. Tämä aiheuttaa vakavan ongelman muodollisen testin tehokkuuden kannalta. Theobald käytti samanlaista aminohapposekvenssien aineistoa kuin Brown et al. , jotka käyttivät CLUSTALW-ohjelmaa oletusasetuksilla yksittäisten proteiinitietoaineistojen kohdistamiseen. Itse asiassa Theobald käytti sekvenssien kohdistamiseen CLUSTALW:n sijasta toista ohjelmaa nimeltä ProbCons, mutta erolla ei pitäisi olla ratkaisevaa merkitystä väitteidemme kannalta.

Malli Ei kohdistusta (346 aa) (GOP, GEP) = (100, 100) (338 aa) (GOP, GEP) = (15, 6.66) (342 aa) (GOP, GEP) = (10, 0.1) (330 aa) (GOP, GEP) = (1, 0.1) (313 aa)
riippumaton yhteinen riippumaton yhteinen yhteinen riippumaton yhteinen yhteinen riippumaton yhteinen riippumaton yhteinen
Poisson 5934.3 5933.5† 5748.6 5745.8† 5856.9 5838.6† 5664.9 5638.0 † 5403.1 5288.6†
Poisson+Γ 5922.0† 5933.5 5735.9† 5740.6 5843.9 5832.3† 5651.7 5639.0 † 5392.7 5288.5†
JTT 5591.5 5586.1† 5420.3 5414.0† 5515.8 5495.6† 5335.5 5276.4 † 5080.2 4879.8†
mtmam 5247.4† 5252.5 5083.1† 5090.8 5174.7† 5176.0 4995.4 4989.9 † 4754.3 4688.6†
JTT+F+Γ 5304.3† 5325.8 5133.7† 5152.8 5226.8† 5231.7 5044.8 5034.2 † 4809.5 4682.4†
mtmam+F+Γ 5248.1 † 5272.3 5082.6 † 5107.7 5174.6 † 5185.4 4995.0 † 4995.6 4759.7 4678.7 †
Homologia* 0.077 0.083 0.107 0.123 0.216
Kunkin riippumattoman ja yhteisen alkuperän hypoteeseja vertailevan mallin AIC:t on esitetty. Kahden hypoteesin välisessä vertailussa alhaisemman AIC:n omaava hypoteesi oli merkitty †:llä. Substituutiomalli, jonka AIC oli kussakin aineistossa pienin, oli merkitty alleviivauksella. GOP:n ja GEP:n oletusarvot oli merkitty lihavoidulla fontilla.
*Cytb- ja nd2-kohdistusten välinen homologia, joka on määritelty 1-(keskimääräinen 𝑝-etäisyys cytb:n ja nd2:n välillä).
Taulukko 2
Formaaliset testit cytb:n ja nd2:n välisestä yhteisestä polveutumisesta aminohapposekvenssiaineistojen perusteella, jotka on linjattu erilaisilla aukkoseuraamusten (GOP ja GEP) arvoilla.

Koska mitokondriaalisen DNA:n raskaalla säikeellä koodatuilla cytb:llä ja nd2:lla on samankaltaiset aminohappokoostumukset , tämä voi aiheuttaa näiden sekvenssien välille korrelaatioita, jotka eivät johdu yhteisestä syntyperästä. Tämä tuo esiin toisen puutteen Theobaldin analyysissä, nimittäin sen, että hän ei ottanut huomioon konvergentin evoluution mahdollisuutta, kuten me olemme käsitelleet. Edellä käsitellyissä esimerkeissä oli kyse samankaltaisen toiminnon vaatimuksesta ja samankaltaiseen ympäristöön sopeutumisesta johtuvasta konvergenssista, mutta on olemassa myös toisenlaista konvergenssia eli konvergenssi samankaltaiseen aminohappokoostumukseen, joka voidaan saavuttaa monin eri tavoin. Samankaltainen aminohappokoostumus cytb:n ja nd2:n välillä ei ehkä ole vilpitöntä konvergenssia, vaan se voi edustaa vain rajoitteita, jotka johtuvat näiden kahden geenin samanaikaisesta esiintymisestä samassa genomissa, mutta se edustaa tosiasiassa samankaltaista konvergenttia evoluutiotilannetta.

Mitä tulee linjauksen aiheuttamaan harhapäätökseen, teoreettisesti se voidaan ratkaista sisällyttämällä linjausmenettely maksimaalisen todennäköisyyden puun estimointiin . Useimmat nykyiset kohdistamisohjelmat käsittelevät kohdistamista ja fylogeniaa erikseen, vaikka ne ovat todellisuudessa toisistaan riippuvaisia. Kun kehitetään käytännöllinen menetelmä, jolla voidaan estimoida sekä linjaus että fylogenia samanaikaisesti maksimaalisen likelihoodin puitteissa, voisimme verrata UCA- ja riippumattoman alkuperän hypoteesien välistä AIC:tä ottamalla huomioon insertio-/deleetio-prosessin log-likelihoodin ilman, että UCA-hypoteesiin kohdistuu harhaa. Toisaalta näyttää kuitenkin siltä, että konvergentin evoluution mahdollisuutta ei ole helppo ottaa huomioon, koska kaikissa nykyisin käytetyissä maksimilikelihood-menetelmissä oletetaan stokastinen prosessi, joka edustaa monipuolistuvaa evoluutiota, ja konvergentin evoluution huomioon ottaminen tässä kehyksessä on vaikeaa. Saatetaan tarvita täysin uusi paradigma, jotta Theobaldin kyseenalaistama ongelma voitaisiin lopulta ratkaista. Näistä ongelmista huolimatta, jotka liittyvät UCA:n olemassaolon todistamiseen tilastollisen testauksen avulla, on totta, että sen olemassaolosta on vahvaa aihetodistusaineistoa.

Charles Darwin kirjoitti Lajien synty -teoksessa seuraavasti: ”Minun pitäisi analogian perusteella päätellä, että luultavasti kaikki orgaaniset olennot, jotka ovat koskaan eläneet tällä maapallolla, ovat polveutuneet jostakin alkumuodosta, johon elämä ensin puhalsi”. Darwin näyttää hylänneen elämän moninkertaisen alkuperän maapallolla. Kuten Theobald kuitenkin aivan oikein totesi, UCA-teoria sallii elämän useiden itsenäisten alkuperien mahdollisuuden. UCA-hypoteesin mukaan kaikki maapallolla elävä elämä on peräisin yhdestä yhteisestä esi-isälajista. Elämän historian aikana on täytynyt tapahtua valtava määrä sukupuuttoja, eikä ole mitään keinoa tietää, mitkä elämänlajit kuolivat sukupuuttoon elämän varhaisen evoluution aikana. Silti vaikuttaa todennäköiseltä, että elämän synnyn aikana tapahtui valtava määrä erilaisten muotojen kokeiluja ja erehdyksiä ja että UCA, jos se oli olemassa, oli vain yksi niistä. Lisäksi, kuten Raup ja Valentine väittävät, elämän selviytymistodennäköisyys on pieni, ellei ole olemassa useita alkulähteitä. Vaikka UCA-hypoteesi pitäisikin paikkansa, tietyn elämänmuodon eloonjääminen ei tarkoita, että se olisi ollut ainutlaatuinen tai ylivoimainen.

Kiitokset

Tämä tutkimus sai osittaista tukea JSPS:n M. Hasegawalle myöntämästä Grants-in-Aid for Scientific Research C22570099 -avustuksesta.

Similar Posts

Vastaa

Sähköpostiosoitettasi ei julkaista.