Abstract
Deși dovezile circumstanțiale copleșitoare susțin existența strămoșului comun universal al tuturor formelor de viață existente pe Pământ, este încă o întrebare deschisă dacă strămoșul comun universal a existat sau nu. Theobald (Nature 465, 219-222 (2010)) a contestat recent această problemă cu un test statistic formal aplicat la secvențe aliniate de proteine conservatoare eșantionate din toate domeniile vieții și a concluzionat că ipoteza strămoșului comun universal este valabilă. Cu toate acestea, subliniem că există un defect fundamental în metoda lui Theobald, care a folosit secvențe aliniate. Arătăm că alinierea oferă o puternică prejudecată în favoarea ipotezei strămoșului comun și oferim un exemplu care arată că metoda lui Theobald susține ipoteza strămoșului comun pentru două familii de secvențe codificatoare de proteine aparent fără legătură între ele (cytb și nd2 din mitocondrii). Acest lucru trezește suspiciuni cu privire la eficacitatea testului „formal”.
1. Introducere
Datele generate de proiectele de secvențiere genomică de la o mare varietate de specii permit acum asamblarea unor seturi de date combinate de secvențe proteice pentru a reconstrui arborele universal al vieții (de ex.) Pe de altă parte, este încă o întrebare deschisă dacă strămoșul comun universal (UCA) al tuturor formelor de viață existente pe Pământ a existat sau nu. Deși metodele filogenetice moleculare construiesc automat un arbore atunci când este furnizat un set de date de secvențe, arborele dedus nu garantează neapărat existența UCA, deoarece existența sa este presupusă implicit de la început de obicei în filogenetica moleculară.
Teoria UCA s-a bucurat de o listă convingătoare de dovezi circumstanțiale, așa cum este prezentată de Theobald . Cu toate acestea, nu a existat nici o încercare de a testa ipoteza UCA între cele trei domenii (sau superregnuri) ale vieții, adică eubacteria (Bacteria), archaebacteria (Archaea) și eucariotele (Eukarya), prin utilizarea secvențelor moleculare până când Theobald a provocat această problemă cu un test statistic formal. Prin utilizarea seturilor de date de secvențe compilate de Brown et al. și prin utilizarea criteriului de selecție a modelului AIC , el a arătat că ipoteza UCA este mult superioară oricărei ipoteze de origine independentă și a concluzionat că teoria UCA este valabilă. În timp ce ipoteza UCA postulează că eubacteriile, arhebacteriile și eucariotele au descins dintr-un singur strămoș comun numit UCA, ipotezele de origine independentă includ scenarii cum ar fi faptul că eubacteriile au o origine diferită de cea a arhebacteriilor/eucariotelor sau că cele trei domenii au origini diferite una față de cealaltă. Încercarea sa este primul pas spre obiectivul de a stabili teoria UCA cu o bază statistică solidă. Cu toate acestea, metodologia sa conține unele probleme pentru stabilirea teoriei UCA, așa cum am discutat noi , și, în această comunicare, vom da mai multe detalii despre argumentele noastre.
Cea mai gravă problemă a analizei lui Theobald este că el a folosit secvențe aliniate compilate de Brown et al. , care au fost interesați să rezolve relațiile filogenetice dintre archaebacterii, eubacterii și eucariote, inclusiv dacă fiecare domeniu al vieții constituie o cladă monofiletică. Astfel, ei au presupus în mod prioritar existența UCA. Într-adevăr, alinierea este o procedură bazată pe presupunerea că secvențele au deviat de la o secvență ancestrală comună. Brown et al. au scris: „Familiile individuale de proteine au fost mai întâi aliniate pe calculator și apoi am rafinat manual alinierile. Am eliminat regiunile slab conservate din alinierile individuale ale proteinelor”. Această procedură presupune în mod clar existența UCA, iar acest lucru nu a fost o problemă pentru Brown et al., deoarece ceea ce îi interesa era relația filogenetică dintre toate speciile de pe Pământ, iar existența UCA era susținută de dovezi circumstanțiale . Cu toate acestea, pentru a dovedi existența UCA, procedura de aliniere nu ar trebui să fie folosită, deoarece dă o puternică prejudecată pentru ipoteza UCA.
Într-o comunicare anterioară , am oferit un exemplu din două familii aparent neînrudite de secvențe codificatoare de acizi nucleici (cytb și nd2 din mitocondrii) pentru care AIC alege o ipoteză de origine comună. Deoarece alinierea dă o prejudecată pentru o ascendență comună, nu am făcut o aliniere între cytb și nd2, dar totuși originea comună a cytb și nd2 a fost preferată originilor independente ale acestor două gene. Probabil că nimeni nu va crede că acest rezultat ar trebui să fie considerat ca o dovadă a strămoșiei comune finale a cytb și nd2. Mai degrabă acest lucru ridică un semn de întrebare cu privire la eficacitatea testului lui Theobald.
Theobald a criticat analiza noastră arătând că modelul nostru de substituție nucleotidică a GTR+Γ este prea naiv. Am folosit același cadru de citire al celor două gene, dar, potrivit lui Theobald, este de așteptat ca constrângerile codului genetic să inducă corelații între aceste secvențe care nu se datorează strămoșilor comuni. Aceasta este o observație bună și, în această lucrare, vom folosi și modelul de substituție a aminoacizilor pentru a ține cont de această corelație. Am utilizat doar modelul GTR+Γ de substituție a nucleotidelor pentru a arăta cel mai impresionant caz fără aliniere, dar, de fapt, preferința modelului de origine comună față de cel de origine independentă depinde de modelul de substituție presupus. Prin urmare, prin utilizarea mai multor modele alternative de substituție a nucleotidelor, precum și a aminoacizilor, vom studia dacă setările implicite ale programului de aliniere, cu care a fost realizat setul de date al lui Theobald, resping ipoteza originii comune a celor două gene aparent neînrudite.
2. Materiale și metode
Pentru analize a fost pus la dispoziție același set de date de secvențe ca cel utilizat în. Cei 1.038 pb 5′-terminali (cu excepția codonului de inițiere) ai genelor mitocondriale ale cytb și nd2 de la vacă (EU177848), cerb (AB210267) și hipopotam (NC_000889) au fost analizați prin metoda de maximă verosimilitate implementată în PAML presupunând relațiile ((vacă, cerb), hipopotam), așa cum se arată în figura 1. Ipoteza originii independente prezentată în partea stângă a figurii 1 este comparată cu ipoteza originii comune prezentată în partea dreaptă cu ajutorul criteriului AIC . Modelele de substituție utilizate în această lucrare sunt următoarele: JC , K80 , K80 , HKY , HKY , GTR , K80+Γ , HKY+Γ , și GTR+Γ pentru substituțiile de nucleotide, și modelele Poisson, JTT , mtmam , Poisson+Γ , JTT+F+Γ , mtmam+F+Γ pentru substituțiile de aminoacizi. CLUSTAL W a fost utilizat pentru aliniere cu diferite valori pentru gap open penalty (GOP) și gap extension penalty (GEP). Valorile implicite ale (GOP, GEP) sunt (15, 6,66) pentru secvențe de nucleotide și (10, 0,1) pentru secvențe de aminoacizi, iar valorile implicite pentru secvențe de aminoacizi au fost utilizate în pregătirea seturilor de date utilizate în , în care au fost analizate numai secvențe de aminoacizi.
Ipoteza originilor independente versus ipotezele originii comune a cytb și nd2. Nu există nicio ramură care să conecteze cele două gene în ipoteza originilor independente, în timp ce strămoșul comun al celor două gene există în ipoteza originii comune.
3. Rezultate și discuții
Rezultatul analizei la nivel de nucleotide este prezentat în tabelul 1. Fără aliniere, modelele JC, K80+Γ, HKY+Γ și GTR+Γ preferă ipoteza originii comune, în timp ce modelele K80, HKY și GTR preferă ipoteza originii independente. Cel mai bun model în ceea ce privește AIC este modelul GTR+Γ, iar acesta preferă originea comună. Apoi, au fost analizate secvențele aliniate cu CLUSTAL W cu diferite valori GOP și GEP. Valorile mai mari ale GOP și GEP înseamnă o penalizare mai puternică pentru inserarea unui decalaj și extinderea decalajului și, în consecință, alinierea rezultată cu valori mai mari este mai apropiată de setul de date fără aliniere decât cea produsă cu valori mai mici. Prin modificarea GOP și GEP de la valori mari la valori mici, ipoteza originii comune tinde să fie preferată în fața ipotezei originii independente, indiferent de modelul de substituție. Este interesant faptul că o astfel de situație se realizează cu (GOP, GEP) = (50, 6,66) înainte de valorile implicite de (15, 6,66).
(a) | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
|
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
(b) | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
|
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
AIC-urile fiecărui model care compară ipotezele de origine independentă și comună au fost prezentate. În comparația dintre cele două ipoteze, ipoteza cu AIC mai mic a fost indicată prin †. Modelul de substituție cu AIC minim în fiecare set de date a fost indicat cu o subliniere. Valorile implicite ale GOP și GEP au fost indicate cu fonturi negre. *Homologia dintre alinierile cytb și nd2, care este definită prin 1-(distanța medie 𝑝-distanța dintre cytb și nd2). |
O analiză similară la nivel de aminoacizi este prezentată în Tabelul 2. În acest caz, ipoteza originii comune este preferată doar de modelele Poisson și JTT fără aliniere, în timp ce cel mai bun model de mtmam+F+Γ preferă originile independente. Secvențele aliniate cu setarea implicită oferă, de asemenea, rezultate diferite în funcție de modelul de substituție presupus; în timp ce modelele simple, cum ar fi Poisson, JTT și Poisson+Γ preferă ipoteza originii comune, cel mai bun model disponibil în ceea ce privește AIC, modelul mtmam+F+Γ, preferă originile independente. Probabil că preferința mai puternică a ipotezei strămoșilor comuni cu analiza la nivel de nucleotide se datorează, așa cum a subliniat Theobald, constrângerilor codului genetic care induc corelații între secvențe care nu se datorează strămoșilor comuni. În special în genele mitocondriale de mamifere codificatoare de proteine de pe filamentul greu utilizate în analiza noastră, pozițiile codonului doi sunt înclinate spre T, în timp ce pozițiile codonului trei sunt înclinate spre A și înclinate împotriva lui G . Prin urmare, preferința puternică a ipotezei originii comune de către analiza nucleotidelor se datorează probabil constrângerilor codului genetic. Cu toate acestea, merită menționat faptul că, deși cel mai bun model de substituție disponibil al analizei aminoacizilor fără aliniere și cu aliniere cu setarea implicită preferă ipoteza originii independente, ipoteza originii comune este preferată de unele modele de substituție. Acest lucru ridică o problemă serioasă în ceea ce privește eficacitatea testului formal. Theobald a utilizat un set de date de secvențe de aminoacizi similar cu cel al lui Brown și colab. , care au utilizat CLUSTALW cu setările implicite pentru a alinia seturile de date individuale de proteine. De fapt, Theobald a folosit un alt program numit ProbCons în loc de CLUSTALW pentru alinierea secvențelor, dar diferența nu ar trebui să fie de o importanță critică pentru argumentele noastre.
|
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
AIC-urile fiecărui model care compară ipotezele de origine independentă și comună au fost prezentate. În comparația dintre cele două ipoteze, ipoteza cu AIC mai mic a fost indicată prin †. Modelul de substituție cu AIC minim în fiecare set de date a fost indicat cu o subliniere. Valorile implicite ale GOP și GEP au fost indicate cu fonturi negre. *Homologia dintre alinierile cytb și nd2, care este definită prin 1-(distanța medie 𝑝-distanța dintre cytb și nd2). |
Deoarece cytb și nd2 codificate pe lanțul greu al ADN-ului mitocondrial au compoziții de aminoacizi similare , acest lucru poate induce corelații între aceste secvențe care nu se datorează unei ancestralități comune. Acest lucru evidențiază un alt defect în analiza lui Theobald; și anume, el nu a luat în considerare posibilitatea evoluției convergente, așa cum am discutat noi . În timp ce exemplele discutate în au fost în convergența datorată cerinței unei funcții similare și adaptării la un mediu similar, există un alt tip de convergență, și anume, convergența la o compoziție similară de aminoacizi, care poate fi obținută prin mai multe moduri diferite. O compoziție similară de aminoacizi între cytb și nd2 poate să nu fie o convergență de bună credință, ci poate reprezenta doar constrângeri datorate coexistenței celor două gene în același genom, dar reprezintă efectiv o situație similară de evoluție convergentă.
În ceea ce privește părtinirea cauzată de aliniere, teoretic aceasta poate fi rezolvată prin includerea procedurii de aliniere în cadrul estimării arborelui de maximă verosimilitate . Majoritatea programelor actuale de aliniere tratează separat alinierea și filogenia, când, de fapt, acestea sunt interdependente. În cazul în care se va dezvolta o metodă practică de estimare simultană a alinierii și a filogeniei în cadrul maximului de verosimilitate, vom putea compara AIC între ipoteza UCA și ipoteza originii independente, luând în considerare logaritmul verosimilității pentru procesul de inserție/deleție, fără nicio distorsiune pentru ipoteza UCA. Pe de altă parte, cu toate acestea, nu pare a fi ușor de luat în considerare posibilitatea unei evoluții convergente, deoarece orice metodă de verosimilitate maximă utilizată în prezent presupune un proces stocastic care reprezintă o evoluție diversificatoare, iar în acest cadru este dificil să se ia în considerare evoluția convergentă. Ar putea fi nevoie de o paradigmă complet nouă pentru a rezolva în cele din urmă problema pe care Theobald a pus-o în discuție. În ciuda acestor probleme în dovedirea existenței UCA prin teste statistice, este adevărat că există dovezi circumstanțiale puternice pentru existența sa .
Charles Darwin a scris în „On the Origin of Species” (Despre originea speciilor) după cum urmează: „Ar trebui să deduc din analogie că, probabil, toate ființele organice care au trăit vreodată pe acest pământ au coborât din cineva formă primordială, în care viața a suflat pentru prima dată”. Darwin pare să fi eliminat originile multiple ale vieții pe Pământ. Cu toate acestea, așa cum a remarcat corect Theobald, teoria UCA permite posibilitatea unor origini multiple și independente ale vieții . Ipoteza UCA afirmă pur și simplu că toată viața existentă pe Pământ a descins dintr-o singură specie ancestrală comună. Trebuie să fi existat o cantitate imensă de extincții pe parcursul istoriei vieții și nu există nicio modalitate de a ști ce tipuri de viață au dispărut în timpul evoluției timpurii a vieții. Cu toate acestea, pare totuși probabil că în timpul apariției vieții a avut loc o cantitate uriașă de încercări și erori ale diferitelor forme și că UCA, dacă a existat, a fost doar una dintre ele. Mai mult, după cum susțin Raup și Valentine , probabilitatea de supraviețuire a vieții este scăzută dacă nu există origini multiple. Chiar dacă ipoteza UCA se adeverește, supraviețuirea unei anumite forme de viață nu implică faptul că aceasta a fost unică sau superioară.
Recunoaștere
Acest studiu a fost sprijinit parțial de Grants-in-Aid for Scientific Research C22570099 acordat lui M. Hasegawa de către JSPS.