Abstract
Noha elsöprő mennyiségű közvetett bizonyíték támasztja alá a Földön létező összes élet egyetemes közös ősének létezését, még mindig nyitott kérdés, hogy az egyetemes közös ős létezett-e vagy sem. Theobald (Nature 465, 219-222 (2010)) nemrég megkérdőjelezte ezt a problémát egy formális statisztikai teszttel, amelyet az élet minden területéről származó konzervatív fehérjék összehangolt szekvenciáira alkalmazott, és arra a következtetésre jutott, hogy az egyetemes közös ős hipotézis érvényes. Rámutatunk azonban, hogy Theobald módszerében, amely összehangolt szekvenciákat használt, van egy alapvető hiba. Megmutatjuk, hogy az összehangolás erős torzítást ad a közös ős hipotézis mellett, és példát mutatunk arra, hogy Theobald módszere a közös ős hipotézist támogatja két látszólag nem rokon fehérjekódoló szekvenciacsalád (a mitokondriumok cytb és nd2 szekvenciái) esetében. Ez gyanút ébreszt a “formális” teszt hatékonyságával kapcsolatban.
1. Bevezetés
A sokféle fajból származó genomszekvenálási projektek által generált adatok ma már lehetővé teszik a kombinált fehérjeszekvencia-adatsorok összeállítását az élet univerzális fájának rekonstruálásához (pl. ). Az viszont még mindig nyitott kérdés, hogy létezett-e a Földön létező összes létező élet univerzális közös őse (UCA) vagy sem. Bár a molekuláris filogenetikai módszerek automatikusan konstruálnak egy fát, ha szekvenciaadathalmazt adnak meg, a levezetett fa nem feltétlenül garantálja az UCA létezését, mivel annak létezését a molekuláris filogenetikában általában kezdettől fogva implicit módon feltételezik.
Az UCA elméletét a Theobald által megadott közvetett bizonyítékok meggyőző listája jellemzi. Azonban mindaddig nem történt kísérlet arra, hogy az UCA-hipotézist az élet három tartománya (vagy szuperkirálysága), azaz az eubaktériumok (Baktériumok), az archaebaktériumok (Archaea) és az eukarióták (Eukarya) között molekuláris szekvenciák segítségével teszteljék, amíg Theobald formális statisztikai teszttel meg nem támadta ezt a problémát. A Brown et al. által összeállított szekvencia-adatsorok felhasználásával és az AIC , a modellválasztási kritérium alkalmazásával kimutatta, hogy az UCA-hipotézis sokkal jobb, mint bármely független eredetű hipotézis, és arra a következtetésre jutott, hogy az UCA-elmélet érvényes. Míg az UCA-hipotézis azt tételezi fel, hogy az eubaktériumok, az archaebaktériumok és az eukarióták egyetlen közös őstől, az UCA-tól származnak, addig a független eredetű hipotézisek olyan forgatókönyveket tartalmaznak, mint például az eubaktériumok eredete eltér az archaebaktériumok/eukariótákétól, vagy a három tartomány egymástól eltérő eredettel rendelkezik. Kísérlete az első lépés afelé a cél felé, hogy az UCA-elméletet szilárd statisztikai alapokra helyezze. Módszere azonban tartalmaz néhány problémát az általunk tárgyalt UCA-elmélet megalapozásához , és ebben a közleményben részletesen ismertetjük érveinket.
A Theobald elemzésének legsúlyosabb problémája az, hogy a Brown et al. által összeállított összehangolt szekvenciákat használta, akik az archaebaktériumok, eubaktériumok és eukarióták közötti filogenetikai kapcsolatok megoldására törekedtek, beleértve azt is, hogy az egyes életterületek monofiletikus kládot alkotnak-e. Az egyes életterületek monofiletikus kládot alkotnak-e? Így ők a priori feltételezték az UCA létezését. Az összehangolás ugyanis egy olyan eljárás, amely azon a feltételezésen alapul, hogy a szekvenciák egy közös ősi szekvenciától távolodtak el. Brown és munkatársai azt írták: “Az egyes fehérjecsaládokat először számítógépen igazítottuk egymáshoz, majd kézzel finomítottuk az igazításokat. A rosszul konzervált régiókat eltávolítottuk az egyes fehérjék összehangolásából”. Ez az eljárás egyértelműen feltételezi az UCA létezését, és ez nem jelentett problémát Brown et al. számára, mert ami őket érdekelte, az a Földön élő összes faj filogenetikai kapcsolata volt, és az UCA létezését közvetett bizonyítékok támasztották alá . Az UCA létezésének bizonyításakor azonban nem szabad az illesztési eljárást használni, mert az erős torzítást ad az UCA-hipotézis mellett.
Egy korábbi közleményünkben , két látszólag nem rokon nukleinsav-kódoló szekvenciacsaládból (a mitokondriumok cytb és nd2 szekvenciái) adtunk egy példát, amelyek esetében az AIC a közös eredet hipotézisét választja. Mivel az összehangolás torzítást ad a közös származásra, nem végeztünk összehangolást a cytb és az nd2 között, de így is a cytb és az nd2 közös eredetét részesítettük előnyben a két gén független eredetével szemben. Valószínűleg senki sem fogja azt hinni, hogy ezt az eredményt a cytb és az nd2 végső soron közös ősiségének bizonyítékaként kellene tekinteni. Ez inkább kérdőjelet vet fel Theobald tesztjének hatékonyságát illetően.
Theobald kritizálta elemzésünket, rámutatva arra, hogy a GTR+Γ nukleotidsubsztitúciós modellünk túl naiv. A két gén azonos olvasási keretét használtuk, de Theobald szerint a genetikai kód korlátai várhatóan olyan korrelációkat indukálnak e szekvenciák között, amelyek nem a közös ősiségnek köszönhetőek. Ez egy jó érv, és ebben a munkában az aminosavhelyettesítési modellt is használni fogjuk ennek a korrelációnak az elszámolására. Csak a nukleotidsubsztitúció GTR+Γ modelljét használtuk, hogy a leglátványosabb esetet mutassuk be igazítás nélkül, de valójában a közös eredet modell előnyben részesítése a független eredet modellel szemben a feltételezett szubsztitúciós modelltől függ. Ezért a nukleotidok, valamint az aminosavak több alternatív szubsztitúciós modelljének alkalmazásával megvizsgáljuk, hogy az illesztési program alapértelmezett beállításai, amelyekkel a Theobald-féle adatsor készült, elutasítják-e a két látszólag nem rokon gén közös eredetének hipotézisét.
2. Anyagok és módszerek
Az elemzésekhez ugyanazt a szekvenciaadatsort bocsátottuk rendelkezésre, mint amit a cikkben használtunk. A tehénből (EU177848), szarvasból (AB210267) és vízilóból (NC_000889) származó cytb és nd2 mitokondriális gének 5′-terminális 1038 bp-nyi (a beindító kodon nélkül) szakaszát a PAML-ben implementált maximális valószínűség módszerrel elemeztük, feltételezve az 1. ábrán látható ((tehén, szarvas), víziló) összefüggéseket. Az 1. ábra bal oldalán látható független eredet hipotézist a jobb oldalon látható közös eredet hipotézissel hasonlítottuk össze az AIC kritériummal . Az ebben a munkában használt helyettesítési modellek a következők: JC , K80 , HKY , GTR , K80+Γ , HKY+Γ , és GTR+Γ a nukleotid helyettesítésekre, és Poisson, JTT , mtmam , Poisson+Γ , JTT+F+Γ , mtmam+F+Γ modellek az aminosav helyettesítésekre. Az összehangoláshoz a CLUSTAL W-t használtuk a gap open penalty (GOP) és a gap extension penalty (GEP) különböző értékeivel. A (GOP, GEP) alapértelmezett értékei (15, 6,66) a nukleotid szekvenciákra és (10, 0,1) az aminosav szekvenciákra, és az aminosav szekvenciákra vonatkozó alapértelmezett értékeket használtuk a , amelyben csak az aminosav szekvenciákat elemeztük.
A cytb és az nd2 független eredet hipotézise kontra közös eredet hipotézise. A független eredet hipotézisben nincs a két gént összekötő ág, míg a közös eredet hipotézisben a két gén közös őse létezik.
3. Eredmények és vita
Az elemzés nukleotid szintű eredményét az 1. táblázat tartalmazza. Igazítás nélkül a JC, K80+Γ, HKY+Γ és GTR+Γ modellek a közös eredet hipotézist preferálják, míg a K80, HKY és GTR modellek a független eredet hipotézist. Az AIC szempontjából a legjobb modell a GTR+Γ modell, és a közös eredetet részesíti előnyben. Ezután a CLUSTAL W-vel összehangolt szekvenciákat elemeztük különböző GOP és GEP értékekkel. A GOP és a GEP nagyobb értékei erősebb büntetést jelentenek a hézag beillesztéséért és a hézagbővítésért, és ennek megfelelően a nagyobb értékekkel kapott igazítás közelebb áll az igazítás nélküli adathalmazhoz, mint a kisebb értékekkel előállított. A GOP és a GEP nagy és kis értékek közötti változtatásával a közös eredet hipotézis a helyettesítési modelltől függetlenül hajlamos előnyben részesülni a független eredet hipotézissel szemben. Érdekes módon ez a helyzet (GOP, GEP) = (50, 6,66) esetén valósul meg az alapértelmezett (15, 6,66) értékek előtt.
(a) | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
|
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
(b) | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
|
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
AIC-ek az egyes modellek független és közös eredetű hipotézisek összehasonlítására. A két hipotézis összehasonlításakor az alacsonyabb AIC-vel rendelkező hipotézist a † jelezte. Az egyes adatsorokban a minimális AIC-vel rendelkező helyettesítési modellt aláhúzással jelöltük. A GOP és a GEP alapértelmezett értékeit félkövér betűtípussal jelöltük. *A cytb és nd2 illesztések közötti homológia, amelyet 1-(a cytb és nd2 közötti átlagos 𝑝-távolság) határoz meg. |
Az aminosavszintű hasonló elemzést a 2. táblázat tartalmazza. Ebben az esetben a közös eredet hipotézist csak az összehangolás nélküli Poisson és JTT modellek preferálják, míg a legjobb mtmam+F+Γ modell a független eredetet részesíti előnyben. Az alapértelmezett beállítással igazított szekvenciák is eltérő eredményeket adnak a feltételezett szubsztitúciós modelltől függően; míg az egyszerű modellek, mint a Poisson, a JTT és a Poisson+Γ a közös eredet hipotézist preferálják, addig az AIC szempontjából legjobb elérhető modell, az mtmam+F+Γ modell a független eredetet részesíti előnyben. Valószínűleg a közös ősi hipotézis erősebb preferenciája a nukleotidszintű elemzéssel, ahogy Theobald rámutatott, a genetikai kód korlátainak köszönhető, amelyek olyan korrelációkat indukálnak a szekvenciák között, amelyek nem a közös ősöknek köszönhetőek. Különösen az emlősök mitokondriális fehérjéket kódoló génjeiben az elemzésünkben használt nehézszálon a második kodonok pozíciói a T felé hajlanak, míg a harmadik kodonok pozíciói az A felé és a G-vel szemben hajlanak . Ezért a nukleotid-elemzés által a közös eredet hipotézis erős preferálása valószínűleg a genetikai kód korlátainak köszönhető. Érdemes azonban megemlíteni, hogy bár az aminosav-elemzés legjobb elérhető szubsztitúciós modellje igazítás nélkül és alapértelmezett beállítású igazítással a független eredet hipotézist részesíti előnyben, a közös eredet hipotézist egyes szubsztitúciós modellek előnyben részesítik. Ez komoly problémát vet fel a formális teszt hatékonyságát illetően. Theobald hasonló aminosav-szekvenciákból álló adathalmazt használt, mint Brown és munkatársai , akik a CLUSTALW-ot használták alapértelmezett beállításokkal az egyes fehérjeadathalmazok összehangolásához. Valójában Theobald a CLUSTALW helyett egy másik, ProbCons nevű programot használt a szekvenciák összehangolásához, de a különbség nem lehet kritikusan fontos az érveink szempontjából.
|
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
AIC-ek az egyes modellek független és közös eredetű hipotézisek összehasonlítására. A két hipotézis összehasonlításakor az alacsonyabb AIC-vel rendelkező hipotézist a † jelezte. Az egyes adatsorokban a minimális AIC-vel rendelkező helyettesítési modellt aláhúzással jelöltük. A GOP és a GEP alapértelmezett értékeit félkövér betűtípussal jelöltük. *A cytb és nd2 illesztések közötti homológia, amelyet 1-(a cytb és nd2 közötti átlagos 𝑝-távolság) határoz meg. |
Mivel a mitokondriális DNS nehéz szálán kódolt cytb és nd2 aminosavösszetétele hasonló , ez olyan korrelációkat indukálhat e szekvenciák között, amelyek nem a közös származásból erednek. Ez rávilágít Theobald elemzésének egy másik hibájára, vagyis arra, hogy nem vette figyelembe az általunk tárgyalt konvergens evolúció lehetőségét. Míg a tárgyalt példák a hasonló funkció követelménye és a hasonló környezethez való alkalmazkodás miatti konvergenciára vonatkoztak, létezik egy másik típusú konvergencia, azaz a hasonló aminosav-összetételhez való konvergencia, amely számos különböző módon érhető el. A cytb és az nd2 közötti hasonló aminosav-összetétel lehet, hogy nem jóhiszemű konvergencia, hanem csak a két gén egy genomban való koegzisztenciájából adódó kényszereket képvisel, de ténylegesen a konvergens evolúció hasonló helyzetét jelenti.
Ami az összehangolás által okozott torzítást illeti, elméletileg megoldható az összehangolási eljárásnak a maximális valószínűségű fa becslésének keretébe történő bevonásával . A legtöbb jelenlegi illesztési program külön kezeli az illesztést és a filogenetikát, holott valójában ezek kölcsönösen függenek egymástól. Ha kifejlesztünk egy gyakorlati módszert az összehangolás és a filogenezis egyidejű becslésére a maximum likelihood keretében, akkor az UCA és a független eredet hipotézisek közötti AIC összehasonlítást az inszerciós/deléciós folyamat log-likelihoodjának figyelembevételével, az UCA hipotézis torzítása nélkül tudjuk elvégezni. Másrészt azonban úgy tűnik, hogy nem könnyű figyelembe venni a konvergens evolúció lehetőségét, mivel minden jelenleg használt maximum likelihood módszer egy diverzifikáló evolúciót reprezentáló sztochasztikus folyamatot feltételez, és ebben a keretben nehéz figyelembe venni a konvergens evolúciót. Teljesen új paradigmára lehet szükség ahhoz, hogy végre megoldódjon a Theobald által feszegetett probléma. Az UCA létezésének statisztikai tesztekkel való bizonyításával kapcsolatos problémák ellenére igaz, hogy létezésére erős közvetett bizonyítékok vannak .
Charles Darwin A fajok eredetéről című könyvében a következőket írta: “Az analógiából arra kellene következtetnem, hogy valószínűleg minden szerves lény, amely valaha is élt ezen a földön, valakinek az ősformájából származik, amelybe először lehelt életet”. Úgy tűnik, Darwin elvetette a földi élet többszörös eredetét. Azonban, ahogy Theobald helyesen megjegyezte, az UCA elmélete lehetővé teszi az élet többszörös független eredetének lehetőségét . Az UCA-hipotézis egyszerűen azt állítja, hogy a Földön létező összes élet egyetlen közös ősfajból származik. Az élet története során rengeteg kihalásnak kellett bekövetkeznie, és nem lehet tudni, hogy az élet korai fejlődése során milyen életfajták haltak ki. Mégis valószínűnek tűnik, hogy az élet kialakulása során a különböző formák hatalmas mennyiségű próbálkozása és tévedése történt, és az UCA, ha létezett, csak egy volt ezek közül. Továbbá, ahogyan Raup és Valentine érvel , az élet túlélésének valószínűsége alacsony, hacsak nincs többféle eredet. Még ha az UCA hipotézis igaz is, az adott életforma túlélése nem jelenti azt, hogy az egyedi vagy felsőbbrendű volt.
Köszönet
Ezt a kutatást részben a JSPS által M. Hasegawának nyújtott C22570099 számú Grants-in-Aid for Scientific Research támogatás támogatta.