Abstract
Anche se prove circostanziali schiaccianti supportano l’esistenza dell’antenato comune universale di tutta la vita esistente sulla Terra, è ancora una questione aperta se l’antenato comune universale sia esistito o meno. Theobald (Nature 465, 219-222 (2010)) ha recentemente sfidato questo problema con un test statistico formale applicato alle sequenze allineate di proteine conservative campionate da tutti i domini della vita e ha concluso che l’ipotesi dell’antenato comune universale regge. Tuttavia, sottolineiamo che c’è un difetto fondamentale nel metodo di Theobald che ha utilizzato sequenze allineate. Mostriamo che l’allineamento dà un forte pregiudizio per l’ipotesi dell’antenato comune, e forniamo un esempio che il metodo di Theobald supporta un’ipotesi di antenato comune per due famiglie apparentemente non correlate di sequenze codificanti proteine (cytb e nd2 dei mitocondri). Questo suscita sospetti sull’efficacia del test “formale”.
1. Introduzione
I dati generati da progetti di sequenziamento genomico di un’ampia varietà di specie permettono ora di assemblare insiemi di dati di sequenze proteiche combinate per ricostruire l’albero universale della vita (es.) D’altra parte, è ancora una questione aperta se l’antenato comune universale (UCA) di tutta la vita esistente sulla Terra sia esistito o meno. Anche se i metodi filogenetici molecolari costruiscono automaticamente un albero quando viene fornito un set di dati di sequenza, l’albero dedotto non garantisce necessariamente l’esistenza dell’UCA, perché la sua esistenza è assunta implicitamente dall’inizio di solito nella filogenetica molecolare.
La teoria dell’UCA ha goduto di un elenco convincente di prove circostanziali come dato da Theobald . Tuttavia, non c’era stato alcun tentativo di testare l’ipotesi dell’UCA tra i tre domini (o superkingdoms) della vita, cioè eubatteri (Bacteria), archebatteri (Archaea), ed eucarioti (Eukarya), utilizzando sequenze molecolari fino a quando Theobald ha sfidato questo problema con un test statistico formale. Utilizzando i set di dati di sequenza compilati da Brown et al. e utilizzando il criterio di selezione del modello AIC, ha dimostrato che l’ipotesi UCA è molto superiore a qualsiasi ipotesi di origine indipendente, e ha concluso che la teoria UCA è valida. Mentre l’ipotesi UCA postula che eubatteri, archebatteri ed eucarioti discendano da un unico antenato comune chiamato UCA, le ipotesi di origine indipendente includono scenari come eubatteri che hanno un’origine diversa da quella di archebatteri/eucarioti o i tre domini hanno origini diverse tra loro. Il suo tentativo è il primo passo verso l’obiettivo di stabilire la teoria UCA con un solido fondamento statistico. Tuttavia, la sua metodologia contiene alcuni problemi per stabilire la teoria UCA, come discusso da noi, e, in questa comunicazione, daremo ulteriori dettagli dei nostri argomenti.
Il problema più grave dell’analisi di Theobald è che ha utilizzato sequenze allineate compilate da Brown et al. , che erano interessati a risolvere le relazioni filogenetiche tra archebatteri, eubatteri ed eucarioti, compreso se ogni dominio della vita costituisce un clade monofiletico. Così hanno assunto a priori l’esistenza dell’UCA. In effetti, l’allineamento è una procedura basata sul presupposto che le sequenze si sono discostate da una sequenza ancestrale comune. Brown et al. hanno scritto: “Le singole famiglie di proteine sono state prima allineate al computer e poi abbiamo raffinato manualmente gli allineamenti. Abbiamo rimosso le regioni scarsamente conservate negli allineamenti delle singole proteine”. Questa procedura presuppone chiaramente l’esistenza dell’UCA, e questo non era un problema per Brown et al., perché ciò a cui erano interessati era la relazione filogenetica tra tutte le specie della Terra, e l’esistenza dell’UCA era supportata da prove indiziarie. Tuttavia, nel dimostrare l’esistenza di UCA, la procedura di allineamento non dovrebbe essere utilizzata, perché dà un forte bias per l’ipotesi UCA.
In una comunicazione precedente, abbiamo fornito un esempio da due famiglie apparentemente non correlate di sequenze codificanti di acidi nucleici (cytb e nd2 dei mitocondri) per le quali AIC sceglie un’ipotesi di origine comune. Poiché l’allineamento dà un bias per l’ascendenza comune, non abbiamo fatto un allineamento tra cytb e nd2, ma ancora l’origine comune di cytb e nd2 è stata preferita alle origini indipendenti di questi due geni. Probabilmente nessuno crederà che questo risultato debba essere considerato come una prova dell’origine comune definitiva di cytb e nd2. Piuttosto questo solleva un punto interrogativo sull’efficacia del test di Theobald.
Theobald ha criticato la nostra analisi facendo notare che il nostro modello di sostituzione nucleotidica di GTR+Γ è troppo ingenuo. Abbiamo usato lo stesso frame di lettura dei due geni, ma, secondo Theobald, i vincoli del codice genetico dovrebbero indurre correlazioni tra queste sequenze che non sono dovute all’ascendenza comune. Questo è un buon punto, e in questo lavoro useremo anche il modello di sostituzione degli amminoacidi per rendere conto di questa correlazione. Abbiamo usato solo il modello GTR+Γ di sostituzione nucleotidica per mostrare il caso più impressionante senza allineamento, ma in realtà la preferenza del modello di origine comune rispetto al modello di origine indipendente dipende dal modello di sostituzione assunto. Pertanto, utilizzando diversi modelli alternativi di sostituzione dei nucleotidi e degli amminoacidi, studieremo se le impostazioni predefinite del programma di allineamento, con cui è stato fatto il set di dati di Theobald, rifiutano l’ipotesi di origine comune dei due geni apparentemente non correlati.
2. Materiali e metodi
Per le analisi è stato fornito lo stesso set di dati di sequenza utilizzato in. Il 5′-terminale 1.038 bp (escluso il codone di inizio) dei geni mitocondriali di cytb e nd2 da mucca (EU177848), cervo (AB210267) e ippopotamo (NC_000889) è stato analizzato con il metodo della massima verosimiglianza implementato in PAML assumendo le relazioni di ((mucca, cervo), ippopotamo) come mostrato in Figura 1. L’ipotesi di origine indipendente mostrata nella parte sinistra della Figura 1 è confrontata con l’ipotesi di origine comune mostrata nella destra con il criterio di AIC . I modelli di sostituzione utilizzati in questo lavoro sono i seguenti: JC , K80 , HKY , GTR , K80+Γ , HKY+Γ , e GTR+Γ per le sostituzioni nucleotidiche, e i modelli Poisson, JTT , mtmam , Poisson+Γ , JTT+F+Γ , mtmam+F+Γ per le sostituzioni di aminoacidi. CLUSTAL W è stato usato per l’allineamento con vari valori di gap open penalty (GOP) e gap extension penalty (GEP). I valori predefiniti di (GOP, GEP) sono (15, 6.66) per le sequenze nucleotidiche e (10, 0.1) per le sequenze di aminoacidi, e i valori predefiniti per le sequenze di aminoacidi sono stati utilizzati nella preparazione dei set di dati usati in , in cui sono state analizzate solo le sequenze di aminoacidi.
Ipotesi di origini indipendenti contro ipotesi di origine comune di cytb e nd2. Non esiste alcun ramo che colleghi i due geni nell’ipotesi di origini indipendenti, mentre l’antenato comune dei due geni esiste nell’ipotesi di origine comune.
3. Risultati e Discussione
Il risultato dell’analisi a livello nucleotidico è riportato nella Tabella 1. Senza allineamento, i modelli JC, K80+Γ, HKY+Γ e GTR+Γ preferiscono l’ipotesi di origine comune, mentre i modelli K80, HKY e GTR preferiscono l’ipotesi di origine indipendente. Il miglior modello rispetto all’AIC è il modello GTR+Γ, e preferisce l’origine comune. Poi, le sequenze allineate con CLUSTAL W con vari valori di GOP e GEP sono state analizzate. Valori maggiori di GOP e GEP significano una penalità più forte per l’inserimento di un gap e l’estensione del gap, e di conseguenza l’allineamento risultante con valori maggiori è più vicino al set di dati senza allineamento di quello prodotto con valori minori. Cambiando il GOP e il GEP da valori grandi a valori piccoli, l’ipotesi di origine comune tende ad essere preferita all’ipotesi di origine indipendente, indipendentemente dal modello di sostituzione. È interessante notare che una tale situazione si realizza con (GOP, GEP) = (50, 6,66) prima dei valori predefiniti di (15, 6,66).
(a) | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
|
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
(b) | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
|
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
AIC di ogni modello che confronta le ipotesi di origine indipendente e comune. Nel confronto tra le due ipotesi, l’ipotesi con AIC più basso è stata indicata con †. Il modello di sostituzione con il minimo AIC in ogni set di dati è stato indicato con una sottolineatura. I valori predefiniti di GOP e GEP sono stati indicati in grassetto. *Omologia tra gli allineamenti cytb e nd2, che è definita da 1-(distanza media 𝑝 tra cytb e nd2). |
Un’analisi simile a livello di aminoacidi è riportata nella Tabella 2. In questo caso, l’ipotesi dell’origine comune è preferita solo dai modelli Poisson e JTT senza allineamento, mentre il miglior modello di mtmam+F+Γ preferisce le origini indipendenti. Le sequenze allineate con l’impostazione predefinita danno anche risultati diversi a seconda del modello di sostituzione assunto; mentre i modelli semplici come Poisson, JTT e Poisson+Γ preferiscono l’ipotesi di origine comune, il miglior modello disponibile rispetto all’AIC, il modello mtmam+F+Γ, preferisce le origini indipendenti. Probabilmente, la più forte preferenza dell’ipotesi dell’antenato comune con l’analisi a livello nucleotidico è, come ha sottolineato Theobald, dovuta ai vincoli del codice genetico che inducono correlazioni tra le sequenze che non sono dovute all’antenato comune. In particolare nei geni codificanti le proteine mitocondriali dei mammiferi sul filamento pesante utilizzato nella nostra analisi, le posizioni del secondo codone sono polarizzate verso T, mentre le posizioni del terzo codone sono polarizzate verso A e polarizzate contro G . Pertanto, la forte preferenza dell’ipotesi di origine comune dall’analisi nucleotidica è probabilmente dovuta ai vincoli del codice genetico. Tuttavia, vale la pena menzionare che, anche se il miglior modello di sostituzione disponibile dell’analisi degli amminoacidi senza allineamento e con allineamento dell’impostazione predefinita preferisce l’ipotesi di origine indipendente, l’ipotesi di origine comune è preferita da alcuni modelli di sostituzione. Questo solleva un serio problema sull’efficacia del test formale. Theobald ha usato un set di dati di sequenze di amminoacidi simile a quello di Brown et al. , che hanno usato CLUSTALW con impostazioni predefinite per allineare i set di dati delle singole proteine. In realtà, Theobald ha usato un altro programma chiamato ProbCons invece di CLUSTALW per allineare le sequenze, ma la differenza non dovrebbe essere criticamente importante per i nostri argomenti.
|
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
AIC di ogni modello che confronta le ipotesi di origine indipendente e comune. Nel confronto tra le due ipotesi, l’ipotesi con AIC più basso è stata indicata con †. Il modello di sostituzione con il minimo AIC in ogni set di dati è stato indicato con una sottolineatura. I valori predefiniti di GOP e GEP sono stati indicati in grassetto. *Omologia tra gli allineamenti cytb e nd2, che è definita da 1-(distanza media 𝑝 tra cytb e nd2). |
Poiché cytb e nd2 codificati sul filamento pesante del DNA mitocondriale hanno composizioni aminoacidiche simili, questo può indurre correlazioni tra queste sequenze che non sono dovute all’ascendenza comune. Questo illumina un altro difetto nell’analisi di Theobald; cioè, non ha tenuto conto della possibilità di evoluzione convergente come discusso da noi. Mentre gli esempi discussi erano nella convergenza dovuta al requisito della funzione simile e all’adattamento all’ambiente simile, c’è un altro tipo di convergenza, cioè la convergenza alla composizione aminoacidica simile, che può essere ottenuta in molti modi diversi. Una composizione amminoacidica simile tra cytb e nd2 potrebbe non essere una convergenza in buona fede, ma potrebbe rappresentare solo vincoli dovuti alla coesistenza dei due geni nello stesso genoma, ma rappresenta effettivamente una situazione simile di evoluzione convergente.
Per quanto riguarda il bias causato dall’allineamento, teoricamente può essere risolto includendo la procedura di allineamento nel quadro della stima dell’albero di massima verosimiglianza. La maggior parte degli attuali programmi di allineamento trattano l’allineamento e la filogenesi separatamente, mentre in realtà sono interdipendenti. Quando si svilupperà un metodo pratico per stimare simultaneamente l’allineamento e la filogenesi nel quadro della massima verosimiglianza, saremo in grado di confrontare l’AIC tra l’ipotesi UCA e l’ipotesi di origine indipendente tenendo conto della log-likelihood per il processo di inserimento/cancellazione senza alcun bias per l’ipotesi UCA. D’altra parte, però, non sembra facile tenere conto della possibilità di evoluzione convergente, poiché qualsiasi metodo di massima verosimiglianza attualmente utilizzato presuppone un processo stocastico che rappresenta l’evoluzione diversificante, ed è difficile tenere conto dell’evoluzione convergente in questo quadro. Un paradigma completamente nuovo potrebbe essere necessario per risolvere finalmente il problema che Theobald ha sfidato. Nonostante questi problemi nel provare l’esistenza dell’UCA tramite test statistici, è vero che ci sono forti prove circostanziali per la sua esistenza.
Charles Darwin scrisse in On the Origin of Species come segue: “Dovrei dedurre per analogia che probabilmente tutti gli esseri organici che hanno vissuto su questa terra sono discesi da una forma primordiale, in cui la vita ha respirato per la prima volta”. Darwin sembra aver scartato le origini multiple della vita sulla Terra. Tuttavia, come Theobald ha correttamente notato, la teoria dell’UCA permette la possibilità di molteplici origini indipendenti della vita. L’ipotesi UCA afferma semplicemente che tutta la vita esistente sulla Terra è discendente da una singola specie ancestrale comune. Ci deve essere stata un’enorme quantità di estinzioni nel corso della storia della vita, e non c’è modo di sapere quali tipi di vita si sono estinti durante la prima evoluzione della vita. Tuttavia, sembra probabile che un’enorme quantità di prove ed errori di forme diverse sia avvenuta durante l’emergere della vita e che l’UCA, se è esistita, sia stata solo una di queste. Inoltre, come sostenuto da Raup e Valentine, la probabilità di sopravvivenza della vita è bassa a meno che non ci siano origini multiple. Anche se l’ipotesi UCA regge, la sopravvivenza di una particolare forma di vita non implica che fosse unica o superiore.
Riconoscimento
Questa ricerca è stata parzialmente sostenuta da Grants-in-Aid for Scientific Research C22570099 a M. Hasegawa da JSPS.