Abstract
Apesar de evidências circunstanciais esmagadoras suportarem a existência do ancestral comum universal de toda a vida existente na Terra, ainda é uma questão em aberto se o ancestral comum universal existiu ou não. Theobald (Nature 465, 219-222 (2010)) recentemente desafiou este problema com um teste estatístico formal aplicado a seqüências alinhadas de proteínas conservadoras amostradas de todos os domínios da vida e concluiu que a hipótese do ancestral comum universal se mantém. No entanto, apontamos que existe uma falha fundamental no método de Theobald que utilizava seqüências alinhadas. Mostramos que o alinhamento dá um forte viés para a hipótese ancestral comum, e fornecemos um exemplo de que o método de Theobald suporta uma hipótese ancestral comum para duas famílias aparentemente não relacionadas de sequências codificadoras de proteínas (cytb e nd2 de mitocôndria). Isto levanta suspeitas sobre a eficácia do teste “formal”.
1. Introdução
Dados gerados por projetos de seqüenciamento genômico de uma grande variedade de espécies permitem agora a montagem de conjuntos de dados de seqüência proteica combinada para reconstruir a árvore universal da vida (por exemplo, ). Por outro lado, ainda é uma questão em aberto se o ancestral comum universal (UCA) de toda a vida existente na Terra existia ou não. Embora os métodos filogenéticos moleculares construam automaticamente uma árvore quando um conjunto de dados sequenciais é fornecido, a árvore inferida não garante necessariamente a existência de UCA, porque a sua existência é assumida implicitamente desde o início geralmente em filogenética molecular.
A teoria de UCA tem gozado de uma lista convincente de evidências circunstanciais como dado por Theobald . Entretanto, não houve nenhuma tentativa de testar a hipótese UCA entre três domínios (ou super-reinos) da vida, ou seja, eubactérias (Bacteria), arquebactérias (Archaea) e eucariotas (Eukarya), usando seqüências moleculares até que Theobald desafiou este problema com um teste estatístico formal. Ao utilizar os conjuntos de dados sequenciais compilados por Brown et al. e ao utilizar o critério de seleção do modelo AIC , ele mostrou que a hipótese UCA é muito superior a qualquer hipótese de origem independente, e concluiu que a teoria UCA é válida. Enquanto a hipótese UCA postula que eubactérias, arquebactérias e eucariotas descendem de um único ancestral comum chamado UCA, as hipóteses de origem independente incluem cenários como eubactérias com origem diferente das arquebactérias/eukariotas ou os três domínios têm origens diferentes um do outro. A sua tentativa é o primeiro passo para o objectivo de estabelecer a teoria UCA com um sólido fundamento estatístico. Entretanto, sua metodologia contém alguns problemas para estabelecer a teoria UCA como discutido por nós, e, nesta comunicação, daremos mais detalhes de nossos argumentos.
O problema mais sério da análise de Theobald é que ele utilizou seqüências alinhadas compiladas por Brown et al. , que estavam interessados em resolver as relações filogenéticas entre arquebactérias, eubactérias e eucariotas, incluindo se cada domínio da vida constitui um clade monofilético. Assim, eles um priorado assumiu a existência de UCA. Na verdade, o alinhamento é um procedimento baseado na suposição de que as sequências divergiram de uma sequência ancestral comum. Brown et al. escreveram “famílias de proteínas individuais foram primeiro alinhadas por computador e depois nós refinamos manualmente os alinhamentos. Nós removemos regiões mal conservadas em alinhamentos individuais de proteínas”. Este procedimento assume claramente a existência de UCA, e isto não foi um problema para Brown et al., porque o que lhes interessava era a relação filogenética entre todas as espécies na Terra, e a existência de UCA era suportada por evidências circunstanciais . Entretanto, ao provar a existência de UCA, o procedimento de alinhamento não deve ser usado, pois dá um forte viés para a hipótese UCA.
Em uma comunicação anterior, fornecemos um exemplo de duas famílias aparentemente não relacionadas de seqüências codificadoras de ácidos nucléicos (cytb e nd2 de mitocôndria) para as quais a AIC escolhe uma hipótese de origem comum. Como o alinhamento dá um viés para ancestralidade comum, não fizemos um alinhamento entre cytb e nd2, mas ainda assim a origem comum do cytb e nd2 foi preferida às origens independentes desses dois genes. Provavelmente ninguém vai acreditar que este resultado deve ser considerado como evidência da ancestralidade comum última da citb e nd2. Ao contrário, isto levanta um ponto de interrogação quanto à eficácia do teste de Theobald.
Theobald criticou a nossa análise ao apontar que o nosso modelo de substituição de nucleótidos GTR+Γ é demasiado ingénuo. Usamos o mesmo quadro de leitura dos dois genes, mas, segundo Theobald, espera-se que as restrições do código genético induzam correlações entre essas seqüências que não são devidas à ancestralidade comum. Este é um bom ponto, e neste trabalho utilizaremos também o modelo de substituição de aminoácidos para dar conta desta correlação. Utilizamos apenas o modelo GTR+Γ de substituição de nucleotídeos para mostrar o caso mais impressionante sem alinhamento, mas na verdade a preferência do modelo de origem comum sobre o modelo de origem independente depende do modelo de substituição assumido. Portanto, usando vários modelos alternativos de substituição de nucleotídeos, bem como aminoácidos, estudaremos se as configurações padrão do programa de alinhamento, com o qual o conjunto de dados do Theobald foi feito, rejeitam a hipótese de origem comum dos dois genes aparentemente não relacionados.
2. Materiais e Métodos
O mesmo conjunto de dados de seqüência usado foi fornecido para as análises. O 5′-terminal 1.038 bp (excluindo o códon inicial) dos genes mitocondriais de cito e nd2 de vaca (EU177848), veado (AB210267) e hipopótamo (NC_000889) foi analisado pelo método de máxima verosimilhança implementado no PAML assumindo as relações de ((vaca, veado), hipopótamo) como mostrado na Figura 1. A hipótese de origem independente mostrada no lado esquerdo da Figura 1 é comparada com a hipótese de origem comum mostrada no lado direito com o critério da AIC . Os modelos de substituição utilizados neste trabalho são os seguintes: JC , K80 , HKY , GTR , K80+Γ , HKY+Γ , e GTR+Γ para substituições de nucleotídeos, e Poisson, JTT , mtmam , Poisson+Γ , JTT+F+Γ , mtmam+F+Γ modelos para substituições de aminoácidos. CLUSTAL W foi utilizado para o alinhamento com vários valores de penalidade por gap open penalty (GOP) e penalidade por extensão de gap extension (GEP). Os valores padrão de (GOP, GEP) são (15, 6,66) para seqüências de nucleotídeos e (10, 0,1) para seqüências de aminoácidos, e os valores padrão para seqüências de aminoácidos foram utilizados na preparação dos conjuntos de dados utilizados no , no qual apenas seqüências de aminoácidos foram analisadas.
Hipótese de origem independente versus hipóteses de origem comum de cytb e nd2. Não existe nenhum ramo conectando os dois genes na hipótese de origem independente, enquanto o ancestral comum dos dois genes existe na hipótese de origem comum.
3. Resultados e Discussão
O resultado da análise no nível de nucleotídeos é dado na Tabela 1. Sem alinhamento, os modelos JC, K80+Γ, HKY+Γ e GTR+Γ preferem a hipótese de origem comum, enquanto os modelos K80, HKY e GTR preferem a hipótese de origem independente. O melhor modelo em relação à AIC é o modelo GTR+Γ, que prefere a origem comum. Em seguida, seqüências alinhadas com CLUSTAL W com vários valores de GOP e GEP foram analisadas. Valores maiores de GOP e GEP significam penalidades mais fortes para a inserção de um gap e extensão de gap, e consequentemente o alinhamento resultante com valores maiores está mais próximo do conjunto de dados sem alinhamento do que aquele produzido com valores menores. Ao alterar o GOP e o GEP de valores grandes para pequenos, a hipótese de origem comum tende a ser preferida em relação à hipótese de origem independente, independentemente do modelo de substituição. Curiosamente, tal situação é realizada com (GOP, GEP) = (50, 6,66) antes dos valores padrão de (15, 6,66).
(a) | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
|
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
(b) | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
|
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
AIC de cada modelo comparando as hipóteses de origem independente e comum foram mostradas. Na comparação entre as duas hipóteses, a hipótese com AIC inferior foi indicada por †. O modelo de substituição com o AIC mínimo em cada conjunto de dados foi indicado por um sublinhado. Os valores padrão de GOP e GEP foram indicados em negrito. *Homologia entre cytb e nd2 alinhamentos, que é definida por 1-(média 𝑝-distância entre cytb e nd2). |
Uma análise semelhante no nível de aminoácidos é dada na Tabela 2. Neste caso, a hipótese de origem comum é preferida apenas pelos modelos Poisson e JTT sem alinhamento, enquanto o melhor modelo da mtmam+F+Γ prefere as origens independentes. As seqüências alinhadas com a configuração padrão também dão resultados diferentes dependendo do modelo de substituição assumido; enquanto modelos simples como Poisson, JTT e Poisson+Γ preferem a hipótese de origem comum, o melhor modelo disponível com relação à AIC, o modelo mtmam+F+Γ, prefere as origens independentes. Provavelmente, a preferência mais forte da hipótese ancestral comum com a análise de nível de nucleotídeos é, como Theobald apontou, devido às restrições do código genético que induzem correlações entre as seqüências que não são devidas à ancestralidade comum. Particularmente nos genes codificadores de proteínas mitocondriais de mamíferos no cordão pesado utilizado em nossa análise, as posições do segundo códão são tendenciosas para T, enquanto as posições do terceiro códão são tendenciosas para A e tendenciosas contra G . Portanto, a forte preferência da hipótese de origem comum pela análise dos nucleotídeos deve-se provavelmente às restrições do código genético. Entretanto, vale a pena mencionar que, embora o melhor modelo de substituição disponível de análise de aminoácidos sem alinhamento e com alinhamento da configuração padrão prefira a hipótese de origem independente, a hipótese de origem comum é preferida por alguns modelos de substituição. Isto levanta um sério problema quanto à eficácia do teste formal. Theobald utilizou um conjunto de dados de sequências de aminoácidos semelhante ao de Brown et al. , que utilizaram o CLUSTALW com configurações padrão para alinhar conjuntos de dados de proteínas individuais. Na verdade, Theobald usou outro programa chamado ProbCons ao invés do CLUSTALW para alinhar as seqüências, mas a diferença não deve ser criticamente importante para nossos argumentos.
|
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
AIC de cada modelo comparando as hipóteses de origem independente e comum foram mostradas. Na comparação entre as duas hipóteses, a hipótese com AIC inferior foi indicada por †. O modelo de substituição com o AIC mínimo em cada conjunto de dados foi indicado por um sublinhado. Os valores padrão de GOP e GEP foram indicados em negrito. *Homologia entre cytb e nd2 alinhamentos, que é definida por 1-(média 𝑝-distância entre cytb e nd2). |
Como o cytb e o nd2 codificados no fio pesado do DNA mitocondrial têm composições semelhantes de aminoácidos , isto pode induzir correlações entre estas sequências que não são devidas à ancestralidade comum. Isto ilumina outra falha na análise de Theobald, ou seja, ele não levou em conta a possibilidade de evolução convergente como discutido por nós. Enquanto os exemplos discutidos foram em convergência devido à exigência de função similar e à adaptação a ambiente similar, existe outro tipo de convergência, ou seja, convergência para composição similar de aminoácidos, que pode ser alcançada de muitas maneiras diferentes. Uma composição semelhante de aminoácidos entre cytb e nd2 pode não ser convergência de boa fé, mas pode representar apenas restrições devido à coexistência dos dois genes no mesmo genoma, mas representa efectivamente uma situação semelhante de evolução convergente.
Quanto ao viés causado pelo alinhamento, teoricamente pode ser resolvido incluindo o procedimento de alinhamento no quadro da estimação da árvore de máxima verosimilhança . A maioria dos programas de alinhamento atuais tratam o alinhamento e a filogenia separadamente, quando na verdade eles são interdependentes. Quando um método prático para estimar tanto o alinhamento quanto a filogenia simultaneamente no quadro de máxima verosimilhança é desenvolvido, seríamos capazes de comparar a AIC entre a UCA e as hipóteses de origem independente, levando em conta a probabilidade logarítmica para o processo de inserção/deleção, sem qualquer viés para a hipótese UCA. Por outro lado, entretanto, parece não ser fácil levar em conta a possibilidade de evolução convergente, já que qualquer método de máxima verosimilhança atualmente utilizado assume um processo estocástico representando uma evolução diversificada, e é difícil levar em conta a evolução convergente neste quadro. Um paradigma completamente novo pode ser necessário para finalmente resolver o problema que Theobald desafiou. Apesar destes problemas em provar a existência da UCA através de testes estatísticos, é verdade que há fortes evidências circunstanciais para a sua existência .
Charles Darwin escreveu em Sobre a Origem das Espécies como se segue: “Eu deveria inferir por analogia que provavelmente todos os seres orgânicos que já viveram nesta terra desceram de alguém de forma primordial, para o qual a vida respirou pela primeira vez”. Darwin parece ter descartado múltiplas origens da vida na Terra. No entanto, como Theobald corretamente observou, a teoria de UCA permite a possibilidade de múltiplas origens independentes da vida . A hipótese UCA afirma simplesmente que toda a vida existente na Terra descende de uma única espécie ancestral comum. Deve ter havido uma enorme quantidade de extinções ao longo da história da vida, e não há como saber que tipos de vida se extinguiram durante a evolução inicial da vida. Ainda assim, parece provável que uma enorme quantidade de tentativas e erros de diferentes formas tenha ocorrido durante o surgimento da vida e que a UCA, se existisse, fosse apenas uma delas. Além disso, como argumentado por Raup e Valentine , a probabilidade de sobrevivência da vida é baixa, a menos que haja múltiplas origens. Mesmo que a hipótese UCA se mantenha, a sobrevivência da forma particular de vida não implica que ela tenha sido única ou superior.
Conhecimento
Esta pesquisa foi parcialmente apoiada por Grants-in-Aid for Scientific Research C22570099 a M. Hasegawa do JSPS.