Resumen
Aunque las abrumadoras pruebas circunstanciales apoyan la existencia del ancestro común universal de toda la vida existente en la Tierra, sigue siendo una cuestión abierta si el ancestro común universal existió o no. Theobald (Nature 465, 219-222 (2010)) desafió recientemente este problema con una prueba estadística formal aplicada a secuencias alineadas de proteínas conservadoras muestreadas de todos los dominios de la vida y concluyó que la hipótesis del ancestro común universal se mantiene. Sin embargo, señalamos que hay un fallo fundamental en el método de Theobald, que utilizó secuencias alineadas. Demostramos que el alineamiento da un fuerte sesgo a favor de la hipótesis del ancestro común, y proporcionamos un ejemplo en el que el método de Theobald apoya la hipótesis del ancestro común para dos familias de secuencias codificadoras de proteínas aparentemente no relacionadas (cytb y nd2 de las mitocondrias). Esto despierta la sospecha sobre la eficacia de la prueba «formal».
1. Introducción
Los datos generados por los proyectos de secuenciación genómica de una gran variedad de especies permiten ahora ensamblar conjuntos de datos de secuencias de proteínas combinadas para reconstruir el árbol universal de la vida (por ejemplo, ). Por otro lado, sigue siendo una cuestión abierta si el ancestro común universal (ACU) de toda la vida existente en la Tierra existió o no. Aunque los métodos filogenéticos moleculares construyen automáticamente un árbol cuando se proporciona un conjunto de datos de secuencias, el árbol inferido no garantiza necesariamente la existencia del UCA, porque su existencia se asume implícitamente desde el principio normalmente en la filogenética molecular.
La teoría del UCA ha gozado de una convincente lista de pruebas circunstanciales como la que ofrece Theobald . Sin embargo, no se había intentado poner a prueba la hipótesis de la UCA entre los tres dominios (o superreinos) de la vida, es decir, eubacterias (Bacteria), arqueobacterias (Archaea) y eucariotas (Eukarya), mediante el uso de secuencias moleculares hasta que Theobald desafió este problema con una prueba estadística formal. Utilizando los conjuntos de datos de secuencias recopilados por Brown et al. y empleando el criterio de selección de modelos AIC , demostró que la hipótesis UCA es muy superior a cualquier hipótesis de origen independiente, y concluyó que la teoría UCA es válida. Mientras que la hipótesis de la UCA postula que las eubacterias, las arquebacterias y los eucariotas descienden de un único ancestro común llamado UCA, las hipótesis de origen independiente incluyen escenarios como que las eubacterias tienen un origen diferente al de las arquebacterias/eucariotas o que los tres dominios tienen orígenes diferentes entre sí. Su intento es el primer paso hacia el objetivo de establecer la teoría UCA con una base estadística sólida. Sin embargo, su metodología contiene algunos problemas para establecer la teoría de la UCA, tal y como discutimos nosotros, y, en esta comunicación, daremos más detalles de nuestros argumentos.
El problema más grave del análisis de Theobald es que utilizó secuencias alineadas recopiladas por Brown et al. , que estaban interesados en resolver las relaciones filogenéticas entre archaebacterias, eubacterias y eucariotas, incluyendo si cada dominio de la vida constituye un clado monofilético. Así que asumieron a priori la existencia de UCA. De hecho, el alineamiento es un procedimiento basado en la suposición de que las secuencias han divergido de una secuencia ancestral común. Brown et al. escribieron «Las familias de proteínas individuales se alinearon primero por ordenador y luego refinamos manualmente las alineaciones. Eliminamos las regiones poco conservadas en las alineaciones de proteínas individuales». Este procedimiento asume claramente la existencia de UCA, y esto no era un problema para Brown et al., porque lo que les interesaba era la relación filogenética entre todas las especies de la Tierra, y la existencia de UCA estaba apoyada por pruebas circunstanciales . Sin embargo, para probar la existencia de UCA, el procedimiento de alineación no debería utilizarse, porque da un fuerte sesgo para la hipótesis de UCA.
En una comunicación anterior , proporcionamos un ejemplo de dos familias de secuencias codificantes de ácidos nucleicos aparentemente no relacionadas (cytb y nd2 de mitocondrias) para las que el AIC elige una hipótesis de origen común. Dado que la alineación da un sesgo para la ascendencia común, no hicimos una alineación entre cytb y nd2, pero aun así se prefirió el origen común de cytb y nd2 a los orígenes independientes de estos dos genes. Probablemente nadie crea que este resultado deba considerarse como una prueba de la ascendencia común final de cytb y nd2. Más bien esto plantea un signo de interrogación en cuanto a la eficacia de la prueba de Theobald.
Theobald criticó nuestro análisis señalando que nuestro modelo de sustitución de nucleótidos de GTR+Γ es demasiado ingenuo. Utilizamos el mismo marco de lectura de los dos genes, pero, según Theobald, se espera que las restricciones del código genético induzcan correlaciones entre estas secuencias que no se deban a una ascendencia común. Este es un buen punto, y en este trabajo utilizaremos también el modelo de sustitución de aminoácidos para dar cuenta de esta correlación. Hemos utilizado sólo el modelo GTR+Γ de sustitución de nucleótidos para mostrar el caso más impresionante sin alineación, pero en realidad la preferencia del modelo de origen común sobre el modelo de origen independiente depende del modelo de sustitución asumido. Por lo tanto, utilizando varios modelos alternativos de sustitución de nucleótidos así como de aminoácidos, estudiaremos si los ajustes por defecto del programa de alineación, con el que se hizo el conjunto de datos de Theobald, rechazan la hipótesis del origen común de los dos genes aparentemente no relacionados.
2. Materiales y Métodos
Se proporcionó para los análisis el mismo conjunto de datos de secuencias utilizado en. El 5′-terminal de 1.038 pb (excluyendo el codón de iniciación) de los genes mitocondriales de cytb y nd2 de vaca (EU177848), ciervo (AB210267) e hipopótamo (NC_000889) fue analizado por el método de máxima verosimilitud implementado en PAML asumiendo las relaciones de ((vaca, ciervo), hipopótamo) como se muestra en la Figura 1. La hipótesis de origen independiente mostrada en la parte izquierda de la Figura 1 se compara con la hipótesis de origen común mostrada en la derecha con el criterio de AIC . Los modelos de sustitución utilizados en este trabajo son los siguientes JC , K80 , HKY , GTR , K80+Γ , HKY+Γ , y GTR+Γ para las sustituciones de nucleótidos, y los modelos Poisson, JTT , mtmam , Poisson+Γ , JTT+F+Γ , mtmam+F+Γ para las sustituciones de aminoácidos. Se utilizó CLUSTAL W para la alineación con varios valores para la penalización de apertura de huecos (GOP) y la penalización de extensión de huecos (GEP). Los valores por defecto de (GOP, GEP) son (15, 6,66) para las secuencias de nucleótidos y (10, 0,1) para las secuencias de aminoácidos, y los valores por defecto para las secuencias de aminoácidos se utilizaron en la preparación de los conjuntos de datos utilizados en , en los que sólo se analizaron las secuencias de aminoácidos.
Hipótesis de orígenes independientes frente a hipótesis de origen común de cytb y nd2. No existe ninguna rama que conecte los dos genes en la hipótesis de orígenes independientes, mientras que el ancestro común de los dos genes existe en la hipótesis de origen común.
3. Resultados y discusión
El resultado del análisis en el nivel de nucleótidos se da en la Tabla 1. Sin alineación, los modelos JC, K80+Γ, HKY+Γ y GTR+Γ prefieren la hipótesis del origen común, mientras que los modelos K80, HKY y GTR prefieren la hipótesis del origen independiente. El mejor modelo con respecto al AIC es el modelo GTR+Γ, y prefiere el origen común. A continuación, se analizaron las secuencias alineadas con CLUSTAL W con diversos valores de GOP y GEP. Los valores más grandes de GOP y GEP significan una penalización más fuerte para la inserción de una brecha y la extensión de la brecha, y en consecuencia la alineación resultante con valores más grandes está más cerca del conjunto de datos sin alineación que la producida con valores más pequeños. Al cambiar el GOP y el GEP de valores grandes a pequeños, la hipótesis del origen común tiende a ser preferida a la hipótesis del origen independiente, independientemente del modelo de sustitución. Curiosamente, tal situación se realiza con (GOP, GEP) = (50, 6,66) antes de los valores por defecto de (15, 6,66).
(a) | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
|
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
(b) | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
|
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Se mostraron los AIC de cada modelo comparando las hipótesis de origen independiente y común. En la comparación entre las dos hipótesis, la hipótesis con menor AIC fue indicada por †. El modelo de sustitución con el AIC mínimo en cada conjunto de datos se indicó con un subrayado. Los valores predeterminados de GOP y GEP se indicaron en negrita. *Homología entre los alineamientos de cytb y nd2, que se define por 1-(distancia media 𝑝 entre cytb y nd2). |
Un análisis similar en el nivel de aminoácidos se da en la Tabla 2. En este caso, la hipótesis de origen común es preferida sólo por los modelos Poisson y JTT sin alineación, mientras que el mejor modelo de mtmam+F+Γ prefiere los orígenes independientes. Las secuencias alineadas con la configuración por defecto también dan resultados diferentes dependiendo del modelo de sustitución asumido; mientras que los modelos simples como el Poisson, el JTT y el Poisson+Γ prefieren la hipótesis de origen común, el mejor modelo disponible con respecto al AIC, el modelo mtmam+F+Γ, prefiere los orígenes independientes. Probablemente, la mayor preferencia de la hipótesis del ancestro común con el análisis a nivel de nucleótidos se debe, como señaló Theobald, a las restricciones del código genético que inducen correlaciones entre las secuencias que no se deben a la ascendencia común. En particular, en los genes mitocondriales de mamíferos que codifican proteínas en la cadena pesada utilizada en nuestro análisis, las posiciones del segundo codón están sesgadas hacia la T, mientras que las posiciones del tercer codón están sesgadas hacia la A y sesgadas contra la G . Por lo tanto, la fuerte preferencia de la hipótesis del origen común por el análisis de los nucleótidos se debe probablemente a las restricciones del código genético. Sin embargo, cabe mencionar que, aunque el mejor modelo de sustitución disponible del análisis de aminoácidos sin alineación y con alineación de la configuración por defecto prefiere la hipótesis de origen independiente, la hipótesis de origen común es preferida por algunos modelos de sustitución. Esto plantea un serio problema en cuanto a la eficacia de la prueba formal. Theobald utilizó un conjunto de datos de secuencias de aminoácidos similar al de Brown et al. , que utilizó el CLUSTALW con la configuración por defecto para alinear conjuntos de datos de proteínas individuales. En realidad, Theobald utilizó otro programa llamado ProbCons en lugar de CLUSTALW para alinear las secuencias, pero la diferencia no debería ser críticamente importante para nuestros argumentos.
|
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Se mostraron los AIC de cada modelo comparando las hipótesis de origen independiente y común. En la comparación entre las dos hipótesis, la hipótesis con menor AIC fue indicada por †. El modelo de sustitución con el AIC mínimo en cada conjunto de datos se indicó con un subrayado. Los valores por defecto de GOP y GEP se indicaron en negrita. *Homología entre los alineamientos de cytb y nd2, que se define por 1-(distancia media 𝑝 entre cytb y nd2). |
Dado que cytb y nd2 codificados en la cadena pesada del ADN mitocondrial tienen composiciones de aminoácidos similares , esto puede inducir correlaciones entre estas secuencias que no se deben a la ascendencia común. Esto pone de manifiesto otro fallo en el análisis de Theobald, a saber, que no tuvo en cuenta la posibilidad de una evolución convergente como la que nosotros discutimos. Mientras que los ejemplos discutidos en estaban en la convergencia debido a la exigencia de una función similar y a la adaptación a un entorno similar, hay otro tipo de convergencia, es decir, la convergencia a una composición de aminoácidos similar, que se puede lograr de muchas maneras diferentes. Una composición de aminoácidos similar entre cytb y nd2 puede no ser una convergencia de buena fe, sino que puede representar únicamente restricciones debidas a la coexistencia de los dos genes en el mismo genoma, pero representa efectivamente una situación similar de evolución convergente.
En cuanto al sesgo causado por la alineación, teóricamente puede resolverse incluyendo el procedimiento de alineación en el marco de la estimación del árbol de máxima verosimilitud . La mayoría de los programas de alineación actuales tratan la alineación y la filogenia por separado, cuando en realidad son interdependientes. Cuando se desarrolle un método práctico para estimar simultáneamente el alineamiento y la filogenia en el marco de la máxima verosimilitud, podríamos comparar el AIC entre la hipótesis del UCA y la del origen independiente teniendo en cuenta la log-verosimilitud para el proceso de inserción/deleción sin ningún sesgo para la hipótesis del UCA. Por otro lado, sin embargo, no parece fácil tener en cuenta la posibilidad de la evolución convergente, ya que cualquier método de máxima verosimilitud utilizado actualmente asume un proceso estocástico que representa la evolución diversificada, y es difícil tener en cuenta la evolución convergente en este marco. Podría ser necesario un paradigma completamente nuevo para resolver finalmente el problema que Theobald desafió. A pesar de estos problemas para demostrar la existencia de la UCA mediante pruebas estadísticas, es cierto que hay fuertes pruebas circunstanciales de su existencia.
Charles Darwin escribió en Sobre el origen de las especies lo siguiente: «Debo inferir por analogía que probablemente todos los seres orgánicos que han vivido en esta tierra han descendido de alguna forma primordial, en la que la vida se respiró por primera vez». Darwin parece haber descartado los orígenes múltiples de la vida en la Tierra. Sin embargo, como Theobald señaló correctamente, la teoría de la UCA permite la posibilidad de múltiples orígenes independientes de la vida . La hipótesis de la UCA afirma simplemente que toda la vida existente en la Tierra ha descendido de una única especie ancestral común. Debe haber habido una enorme cantidad de extinciones en el curso de la historia de la vida, y no hay manera de saber qué tipos de vida se extinguieron durante la evolución temprana de la vida. Aun así, parece probable que durante la aparición de la vida se produjera una enorme cantidad de ensayos y errores de diferentes formas y que la UCA, si existió, fuera sólo una de ellas. Además, como argumentan Raup y Valentine , la probabilidad de supervivencia de la vida es baja a menos que haya múltiples orígenes. Incluso si la hipótesis del UCA se mantiene, la supervivencia de la forma de vida particular no implica que fuera única o superior.
Agradecimiento
Esta investigación fue parcialmente apoyada por la Subvención para la Investigación Científica C22570099 a M. Hasegawa del JSPS.