Quelques problèmes pour prouver l’existence de l’ancêtre commun universel de la vie sur Terre

author
14 minutes, 41 seconds Read

Abstract

Bien que des preuves circonstancielles écrasantes soutiennent l’existence de l’ancêtre commun universel de toute vie existante sur Terre, la question de savoir si l’ancêtre commun universel a existé ou non reste ouverte. Theobald (Nature 465, 219-222 (2010)) a récemment contesté ce problème à l’aide d’un test statistique formel appliqué aux séquences alignées de protéines conservatrices échantillonnées dans tous les domaines de la vie et a conclu que l’hypothèse de l’ancêtre commun universel tient. Cependant, nous soulignons qu’il y a un défaut fondamental dans la méthode de Theobald qui a utilisé des séquences alignées. Nous montrons que l’alignement donne un fort biais pour l’hypothèse de l’ancêtre commun, et nous fournissons un exemple qui montre que la méthode de Theobald soutient l’hypothèse de l’ancêtre commun pour deux familles apparemment non liées de séquences codant pour des protéines (cytb et nd2 des mitochondries). Cela éveille des soupçons sur l’efficacité du test « formel ».

1. Introduction

Les données générées par les projets de séquençage génomique d’une grande variété d’espèces permettent maintenant d’assembler des ensembles de données de séquences protéiques combinées pour reconstruire l’arbre de vie universel (par exemple, ). En revanche, la question de savoir si l’ancêtre commun universel (ACU) de toutes les formes de vie existantes sur Terre a existé ou non reste ouverte. Bien que les méthodes de phylogénétique moléculaire construisent automatiquement un arbre lorsqu’un ensemble de données de séquences est fourni, l’arbre déduit ne garantit pas nécessairement l’existence de l’UCA, car son existence est supposée implicitement dès le début habituellement en phylogénétique moléculaire.

La théorie de l’UCA a bénéficié d’une liste convaincante de preuves circonstancielles telles que données par Theobald . Cependant, il n’y avait eu aucune tentative de tester l’hypothèse UCA entre trois domaines (ou super-royaumes) de la vie, c’est-à-dire les eubactéries (Bacteria), les archaebactéries (Archaea) et les eucaryotes (Eukarya), en utilisant des séquences moléculaires jusqu’à ce que Theobald défie ce problème avec un test statistique formel. En utilisant les ensembles de données de séquences compilés par Brown et al. et en utilisant le critère de sélection de modèle AIC , il a montré que l’hypothèse UCA est bien supérieure à toute hypothèse d’origine indépendante, et il a conclu que la théorie UCA tient la route. Alors que l’hypothèse UCA postule que les eubactéries, les archaebactéries et les eucaryotes descendent d’un seul ancêtre commun appelé UCA, les hypothèses d’origine indépendante comprennent des scénarios tels que les eubactéries ont une origine différente de celle des archaebactéries/eucaryotes ou les trois domaines ont des origines différentes les uns des autres. Sa tentative est un premier pas vers l’objectif d’établir la théorie de l’UCA sur une base statistique solide. Cependant, sa méthodologie contient certains problèmes pour établir la théorie UCA comme nous l’avons discuté , et, dans cette communication, nous donnerons plus de détails sur nos arguments.

Le problème le plus sérieux de l’analyse de Theobald est qu’il a utilisé des séquences alignées compilées par Brown et al , qui étaient intéressés à résoudre les relations phylogénétiques entre les archaebactéries, les eubactéries et les eucaryotes, y compris si chaque domaine de vie constitue un clade monophylétique. Ils ont donc a priori supposé l’existence de l’UCA. En effet, l’alignement est une procédure basée sur l’hypothèse que les séquences ont divergé à partir d’une séquence ancestrale commune. Brown et al. ont écrit : « Les familles de protéines individuelles ont d’abord été alignées par ordinateur, puis nous avons affiné manuellement les alignements. Nous avons supprimé les régions mal conservées dans les alignements de protéines individuelles. » Cette procédure suppose clairement l’existence de l’UCA, ce qui n’était pas un problème pour Brown et al, car ce qui les intéressait était la relation phylogénétique entre toutes les espèces sur Terre, et l’existence de l’UCA était soutenue par des preuves circonstancielles . Cependant, pour prouver l’existence de l’UCA, la procédure d’alignement ne devrait pas être utilisée, car elle donne un fort biais pour l’hypothèse de l’UCA.

Dans une communication précédente , nous avons fourni un exemple à partir de deux familles apparemment non liées de séquences codantes d’acides nucléiques (cytb et nd2 des mitochondries) pour lesquelles l’AIC choisit une hypothèse d’origine commune. Comme l’alignement donne un biais pour une ascendance commune, nous n’avons pas fait d’alignement entre cytb et nd2, mais malgré tout l’origine commune de cytb et nd2 a été préférée aux origines indépendantes de ces deux gènes. Probablement personne ne croira que ce résultat doit être considéré comme une preuve de l’ascendance commune ultime de cytb et nd2. Cela soulève plutôt un point d’interrogation quant à l’efficacité du test de Théobald.

Théobald a critiqué notre analyse en soulignant que notre modèle de substitution nucléotidique de GTR+Γ est trop naïf. Nous avons utilisé le même cadre de lecture des deux gènes, mais, selon Theobald, les contraintes du code génétique devraient induire des corrélations entre ces séquences qui ne sont pas dues à un ancêtre commun. C’est un bon point, et dans ce travail nous utiliserons également le modèle de substitution des acides aminés pour rendre compte de cette corrélation. Nous avons utilisé uniquement le modèle GTR+Γ de substitution des nucléotides afin de montrer le cas le plus impressionnant sans alignement, mais en réalité la préférence du modèle d’origine commune par rapport au modèle d’origine indépendante dépend du modèle de substitution supposé. Par conséquent, en utilisant plusieurs modèles alternatifs de substitution des nucléotides ainsi que des acides aminés, nous allons étudier si les paramètres par défaut du programme d’alignement, avec lequel l’ensemble de données de Theobald a été fait, rejettent l’hypothèse d’origine commune des deux gènes apparemment non apparentés.

2. Matériaux et méthodes

Le même ensemble de données de séquence que celui utilisé dans a été fourni pour les analyses. Les 1 038 pb 5′-terminaux (à l’exclusion du codon d’initiation) des gènes mitochondriaux de cytb et nd2 de la vache (EU177848), du cerf (AB210267) et de l’hippopotame (NC_000889) ont été analysés par la méthode du maximum de vraisemblance mise en œuvre dans PAML en supposant les relations de ((vache, cerf), hippopotame) comme indiqué dans la figure 1. L’hypothèse d’origine indépendante présentée dans la partie gauche de la figure 1 est comparée à l’hypothèse d’origine commune présentée dans la partie droite avec le critère AIC . Les modèles de substitution utilisés dans ce travail sont les suivants : JC , K80 , HKY , GTR , K80+Γ , HKY+Γ , et GTR+Γ pour les substitutions de nucléotides, et les modèles Poisson, JTT , mtmam , Poisson+Γ , JTT+F+Γ , mtmam+F+Γ pour les substitutions d’acides aminés. CLUSTAL W a été utilisé pour l’alignement avec différentes valeurs pour la pénalité d’ouverture d’espace (GOP) et la pénalité d’extension d’espace (GEP). Les valeurs par défaut de (GOP, GEP) sont (15, 6,66) pour les séquences nucléotidiques et (10, 0,1) pour les séquences d’acides aminés, et les valeurs par défaut pour les séquences d’acides aminés ont été utilisées pour préparer les ensembles de données utilisés dans , dans lesquels seules les séquences d’acides aminés ont été analysées.

Figure 1

Hypothèse d’origines indépendantes versus hypothèses d’origines communes de cytb et nd2. Aucune branche n’existe reliant les deux gènes dans l’hypothèse des origines indépendantes, alors que l’ancêtre commun des deux gènes existe dans l’hypothèse de l’origine commune.

3. Résultats et discussion

Le résultat de l’analyse au niveau des nucléotides est donné dans le tableau 1. Sans alignement, les modèles JC, K80+Γ, HKY+Γ, et GTR+Γ préfèrent l’hypothèse d’origine commune, tandis que les modèles K80, HKY, et GTR préfèrent l’hypothèse d’origines indépendantes. Le meilleur modèle par rapport à l’AIC est le modèle GTR+Γ, et il préfère l’origine commune. Ensuite, les séquences alignées avec CLUSTAL W avec différentes valeurs de GOP et GEP ont été analysées. Des valeurs plus grandes de GOP et GEP signifient une pénalité plus forte pour l’insertion d’un espace et l’extension de l’espace, et par conséquent l’alignement résultant avec des valeurs plus grandes est plus proche de l’ensemble de données sans alignement que celui produit avec des valeurs plus petites. En changeant les valeurs de GOP et GEP de grandes à petites, l’hypothèse d’origine commune tend à être préférée à l’hypothèse d’origine indépendante, indépendamment du modèle de substitution. Il est intéressant de noter qu’une telle situation est réalisée avec (GOP, GEP) = (50, 6,66) avant les valeurs par défaut de (15, 6,66).

(a)
Modèle Aucun alignement (1038 pb) (GOP, GEP) = (100, 100) (1026 pb) (GOP, GEP) = (50, 6.66) (1029 pb)
Independant Common Independant Common Independant Common
JC 11043.8 11005.5† 10876.9 10844.5† 10935.0 10862.9†
K80 10820.8† 10821.2 10669.3 10662.2† 10727.6 10684.4†
HKY 10398.6† 10414.7 10255.3† 10266.6 10309.7 10294.4†
GTR 10307.5† 10320.4 10186.5† 10192.1 10242.4 10224.3†
K80+Γ 10789.5 10723.4† 10637.5 10562.7† 10695.7 10650.4†
HKY+Γ 10329.8 10274.8† 10186.4 10119.4† 10239.7 10228.4†
GTR+Γ 10271.9 10216.4 † 10129.5 10066.6 † 10184.1 10168.6 †
Homologie* 0,314 0,317 0.349
(b)
Modèle (GOP, GEP) = (30, 6.66) (1025 pb) (GOP, GEP) = (15, 6.66) (999 pb) (GOP, GEP) = (3, 6.66) (974 pb)
Independant Common Independant Common Independant Common
JC 10890.6 10802.2† 10592.4 10409.2 † 10262.1 9865.7†
K80 10684.6 10623.3† 10395.0 10221.3 † 10056.9 9613.1†
HKY 10271.8 10241.0† 9991.1 9875.0 † 9645.8 9283.2†
GTR 10204.9 10170.3† 9921.1 9820.4 † 9585.0 9234.3†
K80+Γ 10652.5 10577.5† 10363.0 10188.2 † 10028.1 9595.4†
HKY+Γ 10202.4 10162.0† 9920.5 9817.6 † 9580.9 9249.5†
GTR+Γ 10146.3 10099.7 † 9863.6 9768.5 † 9531.1 9201.7 †
Homologie* 0.360 0,419 0,504
On a montré les AIC de chaque modèle comparant les hypothèses d’origine indépendante et commune. Dans la comparaison entre les deux hypothèses, l’hypothèse présentant l’AIC le plus faible était indiquée par †. Le modèle de substitution avec l’AIC minimal dans chaque ensemble de données a été indiqué par un soulignement. Les valeurs par défaut de GOP et GEP étaient indiquées en caractères gras.
*Homologie entre les alignements cytb et nd2, qui est définie par 1-(𝑝-distance moyenne entre cytb et nd2).
Tableau 1
Tests formels de l’ascendance commune entre cytb et nd2 basés sur les ensembles de données de séquences nucléotidiques alignées avec différentes valeurs de pénalités d’écart (GOP et GEP).

Une analyse similaire au niveau des acides aminés est donnée dans le tableau 2. Dans ce cas, l’hypothèse d’origine commune n’est préférée que par les modèles de Poisson et JTT sans alignement, alors que le meilleur modèle de mtmam+F+Γ préfère les origines indépendantes. Les séquences alignées avec le paramètre par défaut donnent également des résultats différents selon le modèle de substitution supposé ; alors que les modèles simples tels que Poisson, JTT et Poisson+Γ préfèrent l’hypothèse d’origine commune, le meilleur modèle disponible par rapport à l’AIC, le modèle mtmam+F+Γ, préfère les origines indépendantes. Probablement, la préférence plus forte de l’hypothèse de l’ancêtre commun avec l’analyse au niveau des nucléotides est, comme Theobald l’a souligné, due aux contraintes du code génétique qui induisent des corrélations entre les séquences qui ne sont pas dues à un ancêtre commun. En particulier dans les gènes codant pour les protéines mitochondriales des mammifères sur le brin lourd utilisé dans notre analyse, les positions du deuxième codon sont biaisées vers T, tandis que les positions du troisième codon sont biaisées vers A et biaisées contre G . Par conséquent, la forte préférence de l’hypothèse d’une origine commune par l’analyse des nucléotides est probablement due aux contraintes du code génétique. Cependant, il convient de mentionner que, bien que le meilleur modèle de substitution disponible de l’analyse des acides aminés sans alignement et avec alignement du paramètre par défaut préfère l’hypothèse d’origine indépendante, l’hypothèse d’origine commune est préférée par certains modèles de substitution. Cela pose un sérieux problème quant à l’efficacité du test formel. Theobald a utilisé un ensemble de données de séquences d’acides aminés similaire à celui de Brown et al. qui ont utilisé CLUSTALW avec des paramètres par défaut pour aligner des ensembles de données de protéines individuelles. En fait, Theobald a utilisé un autre programme appelé ProbCons au lieu de CLUSTALW pour aligner les séquences, mais la différence ne devrait pas être d’une importance critique pour nos arguments.

Modèle Aucun alignement (346 aa) (GOP, GEP) = (100, 100) (338 aa) (GOP, GEP) = (15, 6.66) (342 aa) (GOP, GEP) = (10, 0.1) (330 aa) (GOP, GEP) = (1, 0.1) (313 aa)
Independent Common Independent Common Independent Common Indépendante Commune Indépendante Commune
Poisson 5934.3 5933.5† 5748.6 5745.8† 5856.9 5838.6† 5664.9 5638,0 † 5403,1 5288,6†
Poisson+Γ 5922.0† 5933.5 5735.9† 5740.6 5843.9 5832.3† 5651.7 5639.0 † 5392.7 5288.5†
JTT 5591.5 5586.1† 5420.3 5414.0† 5515.8 5495.6† 5335.5 5276.4 † 5080.2 4879.8†
mtmam 5247.4† 5252.5 5083.1† 5090.8 5174.7† 5176.0 4995.4 4989.9 † 4754.3 4688.6†
JTT+F+Γ 5304.3† 5325.8 5133.7† 5152.8 5226.8† 5231.7 5044.8 5034.2 † 4809.5 4682.4†
mtmam+F+Γ 5248.1 † 5272.3 5082.6 † 5107.7 5174.6 † 5185.4 4995.0 † 4995.6 4759.7 4678.7 †
Homologie* 0,077 0,083 0.107 0,123 0,216
Les AIC de chaque modèle comparant les hypothèses d’origine indépendante et commune ont été montrés. Dans la comparaison entre les deux hypothèses, l’hypothèse présentant l’AIC le plus faible était indiquée par †. Le modèle de substitution avec l’AIC minimal dans chaque ensemble de données a été indiqué par un soulignement. Les valeurs par défaut de GOP et GEP étaient indiquées en caractères gras.
*Homologie entre les alignements cytb et nd2, qui est définie par 1-(𝑝-distance moyenne entre cytb et nd2).
Tableau 2
Tests formels de l’ascendance commune entre cytb et nd2 basés sur les ensembles de données de séquences d’acides aminés alignés avec différentes valeurs de pénalités d’écart (GOP et GEP).

Puisque cytb et nd2 codés sur le brin lourd de l’ADN mitochondrial ont des compositions en acides aminés similaires , cela peut induire des corrélations entre ces séquences qui ne sont pas dues à un ancêtre commun. Cela met en lumière un autre défaut de l’analyse de Theobald, à savoir qu’il n’a pas tenu compte de la possibilité d’une évolution convergente, comme nous l’avons évoqué. Alors que les exemples discutés dans l’article concernaient la convergence due à l’exigence d’une fonction similaire et à l’adaptation à un environnement similaire, il existe un autre type de convergence, à savoir la convergence vers une composition similaire en acides aminés, qui peut être obtenue de nombreuses manières différentes. Une composition similaire en acides aminés entre cytb et nd2 peut ne pas être une convergence de bonne foi mais peut seulement représenter des contraintes dues à la coexistence des deux gènes dans le même génome, mais représente effectivement une situation similaire d’évolution convergente.

Quant au biais causé par l’alignement, il peut théoriquement être résolu en incluant la procédure d’alignement dans le cadre de l’estimation de l’arbre par maximum de vraisemblance . La plupart des programmes d’alignement actuels traitent l’alignement et la phylogénie séparément, alors qu’en fait ils sont interdépendants. Lorsqu’une méthode pratique permettant d’estimer simultanément l’alignement et la phylogénie dans le cadre du maximum de vraisemblance sera développée, nous serons en mesure de comparer l’AIC entre l’hypothèse UCA et l’hypothèse d’origine indépendante en tenant compte de la log-vraisemblance pour le processus d’insertion/délétion sans aucun biais pour l’hypothèse UCA. D’autre part, il ne semble pas facile de prendre en compte la possibilité d’une évolution convergente, car toute méthode de maximum de vraisemblance actuellement utilisée suppose un processus stochastique représentant une évolution diversifiante, et il est difficile de prendre en compte une évolution convergente dans ce cadre. Un paradigme entièrement nouveau pourrait être nécessaire pour résoudre définitivement le problème posé par Theobald. Nonobstant ces problèmes pour prouver l’existence de l’UCA par des tests statistiques, il est vrai qu’il existe de fortes preuves circonstancielles de son existence.

Charles Darwin a écrit dans On the Origin of Species comme suit : « Je devrais déduire de l’analogie que probablement tous les êtres organiques qui ont jamais vécu sur cette terre sont descendus d’une forme primordiale, dans laquelle la vie a d’abord été insufflée ». Darwin semble avoir écarté les origines multiples de la vie sur Terre. Cependant, comme Theobald l’a correctement noté, la théorie de l’UCA permet la possibilité de multiples origines indépendantes de la vie . L’hypothèse de l’UCA stipule simplement que toute vie existante sur Terre descend d’une seule espèce ancestrale commune. Il a dû y avoir un nombre considérable d’extinctions au cours de l’histoire de la vie, et il n’y a aucun moyen de savoir quels types de vie se sont éteints au cours de l’évolution initiale de la vie. Pourtant, il semble probable qu’un grand nombre d’essais et d’erreurs de différentes formes se soient produits au cours de l’émergence de la vie et que l’UCA, si elle a existé, n’était que l’un d’entre eux. De plus, comme le soutiennent Raup et Valentine, la probabilité de survie de la vie est faible à moins que les origines soient multiples. Même si l’hypothèse UCA tient, la survie de la forme particulière de vie n’implique pas qu’elle était unique ou supérieure.

Reconnaissance

Cette recherche a été partiellement soutenue par des subventions d’aide à la recherche scientifique C22570099 à M. Hasegawa du JSPS.

Similar Posts

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée.