Distinguer les gènes codant pour les protéines et les gènes non codants dans le génome humain

Résultats
Identifier les orphelins.
Classe 2 : gènes avec paralogues inter-espèces.
Classe 3 : Gènes avec paralogues uniquement humains.
Classe 4 : gènes avec domaines Pfam.
Classe 5 : Orphelins.
Caractérisation des orphelins.
Longueurs des ORF.
Propriétés de conservation.
Conservation du cadre de lecture.
Fréquence de substitution des codons.
Les orphelins ne représentent pas des gènes codant pour des protéines.
Preuve expérimentale des protéines codées.
Révision des catalogues de gènes humains.
Catalogue Ensembl.
Autres catalogues.
Analyse combinée.
Limites de l’analyse.
Amélioration des annotations de gènes.

Résultats

Identifier les orphelins.

Notre analyse nécessite d’étudier les propriétés des ORF humains qui n’ont pas d’homologues inter-espèces, que nous appelons « orphelins ». Une telle étude nécessite de filtrer soigneusement les catalogues de gènes humains, afin d’identifier les gènes ayant des homologues et d’éliminer un large éventail d’artefacts qui interféreraient avec l’analyse des orphelins. Pour cette raison, nous avons entrepris une réanalyse approfondie des catalogues de gènes humains.

Nous nous sommes concentrés sur le catalogue Ensembl (version 35), qui répertorie 22 218 gènes codant pour des protéines avec un total de 239 250 exons. Notre analyse n’a pris en compte que les 21 895 gènes de la séquence de référence du génome humain des chromosomes 1-22 et X. (Nous avons donc omis le chromosome mitochondrial, le chromosome Y et les » contigs non placés « , qui impliquent des considérations particulières ; voir ci-dessous.)

Nous avons développé un protocole de calcul par lequel les gènes putatifs sont classés sur la base d’une comparaison avec les génomes humains, de la souris et du chien (Fig. 1 ; voir Matériaux et Méthodes). Les génomes de la souris et du chien ont été utilisés, car des séquences génomiques de haute qualité sont disponibles (7, 8), et l’étendue de la divergence des séquences est bien adaptée à l’identification des gènes. Le taux de substitution nucléotidique par rapport à l’homme est de ≈0,50 par base pour la souris et de ≈0,35 pour le chien, les événements d’insertion et de délétion (indel) se produisant à une fréquence ≈10 fois plus faible (8, 9). Ces taux sont suffisamment bas pour permettre un alignement fiable des séquences mais suffisamment élevés pour révéler les schémas de mutation différentiels attendus dans les régions codantes et non codantes.

Classe 2 : gènes avec paralogues inter-espèces.

Le pipeline a ensuite identifié 155 cas de gènes humains putatifs qui ont un paralogue dans le génome humain, qui, à son tour, a un orthologue chez la souris ou le chien. Ces gènes représentent en grande partie des duplications non locales dans la lignée humaine (les trois quarts se situent dans des duplications segmentaires) ou éventuellement des pertes de gènes dans les autres lignées. Parmi ces gènes, une inspection minutieuse a révélé huit cas dans lesquels une petite modification de l’annotation humaine a permis d’identifier un orthologue humain clair.

Classe 3 : Gènes avec paralogues uniquement humains.

Le pipeline a identifié 68 cas de gènes humains putatifs qui ont un ou plusieurs paralogues dans le génome humain, mais sans qu’aucun de ces paralogues n’ait d’orthologue chez la souris ou le chien. Une inspection minutieuse a permis d’éliminer 17 cas de rétroposons supplémentaires ou d’autres artefacts (voir annexe SI). Les 51 cas restants semblent être des gènes valides, 15 d’entre eux appartenant à trois familles connues de gènes spécifiques aux primates (familles DUF1220, NPIP et CDRT15) et les autres se produisant dans des groupes paralogues plus petits (deux à huit membres) qui peuvent également représenter des familles spécifiques aux primates.

Classe 4 : gènes avec domaines Pfam.

Le pipeline a identifié 97 cas de gènes putatifs présentant une homologie avec un domaine protéique connu dans la collection Pfam (10). Une inspection minutieuse a permis d’éliminer 21 cas comme rétroposons supplémentaires ou autres artefacts (voir annexe SI ) et 40 cas dans lesquels une petite modification de l’annotation humaine a permis d’identifier un orthologue humain clair. Les 36 gènes restants semblent être des gènes valides, avec 10 contenant des domaines spécifiques aux primates connus et 26 contenant des domaines communs à de nombreuses espèces.

Classe 5 : Orphelins.

Un total de 1 285 gènes putatifs est resté après la procédure ci-dessus. Une inspection minutieuse a permis d’identifier 40 cas qui étaient clairement des artefacts (de longues répétitions en tandem auxquelles il manque un codon stop) et 68 cas dans lesquels un orthologue inter-espèces a pu être attribué après une correction de petite modification de l’annotation du gène humain. Les 1 177 cas restants ont été déclarés orphelins, car ils ne présentent pas d’orthologie, de paralogisme ou d’homologie avec des gènes connus et ne sont pas des artefacts évidents. Nous notons que l’examen minutieux des gènes était essentiel pour obtenir un ensemble « propre » d’orphelins pour l’analyse ultérieure.

Caractérisation des orphelins.

Nous avons caractérisé les propriétés des orphelins pour voir si elles ressemblent à celles observées pour les gènes codant pour les protéines ou attendues pour les ORF aléatoires survenant dans les transcrits non codants.

Longueurs des ORF.

Les orphelins ont un contenu GC de 55%, ce qui est beaucoup plus élevé que la moyenne du génome humain (39%) et similaire à celui observé dans les gènes codant pour des protéines avec des homologues inter-espèces (53%). Le contenu élevé en GC reflète la tendance des orphelins à se trouver dans des régions riches en gènes.

Nous avons examiné les longueurs des ORF des orphelins, par rapport à leur contenu en GC. Les orphelins ont des ORF relativement petits (médiane = 393 pb), et la distribution des longueurs d’ORF ressemble étroitement à l’attente mathématique pour l’ORF le plus long qui surviendrait par hasard dans un transcrit dérivé de l’ADN génomique humain avec le contenu GC observé (SI Fig. 4).

Propriétés de conservation.

Nous nous sommes ensuite concentrés sur les propriétés de conservation inter-espèces. Pour évaluer la sensibilité de diverses mesures, nous avons examiné un ensemble de 5 985 gènes « bien étudiés » définis par le critère selon lequel ils sont discutés dans plus de cinq articles publiés. Pour chaque gène bien étudié, nous avons sélectionné une séquence témoin aléatoire appariée du génome humain, ayant un nombre similaire d' »exons » avec des longueurs similaires, une proportion similaire de séquence répétée et une proportion similaire d’alignement inter-espèces, mais ne chevauchant aucun gène putatif.

Les gènes bien étudiés et les témoins aléatoires appariés diffèrent en ce qui concerne toutes les propriétés de conservation étudiées (SI Fig. 5 et SI Table 1). L’identité nucléotidique et le rapport Ka/Ks diffèrent clairement, mais les distributions sont larges et présentent un chevauchement substantiel. La densité d’indel a une distribution plus serrée : 97,3 % des gènes bien étudiés, mais seulement 2,8 % des contrôles aléatoires, ont une densité d’indel de <10 par kb. Les distinctions les plus nettes, cependant, ont été trouvées pour deux mesures qui reflètent l’évolution distinctive des gènes codant pour des protéines : le score de conservation du cadre de lecture (RFC) et le score de fréquence de substitution de codons (CSF).

Conservation du cadre de lecture.

Le score RFC reflète le pourcentage de nucléotides (allant de 0% à 100%) dont le cadre de lecture est conservé entre les espèces (SI Fig. 6). Le score RFC est déterminé en alignant la séquence humaine sur son orthologue inter-espèces et en calculant le pourcentage maximum de nucléotides dont le cadre de lecture est conservé, parmi les trois cadres de lecture possibles pour l’orthologue. La moyenne des résultats est calculée sur des fenêtres glissantes de 100 bases afin de limiter la propagation des effets locaux dus aux erreurs d’alignement des séquences et d’annotation des limites des gènes. Nous avons calculé des scores RFC distincts par rapport aux génomes de la souris et du chien et nous nous sommes concentrés sur un score RFC conjoint, défini comme le plus grand des deux scores. Le score RFC a été initialement décrit dans nos travaux sur la levure, mais a été adapté pour tenir compte de la présence fréquente d’introns dans la séquence humaine (voir Annexe SI ).

Le score RFC ne montre pratiquement aucun chevauchement entre les gènes bien étudiés et les contrôles aléatoires (SI Fig. 5). Seulement 1% des contrôles aléatoires dépassent le seuil de RFC >90, alors que 98,2% des gènes bien étudiés dépassent ce seuil. La situation est similaire pour l’ensemble complet de 18 752 gènes avec des homologues inter-espèces, 97% dépassant le seuil (Fig. 2 a). Le score RFC est légèrement inférieur pour les gènes à évolution plus rapide, mais la distribution RFC pour même le top 1% des gènes à évolution rapide est fortement séparée des contrôles aléatoires (SI Fig. 5).

Fig. 2.

Distributions cumulatives du score RFC. (Gauche) Gènes humains avec orthologues inter-espèces (bleu) par rapport aux contrôles aléatoires appariés (noir). (Droite) Orphelins humains (rouge) par rapport aux contrôles aléatoires appariés (noir). Les scores RFC sont calculés par rapport à la souris et au chien ensemble (en haut), au macaque (au milieu) et au chimpanzé (en bas). Dans tous les cas, les orthologues sont étonnamment différents de leurs contrôles aléatoires appariés, tandis que les orphelins sont essentiellement indiscernables de leurs contrôles aléatoires appariés.

En revanche, les orphelins présentent une image complètement différente. Ils sont essentiellement indiscernables des contrôles aléatoires appariés (Fig. 2 b) et ne ressemblent même pas au sous-ensemble le plus rapidement évolutif des 18 572 gènes avec des homologues inter-espèces. En bref, l’ensemble des orphelins ne montre aucune tendance à conserver le cadre de lecture.

Fréquence de substitution des codons.

Le score CSF fournit un test complémentaire de pour le modèle évolutif des gènes codant pour les protéines. Alors que le score RFC est basé sur les indels, le score CSF est basé sur les différents modèles de substitution nucléotidique observés dans les gènes codant pour les protéines par rapport à l’ADN aléatoire. Récemment développée pour l’analyse génomique comparative des espèces de drosophiles (11), la méthode calcule un score de fréquence de substitution de codons (CSF) basé sur des alignements entre de nombreuses espèces. Nous avons appliqué l’approche CSF à des alignements de l’homme sur neuf espèces de mammifères, constitués de séquences à forte couverture (≈7×) de souris, de chien, de rat, de vache et d’opossum et de séquences à faible couverture (≈2×) de lapin, de tatou, d’éléphant et de tenrec.

Les résultats ont à nouveau montré une forte différenciation entre les gènes ayant des homologues inter-espèces et les orphelins. Parmi les 16 210 gènes à orthologie simple, 99,2% ont donné des scores de CSF cohérents avec l’évolution attendue des gènes codant pour des protéines. En revanche, les 1 177 orphelins ne comprennent que deux cas dont le modèle d’évolution des codons indique un gène valide. Après inspection, ces deux cas étaient des erreurs claires dans l’annotation du gène humain ; en traduisant la séquence dans un cadre différent, un orthologue clair entre espèces peut être identifié.

Les orphelins ne représentent pas des gènes codant pour des protéines.

Les résultats ci-dessus sont cohérents avec le fait que les orphelins sont simplement des ORF aléatoires, plutôt que des gènes codant pour des protéines humaines valides. Cependant, la cohérence ne constitue pas une preuve. Nous devons plutôt rejeter rigoureusement l’hypothèse alternative.

Supposons que les orphelins représentent des gènes codant pour des protéines humaines valides qui n’ont pas d’ORF correspondant chez la souris et le chien. Les orphelins se répartiraient en deux classes : (i) certains peuvent être antérieurs à la divergence de la souris et du chien – c’est-à-dire qu’il s’agit de gènes ancestraux qui ont été perdus à la fois chez la souris et le chien, et (ii) certains peuvent être postérieurs à la divergence – c’est-à-dire qu’il s’agit de nouveaux gènes apparus dans la lignée menant à l’humain. Comment pouvons-nous exclure ces possibilités ? Notre solution a été d’étudier deux primates apparentés : le macaque et le chimpanzé. Nous considérons tour à tour les alternatives.

Supposons que les orphelins sont des gènes mammifères ancestraux qui ont été perdus chez le chien et la souris mais qui sont conservés dans la lignée menant à l’homme. Si c’est le cas, ils seraient toujours présents et fonctionnels chez le macaque et le chimpanzé, sauf dans le cas improbable où ils auraient également subi des événements de perte indépendants dans les lignées du macaque et du chimpanzé.
Supposons que les orphelins sont des gènes nouveaux qui sont apparus dans la lignée menant à l’homme, après la divergence avec le chien et la souris . En supposant que la génération de nouveaux gènes est un processus régulier, les dates de naissance devraient être réparties sur cette période. Si c’est le cas, la plupart des dates de naissance seront antérieures à la divergence avec le macaque (≈30 Mya) et presque toutes seront antérieures à la divergence avec le chimpanzé (≈6 Mya) (12).

Selon l’un ou l’autre des scénarios ci-dessus, la grande majorité des orphelins doit correspondre à des gènes fonctionnels codant pour des protéines chez le macaque ou le chimpanzé.

Nous avons donc testé si les orphelins présentent des preuves de conservation du codage des protéines par rapport au macaque ou au chimpanzé, en utilisant le score RFC. De manière frappante, la distribution des scores RFC pour les orphelins est essentiellement identique à celle des contrôles aléatoires (Fig. 2 d et f). La distribution pour les orphelins ne ressemble pas à celle observée même pour le top 1% des gènes les plus rapidement évolutifs avec des homologues inter-espèces (SI Figs. 7-9).

L’ensemble des orphelins ne montre donc aucune preuve de la conservation des cadres de lecture même chez nos plus proches parents primates. (Il est bien sûr possible que les orphelins comprennent quelques gènes codant pour des protéines valides, mais la proportion doit être suffisamment faible pour qu’elle n’ait pas d’effet discernable sur la distribution globale des RFC). Nous concluons que la grande majorité des orphelins ne correspondent pas à des gènes fonctionnels codant pour des protéines chez le macaque et le chimpanzé, et ne sont donc ni des gènes ancestraux ni des gènes nouvellement apparus.

Si les orphelins représentent des gènes codant pour des protéines humaines valides, nous devrions conclure que la grande majorité des orphelins sont nés après la divergence avec le chimpanzé. Un tel modèle exigerait un taux prodigieux de naissance de gènes dans les lignées de mammifères et un taux féroce de mort de gènes effaçant le nombre énorme de gènes nés avant la divergence avec le chimpanzé. Nous rejetons un tel modèle comme étant totalement invraisemblable. Nous concluons donc que la grande majorité des orphelins sont simplement des ORF survenant au hasard qui ne représentent pas des gènes codant pour des protéines.

Enfin, nous notons que le filtrage minutieux du catalogue de gènes humains ci-dessus était essentiel à l’analyse ci-dessus, car il a éliminé les pseudogènes et les artefacts qui auraient empêché une analyse précise des propriétés des orphelins.

Preuve expérimentale des protéines codées.

Comme une vérification indépendante de notre conclusion, nous avons examiné la littérature scientifique pour les articles publiés mentionnant les orphelins pour déterminer s’il y avait des preuves expérimentales pour les protéines codées. Alors que la grande majorité des gènes bien étudiés ont été directement montrés comme codant pour une protéine, nous avons trouvé des articles rapportant des preuves expérimentales d’une protéine codée in vivo pour seulement 12 des 1 177 orphelins, et certains de ces rapports sont équivoques (SI Tableau 2). Les preuves expérimentales sont donc cohérentes avec notre conclusion que la grande majorité des ORF non conservés ne codent pas pour des protéines. Dans la poignée de cas où des preuves expérimentales existent ou seront trouvées à l’avenir, les gènes peuvent être restaurés dans le catalogue au cas par cas.

Révision des catalogues de gènes humains.

Avec des preuves solides que la grande majorité des orphelins ne sont pas des gènes codant pour des protéines, il est possible de réviser les catalogues de gènes humains d’une manière fondée sur des principes.

Catalogue Ensembl.

Notre analyse du catalogue Ensembl (v35) indique qu’il contient 19 108 gènes codant pour des protéines valides sur les chromosomes 1-22 et X dans l’assemblage actuel du génome. Les 15% d’entrées restantes sont éliminées en tant que rétroposons, artefacts ou orphelins. Avec le chromosome mitochrondrial et le chromosome Y , le total atteint 19 199.

Nous avons étendu l’analyse au catalogue Ensembl (v38), dans lequel 2 212 gènes putatifs ont été ajoutés et de nombreuses entrées précédentes ont été révisées ou supprimées. Notre pipeline de calcul a trouvé 598 gènes codant pour des protéines valides supplémentaires, basés sur des homologues inter-espèces, 1 135 rétroposons et 479 orphelins. Les courbes RFC pour les orphelins correspondent à nouveau étroitement à l’attente pour l’ADN aléatoire.

Autres catalogues.

Nous avons appliqué la même approche au catalogue Vega (v34) et RefSeq (mars 2007). Les deux catalogues contiennent une proportion substantielle d’entrées qui semblent ne pas être des gènes codant pour des protéines valides (16% et 10%, respectivement), sur la base de l’absence d’homologue inter-espèces (voir SI Fig. 10 et SI Annexe ). Si nous limitons les entrées RefSeq à celles qui présentent le plus haut degré de confiance (avec la mise en garde que cet ensemble contient beaucoup moins de gènes), seulement 1 % semble invalide. Ensemble, ces deux catalogues ajoutent 673 gènes codant pour des protéines supplémentaires.

Analyse combinée.

En combinant l’analyse des trois principaux catalogues de gènes, nous constatons que seulement 20 470 des 24 551 entrées semblent être des gènes codant pour des protéines valides.

Limites de l’analyse.

Notre analyse des catalogues de gènes actuels présente certaines limites qu’il convient de noter.

Premièrement, nous avons éliminé tous les pseudogènes et les orphelins. Nous avons trouvé six cas rapportés dans lesquels un pseudogène ou un transposon transformé a subi une exaptation pour produire un gène fonctionnel (tableaux SI 1 et 3) et 12 cas rapportés d’orphelins avec des preuves expérimentales d’une protéine codée. Ces 18 cas peuvent être facilement rétablis dans le catalogue (ce qui porte le nombre à 20 488). Il existe des cas supplémentaires de rétroposons potentiellement fonctionnels qui ne sont pas présents dans les catalogues de gènes actuels (15). Si l’on découvre que l’un d’entre eux produit des protéines, il devrait également être inclus.

Deuxièmement, nous n’avons pas considéré les 197 gènes putatifs qui se trouvent dans les « contigs non cartographiés ». Ces régions sont des séquences qui ont été omises de l’assemblage fini du génome humain. Elles consistent en grande partie en des duplications segmentaires, et la plupart des gènes sont très similaires à d’autres dans l’assemblage. Un grand nombre de ces séquences peuvent représenter des allèles alternatifs ou des erreurs d’assemblage du génome. Cependant, les régions de duplication segmentaire sont connues pour être des pépinières d’innovation évolutive (16) et peuvent contenir certains gènes valides. Elles méritent une attention particulière.

Troisièmement et surtout, les ORF non conservés étudiés ici étaient généralement inclus dans les catalogues de gènes actuels parce qu’ils ont le potentiel de coder au moins 100 acides aminés. Nous ne savons donc pas si nos conclusions s’appliqueraient à des ORF beaucoup plus courts. En principe, il existe de nombreux autres gènes codant pour des protéines courtes, comme les hormones peptidiques, qui sont généralement traduites à partir de précurseurs beaucoup plus grands et peuvent évoluer rapidement. Il devrait être possible d’étudier les propriétés des ORF plus petits en utilisant des espèces de mammifères supplémentaires au-delà de la souris et du chien.

Amélioration des annotations de gènes.

Au cours de notre travail, nous avons généré des « cartes de rapport » graphiques détaillées pour chacun des 22 218 gènes putatifs dans Ensembl (v35). Les cartes de rapport montrent la structure du gène, les alignements de séquences, les mesures de conservation évolutive, et notre classification finale (Fig. 3).

Fig. 3.

Un exemple de carte de rapport de gène pour un petit gène, HAMP, sur le chromosome 19. Les cartes de rapport pour l’ensemble des 22 218 gènes putatifs dans Ensembl v35 sont disponibles sur www.broad.mit.edu/mammals/alpheus. Ces fiches fournissent un cadre visuel pour étudier la conservation inter-espèces et pour repérer les problèmes éventuels dans l’annotation des gènes humains. Les informations situées dans la partie supérieure indiquent l’emplacement chromosomique, les identificateurs alternatifs et les informations récapitulatives, telles que la longueur, le nombre d’exons et le contenu des répétitions. Plusieurs panneaux en dessous fournissent des vues graphiques de l’alignement du gène humain sur les génomes de la souris et du chien. Le panneau « Synténie » montre l’alignement à grande échelle de la séquence génomique, indiquant les segments alignés et non alignés. La séquence humaine est annotée avec les exons en blanc et la séquence répétitive en gris foncé. « Alignment detail » montre l’alignement complet de la séquence d’ADN et l’alignement des protéines. Dans l’alignement d’ADN, la séquence humaine est donnée en haut, les bases des autres espèces sont marquées comme correspondantes (gris clair) ou non correspondantes (gris foncé), les limites des exons sont marquées par des lignes verticales, les indels sont marqués par des petits triangles au-dessus de la séquence (sommet vers le bas pour les insertions, sommet vers le haut pour les délétions, le nombre indiquant la longueur en bases), le codon de départ annoté est en vert, et le codon d’arrêt annoté est en violet. Dans l’alignement des protéines, la séquence d’acides aminés humaine est indiquée en haut, et les séquences des autres espèces sont marquées comme correspondantes (gris clair), similaires (rose), ou non correspondantes (rouge). « Frame alignment » montre la distribution des mésappariements nucléotidiques trouvés dans chaque position de codon, avec un excès de mutations attendu en troisième position. Les correspondances sont indiquées en gris clair, et les mésappariements en gris foncé. « Indels, starts and stops » fournit un aperçu des événements clés. Les indels sont indiqués par des triangles (sommet vers le bas pour les insertions, sommet vers le haut pour les délétions) et marqués comme décalant le cadre (rouge) ou préservant le cadre (gris). Les codons de départ sont marqués en vert et les codons d’arrêt en violet. « Les sites d’épissage montrent la conservation de la séquence autour des sites d’épissage, les sites donneurs et accepteurs à deux bases étant surlignés en gris et les bases non concordantes indiquées en rouge. « Données sommaires » énumère diverses statistiques de conservation relatives à la souris et au chien, y compris le score RFC, l’identité nucléotidique, le nombre de sites d’épissage conservés, la densité d’indel/kb de décalage de cadre et de non décalage de cadre, et le voisinage des gènes. Le voisinage du gène montre un point pour les trois gènes en amont et en aval, qui est coloré en gris si la synténie est préservée et en rouge sinon.

Les bulletins sont précieux pour étudier l’évolution des gènes et pour affiner leur annotation. En examinant les anomalies locales par comparaison inter-espèces, nous avons identifié 23 erreurs claires dans l’annotation des gènes (y compris les cas où la modification du cadre de lecture ou du brin codant révèle des orthologues inter-espèces non ambigus) et 332 cas où la conservation inter-espèces suggère de modifier le codon de départ ou d’arrêt, d’éliminer un exon interne ou de déplacer un site d’épissage. Parmi ces derniers cas, la plupart sont probablement des erreurs dans l’annotation des gènes humains, bien que certains puissent représenter de véritables différences entre espèces. Les fiches, ainsi que les outils de recherche et les tableaux récapitulatifs, sont disponibles à l’adresse www.broad.mit.edu/mammals/alpheus.