Unterscheidung zwischen proteinkodierenden und nicht-kodierenden Genen im menschlichen Genom

author
17 minutes, 2 seconds Read

Ergebnisse

Identifizierung von Waisen.

Unsere Analyse erfordert die Untersuchung der Eigenschaften menschlicher ORFs, die keine artübergreifenden Gegenstücke haben, die wir als „Waisen“ bezeichnen. Eine solche Studie erfordert eine sorgfältige Filterung der menschlichen Genkataloge, um Gene mit Gegenstücken zu identifizieren und eine Vielzahl von Artefakten zu beseitigen, die die Analyse der Waisen stören würden. Aus diesem Grund haben wir eine gründliche Neuanalyse der menschlichen Genkataloge vorgenommen.

Wir haben uns auf den Ensembl-Katalog (Version 35) konzentriert, der 22.218 proteinkodierende Gene mit insgesamt 239.250 Exons aufführt. Unsere Analyse berücksichtigte nur die 21 895 Gene auf der Referenzsequenz des menschlichen Genoms auf den Chromosomen 1-22 und X. (Wir ließen also das mitochondriale Chromosom, das Chromosom Y und die „unplazierten Contigs“ aus, die besondere Überlegungen erfordern; siehe unten.)

Wir entwickelten ein Berechnungsprotokoll, mit dem die mutmaßlichen Gene auf der Grundlage eines Vergleichs mit den Genomen von Mensch, Maus und Hund klassifiziert wurden (Abb. 1; siehe Materialien und Methoden). Das Maus- und das Hundegenom wurden verwendet, da hier qualitativ hochwertige genomische Sequenzen zur Verfügung stehen (7, 8) und das Ausmaß der Sequenzdivergenz für die Genidentifizierung gut geeignet ist. Die Nukleotid-Substitutionsrate im Vergleich zum Menschen beträgt ≈0,50 pro Base bei der Maus und ≈0,35 beim Hund, wobei die Häufigkeit von Insertions- und Deletionsereignissen (Indel) ≈10-mal geringer ist (8, 9). Diese Raten sind niedrig genug, um einen zuverlässigen Sequenzabgleich zu ermöglichen, aber hoch genug, um die in kodierenden und nicht kodierenden Regionen erwarteten unterschiedlichen Mutationsmuster aufzuzeigen.

Klasse 2: Gene mit speziesübergreifenden Paralogen.

Die Pipeline identifizierte dann 155 Fälle mutmaßlicher menschlicher Gene, die ein Paralog im menschlichen Genom haben, das wiederum ein Ortholog in Maus oder Hund hat. Bei diesen Genen handelt es sich größtenteils um nichtlokale Duplikationen in der menschlichen Abstammungslinie (drei Viertel liegen in segmentalen Duplikationen) oder möglicherweise um Genverluste in anderen Abstammungslinien. Unter diesen Genen wurden bei näherer Betrachtung acht Fälle aufgedeckt, in denen eine kleine Änderung der menschlichen Annotation die Identifizierung eines eindeutigen menschlichen Orthologs ermöglichte.

Klasse 3: Gene mit ausschließlich menschlichen Paralogen.

Die Pipeline identifizierte 68 Fälle von mutmaßlich menschlichen Genen, die ein oder mehrere Paraloge im menschlichen Genom haben, wobei jedoch keines dieser Paraloge ein Ortholog in Maus oder Hund hat. Bei näherer Betrachtung wurden 17 Fälle als zusätzliche Retroposons oder andere Artefakte ausgeschlossen (siehe SI-Anhang). Die verbleibenden 51 Fälle scheinen gültige Gene zu sein, von denen 15 zu drei bekannten Familien primatenspezifischer Gene gehören (DUF1220-, NPIP- und CDRT15-Familien) und die anderen in kleineren paranalogen Gruppen (zwei bis acht Mitglieder) vorkommen, die ebenfalls primatenspezifische Familien darstellen können.

Klasse 4: Gene mit Pfam-Domänen.

Die Pipeline identifizierte 97 Fälle von mutmaßlichen Genen mit Homologie zu einer bekannten Proteindomäne in der Pfam-Sammlung (10). Bei näherer Betrachtung wurden 21 Fälle als zusätzliche Retroposons oder andere Artefakte ausgeschlossen (siehe SI-Anhang ) und 40 Fälle, in denen eine kleine Änderung der menschlichen Annotation die Identifizierung eines eindeutigen menschlichen Orthologs ermöglichte. Bei den verbleibenden 36 Genen scheint es sich um gültige Gene zu handeln, von denen 10 bekannte Primaten-spezifische Domänen und 26 Domänen enthalten, die vielen Arten gemeinsam sind.

Klasse 5: Waisen.

Nach dem oben beschriebenen Verfahren blieben insgesamt 1.285 mutmaßliche Gene übrig. Bei näherer Betrachtung wurden 40 Fälle identifiziert, bei denen es sich eindeutig um Artefakte handelte (lange Tandemwiederholungen, bei denen zufällig ein Stoppcodon fehlt), und 68 Fälle, bei denen nach einer kleinen Korrektur der menschlichen Genannotation ein speziesübergreifendes Ortholog zugeordnet werden konnte. Die verbleibenden 1 177 Fälle wurden als Waisen deklariert, da sie keine Orthologie, Paralogie oder Homologie zu bekannten Genen aufweisen und keine offensichtlichen Artefakte sind. Wir weisen darauf hin, dass die sorgfältige Überprüfung der Gene wesentlich war, um einen „sauberen“ Satz von Waisen für die nachfolgende Analyse zu erhalten.

Charakterisierung der Waisen.

Wir charakterisierten die Eigenschaften der Waisen, um zu sehen, ob sie denen ähneln, die man bei proteinkodierenden Genen sieht oder die man bei zufälligen ORFs erwartet, die in nicht-kodierenden Transkripten entstehen.

ORF-Längen.

Die Waisen haben einen GC-Gehalt von 55 %, der viel höher ist als der Durchschnitt für das menschliche Genom (39 %) und ähnlich wie bei proteincodierenden Genen mit artenübergreifenden Gegenstücken (53 %). Der hohe GC-Gehalt spiegelt die Tendenz der Waisen wider, in genreichen Regionen aufzutreten.

Wir untersuchten die ORF-Längen der Waisen im Verhältnis zu ihrem GC-Gehalt. Die Waisen haben relativ kleine ORFs (Median = 393 bp), und die Verteilung der ORF-Längen ähnelt stark der mathematischen Erwartung für den längsten ORF, der zufällig in einem Transkript aus menschlicher genomischer DNA mit dem beobachteten GC-Gehalt entstehen würde (SI Abb. 4).

Erhaltungseigenschaften.

Anschließend konzentrierten wir uns auf artenübergreifende Erhaltungseigenschaften. Um die Sensitivität der verschiedenen Messgrößen zu bewerten, untersuchten wir eine Reihe von 5.985 „gut untersuchten“ Genen, die durch das Kriterium definiert wurden, dass sie in mehr als fünf veröffentlichten Artikeln diskutiert wurden. Für jedes gut untersuchte Gen wählten wir eine passende zufällige Kontrollsequenz aus dem menschlichen Genom aus, die eine ähnliche Anzahl von „Exons“ mit ähnlichen Längen, einen ähnlichen Anteil an Wiederholungssequenzen und einen ähnlichen Anteil an speziesübergreifendem Alignment aufweist, sich aber nicht mit irgendwelchen mutmaßlichen Genen überschneidet.

Die gut untersuchten Gene und die passenden zufälligen Kontrollsequenzen unterscheiden sich in Bezug auf alle untersuchten Erhaltungseigenschaften (SI Abb. 5 und SI Tabelle 1). Die Nukleotididentität und das Ka/Ks-Verhältnis unterscheiden sich deutlich, aber die Verteilungen sind breit und überschneiden sich erheblich. Die Indel-Dichte weist eine engere Verteilung auf: 97,3 % der gut untersuchten Gene, aber nur 2,8 % der zufälligen Kontrollen haben eine Indel-Dichte von <10 pro kb. Die schärfsten Unterschiede wurden jedoch bei zwei Maßzahlen gefunden, die die besondere Evolution von proteinkodierenden Genen widerspiegeln: die Leserahmenerhaltung (RFC) und die Codon-Substitutionshäufigkeit (CSF).

Leserahmenerhaltung.

Der RFC-Score spiegelt den Prozentsatz der Nukleotide (von 0 % bis 100 %) wider, deren Leserahmen artenübergreifend konserviert ist (SI Abb. 6). Der RFC-Score wird ermittelt, indem die menschliche Sequenz an ihrem speziesübergreifenden Ortholog ausgerichtet wird und der maximale Prozentsatz der Nukleotide mit konserviertem Leseraster über die drei möglichen Leseraster des Orthologs berechnet wird. Die Ergebnisse werden über gleitende Fenster von 100 Basen gemittelt, um die Ausbreitung lokaler Effekte aufgrund von Fehlern bei der Sequenzausrichtung und der Annotation der Gengrenzen zu begrenzen. Wir berechneten separate RFC-Scores sowohl für das Maus- als auch für das Hundegenom und konzentrierten uns auf einen gemeinsamen RFC-Score, der als der größere der beiden Scores definiert ist. Der RFC-Score wurde ursprünglich in unserer Arbeit an Hefe beschrieben, wurde aber angepasst, um dem häufigen Vorhandensein von Introns in der menschlichen Sequenz Rechnung zu tragen (siehe SI-Anhang).

Der RFC-Score zeigt praktisch keine Überschneidungen zwischen den gut untersuchten Genen und den zufälligen Kontrollen (SI-Abb. 5). Nur 1 % der Zufallskontrollen überschreiten den Schwellenwert von RFC >90, während 98,2 % der gut untersuchten Gene diesen Schwellenwert überschreiten. Ähnlich verhält es sich mit dem vollständigen Satz von 18 752 Genen mit artenübergreifenden Gegenstücken, wobei 97 % den Schwellenwert überschreiten (Abb. 2 a). Die RFC-Punktzahl ist bei sich schneller entwickelnden Genen etwas niedriger, aber die RFC-Verteilung selbst für die obersten 1 % der sich schnell entwickelnden Gene ist deutlich von den zufälligen Kontrollen getrennt (SI Abb. 5).

Kumulative Verteilungen des RFC-Scores. (Links) Menschliche Gene mit speziesübergreifenden Orthologen (blau) im Vergleich zu übereinstimmenden Zufallskontrollen (schwarz). (Rechts) Menschliche Waisen (rot) im Vergleich zu angepassten Zufallskontrollen (schwarz). Die RFC-Scores werden im Vergleich zu Maus und Hund zusammen (oben), Makaken (Mitte) und Schimpansen (unten) berechnet. In allen Fällen unterscheiden sich die Orthologe auffallend von den entsprechenden Zufallskontrollen, während die Waisen im Wesentlichen nicht von den entsprechenden Zufallskontrollen zu unterscheiden sind.

Die Waisen hingegen zeigen ein völlig anderes Bild. Sie sind im Wesentlichen nicht von den entsprechenden zufälligen Kontrollen zu unterscheiden (Abb. 2 b) und ähneln nicht einmal der sich am schnellsten entwickelnden Untergruppe der 18.572 Gene mit artenübergreifenden Entsprechungen. Kurz gesagt, die Gruppe der Waisen zeigt keinerlei Tendenz, den Leserahmen zu erhalten.

Codon-Substitutionshäufigkeit.

Der CSF-Score bietet einen ergänzenden Test für das Evolutionsmuster von proteinkodierenden Genen. Während der RFC-Score auf Indels basiert, beruht der CSF-Score auf den unterschiedlichen Mustern der Nukleotidsubstitution in proteincodierender und zufälliger DNA. Die kürzlich für die vergleichende Genomanalyse von Drosophila-Arten (11) entwickelte Methode berechnet einen Codon-Substitutionshäufigkeits-Score (CSF) auf der Grundlage von Alignments aus vielen Arten. Wir wendeten den CSF-Ansatz auf Alignments des Menschen mit neun Säugetierarten an, die aus Sequenzen mit hohem Deckungsgrad (≈7×) von Maus, Hund, Ratte, Kuh und Opossum und Sequenzen mit niedrigem Deckungsgrad (≈2×) von Kaninchen, Gürteltier, Elefant und Tenrec bestanden.

Die Ergebnisse zeigten erneut eine starke Differenzierung zwischen Genen mit artübergreifenden Gegenstücken und Waisen. Von den 16.210 Genen mit einfacher Orthologie ergaben 99,2 % GFK-Scores, die mit der erwarteten Evolution von proteinkodierenden Genen übereinstimmen. Im Gegensatz dazu gab es unter den 1.177 Waisen nur zwei Fälle, deren Codon-Evolutionsmuster auf ein gültiges Gen hindeuteten. Bei der Inspektion erwiesen sich diese beiden Fälle als eindeutige Fehler in der menschlichen Genannotation; durch die Übersetzung der Sequenz in einen anderen Rahmen können eindeutig speziesübergreifende Orthologe identifiziert werden.

Waisen repräsentieren keine proteincodierenden Gene.

Die obigen Ergebnisse stimmen damit überein, dass es sich bei den Waisen einfach um zufällige ORFs und nicht um gültige menschliche proteincodierende Gene handelt. Konsistenz ist jedoch kein Beweis. Vielmehr müssen wir die alternative Hypothese rigoros zurückweisen.

Angenommen, die Waisen stellen gültige menschliche proteinkodierende Gene dar, denen entsprechende ORFs in Maus und Hund fehlen. Die Waisen würden in zwei Klassen fallen: (i) einige könnten vor der Divergenz von Maus und Hund entstanden sein, d. h. es handelt sich um uralte Gene, die sowohl in der Maus als auch im Hund verloren gegangen sind, und (ii) einige könnten nach der Divergenz entstanden sein, d. h. es handelt sich um neue Gene, die in der Abstammungslinie entstanden sind, die zum Menschen führt. Wie können wir diese Möglichkeiten ausschließen? Unsere Lösung bestand darin, zwei verwandte Primaten zu untersuchen: Makaken und Schimpansen. Wir betrachten die Alternativen der Reihe nach.

  1. Angenommen, bei den Waisen handelt es sich um uralte Säugetiergene, die bei Hund und Maus verloren gingen, aber in der Abstammungslinie, die zum Menschen führt, erhalten geblieben sind. In diesem Fall wären sie in Makaken und Schimpansen immer noch vorhanden und funktionsfähig, außer in dem unwahrscheinlichen Fall, dass sie auch in der Makaken- und Schimpansenlinie unabhängig voneinander verloren gegangen sind.

  2. Angenommen, die Waisen sind neue Gene, die in der Linie, die zum Menschen führt, nach der Divergenz von Hund und Maus entstanden sind. Unter der Annahme, dass die Entstehung neuer Gene ein stetiger Prozess ist, sollten die Geburtsdaten über diesen Zeitraum verteilt sein. In diesem Fall liegen die meisten Geburtsdaten vor der Divergenz vom Makaken (≈30 Mya) und fast alle vor der Divergenz vom Schimpansen (≈6 Mya) (12).

In beiden Szenarien muss die überwiegende Mehrheit der Waisen funktionalen proteinkodierenden Genen im Makaken oder Schimpansen entsprechen.

Wir testeten daher anhand des RFC-Scores, ob die Waisen Anzeichen für eine proteinkodierende Erhaltung im Vergleich zu Makaken oder Schimpansen aufweisen. Auffallend ist, dass die Verteilung der RFC-Scores für die Waisen im Wesentlichen identisch ist mit der für die zufälligen Kontrollen (Abb. 2 d und f). Die Verteilung für die Waisen ähnelt nicht einmal der Verteilung für die obersten 1 % der sich am schnellsten entwickelnden Gene mit artenübergreifenden Gegenstücken (SI Abb. 7-9).

Die Gruppe der Waisen zeigt also keinerlei Anzeichen für die Erhaltung von Leserahmen, nicht einmal bei unseren nächsten Verwandten, den Primaten. (Es ist natürlich möglich, dass die Waisen einige gültige proteinkodierende Gene enthalten, aber der Anteil muss so gering sein, dass er keine erkennbare Auswirkung auf die gesamte RFC-Verteilung hat). Wir kommen zu dem Schluss, dass die überwiegende Mehrheit der Waisen nicht mit funktionellen proteinkodierenden Genen bei Makaken und Schimpansen übereinstimmt und daher weder auf Vorfahren noch auf neu entstandene Gene zurückzuführen ist.

Wenn die Waisen gültige menschliche proteinkodierende Gene darstellen, müssten wir zu dem Schluss kommen, dass die überwiegende Mehrheit der Waisen nach der Divergenz vom Schimpansen geboren wurde. Ein solches Modell würde eine enorme Rate an Gengeburten in den Säugetierlinien und eine ungeheure Rate an Gentod voraussetzen, der die riesige Anzahl von Genen auslöscht, die vor der Divergenz vom Schimpansen geboren wurden. Wir lehnen ein solches Modell als völlig unplausibel ab. Wir kommen daher zu dem Schluss, dass die überwiegende Mehrheit der Waisen einfach zufällig vorkommende ORFs sind, die keine proteinkodierenden Gene darstellen.

Abschließend stellen wir fest, dass die sorgfältige Filterung des menschlichen Genkatalogs für die obige Analyse von wesentlicher Bedeutung war, da sie Pseudogene und Artefakte eliminierte, die eine genaue Analyse der Eigenschaften der Waisen verhindert hätten.

Experimentelle Beweise für kodierte Proteine.

Als unabhängige Überprüfung unserer Schlussfolgerung haben wir die wissenschaftliche Literatur nach veröffentlichten Artikeln durchsucht, in denen die Waisen erwähnt werden, um festzustellen, ob es experimentelle Beweise für kodierte Proteine gibt. Während für die überwiegende Mehrheit der gut untersuchten Gene direkt nachgewiesen wurde, dass sie für ein Protein kodieren, fanden wir nur für 12 der 1.177 Waisen Artikel, die experimentelle Beweise für ein kodiertes Protein in vivo lieferten, und einige dieser Berichte sind zweideutig (SI Tabelle 2). Die experimentellen Nachweise stimmen also mit unserer Schlussfolgerung überein, dass die überwiegende Mehrheit der nicht konservierten ORFs nicht für Proteine kodiert ist. In den wenigen Fällen, in denen experimentelle Beweise existieren oder in der Zukunft gefunden werden, können die Gene von Fall zu Fall wieder in den Katalog aufgenommen werden.

Revising the Human Gene Catalogs.

Mit starken Beweisen, dass die überwiegende Mehrheit der Waisen keine proteinkodierenden Gene sind, ist es möglich, die menschlichen Genkataloge in einer prinzipiellen Weise zu überarbeiten.

Ensembl-Katalog.

Unsere Analyse des Ensembl-Katalogs (v35) zeigt, dass er 19.108 gültige proteinkodierende Gene auf den Chromosomen 1-22 und X innerhalb der aktuellen Genomzusammensetzung enthält. Die restlichen 15 % der Einträge werden als Retroposons, Artefakte oder Waisen ausgeschlossen. Zusammen mit dem mitochrondrialen Chromosom und dem Chromosom Y ergibt sich eine Gesamtzahl von 19.199.

Wir haben die Analyse auf den Ensembl-Katalog (v38) ausgeweitet, in dem 2.212 putative Gene hinzugefügt und viele frühere Einträge überarbeitet oder gelöscht wurden. Unsere Berechnungspipeline fand 598 zusätzliche gültige proteinkodierende Gene auf der Grundlage von speziesübergreifenden Gegenstücken, 1.135 Retroposons und 479 Waisen. Die RFC-Kurven für die Waisen stimmten wiederum gut mit den Erwartungen für Zufalls-DNA überein.

Andere Kataloge.

Wir haben den gleichen Ansatz auf den Vega- (v34) und den RefSeq-Katalog (März 2007) angewendet. Beide Kataloge enthalten einen beträchtlichen Anteil an Einträgen, bei denen es sich offenbar nicht um gültige proteinkodierende Gene handelt (16 % bzw. 10 %), da kein artübergreifendes Gegenstück vorhanden ist (siehe SI-Abbildung 10 und SI-Anhang). Wenn wir die RefSeq-Einträge auf diejenigen mit dem höchsten Vertrauen beschränken (mit dem Vorbehalt, dass dieser Satz viel weniger Gene enthält), scheint nur 1 % ungültig zu sein. Zusammen fügen diese beiden Kataloge weitere 673 proteinkodierende Gene hinzu.

Kombinierte Analyse.

Wenn man die Analyse der drei großen Genkataloge kombiniert, stellt man fest, dass nur 20.470 der 24.551 Einträge gültige proteinkodierende Gene zu sein scheinen.

Einschränkungen der Analyse.

Unsere Analyse der aktuellen Genkataloge hat bestimmte Einschränkungen, die beachtet werden sollten.

Erstens haben wir alle Pseudogene und Waisen ausgeschlossen. Wir fanden sechs gemeldete Fälle, in denen ein prozessiertes Pseudogen oder Transposon exaptiert wurde, um ein funktionsfähiges Gen zu erzeugen (SI-Tabellen 1 und 3), und 12 gemeldete Fälle von Waisen mit experimentellen Beweisen für ein kodiertes Protein. Diese 18 Fälle können ohne weiteres in den Katalog aufgenommen werden (womit sich die Zahl auf 20 488 erhöht). Es gibt weitere Fälle von potenziell funktionalen Retroposons, die in den aktuellen Genkatalogen nicht enthalten sind (15). Wenn sich herausstellt, dass sie Proteine produzieren, sollten sie ebenfalls aufgenommen werden.

Zweitens haben wir die 197 mutmaßlichen Gene nicht berücksichtigt, die in den „unmapped contigs“ liegen. Bei diesen Regionen handelt es sich um Sequenzen, die in der fertigen Zusammenstellung des menschlichen Genoms ausgelassen wurden. Sie bestehen größtenteils aus segmentalen Duplikationen, und die meisten der Gene sind anderen in der Assemblierung sehr ähnlich. Viele der Sequenzen könnten alternative Allele oder Fehlanordnungen des Genoms darstellen. Es ist jedoch bekannt, dass Regionen mit segmentaler Duplikation Kinderstuben evolutionärer Innovation sind (16) und möglicherweise einige gültige Gene enthalten. Sie verdienen besondere Aufmerksamkeit.

Drittens und am wichtigsten ist, dass die hier untersuchten nicht konservierten ORFs in der Regel in die aktuellen Genkataloge aufgenommen wurden, weil sie das Potenzial haben, für mindestens 100 Aminosäuren zu kodieren. Wir wissen daher nicht, ob unsere Schlussfolgerungen auch für viel kürzere ORFs gelten würden. Im Prinzip gibt es viele weitere proteinkodierende Gene, die für kurze Proteine kodieren, wie z. B. Peptidhormone, die in der Regel aus viel größeren Vorläufern übersetzt werden und sich schnell entwickeln können. Es sollte möglich sein, die Eigenschaften kleinerer ORFs zu untersuchen, indem weitere Säugetierarten als Maus und Hund verwendet werden.

Verbesserung der Genannotationen.

Im Laufe unserer Arbeit haben wir detaillierte grafische „Berichtskarten“ für jedes der 22.218 mutmaßlichen Gene in Ensembl (v35) erstellt. Die Berichtskarten zeigen die Genstruktur, Sequenzalignments, Maße der evolutionären Erhaltung und unsere endgültige Klassifizierung (Abb. 3).

Abb. 3.

Ein Beispiel für einen Genbericht für ein kleines Gen, HAMP, auf Chromosom 19. Berichtskarten für alle 22.218 mutmaßlichen Gene in Ensembl v35 sind verfügbar unter www.broad.mit.edu/mammals/alpheus. Die Berichtskarten bieten einen visuellen Rahmen für die Untersuchung der artenübergreifenden Erhaltung und für das Aufspüren möglicher Probleme in der menschlichen Genannotation. Die Informationen am oberen Rand zeigen die chromosomale Position, alternative Bezeichner und zusammenfassende Informationen wie Länge, Anzahl der Exons und Wiederholungsgehalt. Darunter befinden sich verschiedene grafische Darstellungen des Alignments des menschlichen Gens mit den Genomen von Maus und Hund. „Synteny“ zeigt das groß angelegte Alignment der genomischen Sequenz, wobei sowohl alignierte als auch nicht alignierte Segmente angezeigt werden. Die menschliche Sequenz ist mit den Exons in Weiß und der repetitiven Sequenz in Dunkelgrau annotiert. „Alignment detail“ zeigt das komplette DNA-Sequenz-Alignment und das Protein-Alignment. Im DNA-Alignment ist die menschliche Sequenz oben angegeben, die Basen der anderen Spezies sind als übereinstimmend (hellgrau) oder nicht übereinstimmend (dunkelgrau) markiert, Exon-Grenzen sind durch vertikale Linien gekennzeichnet, Indels sind durch kleine Dreiecke über der Sequenz markiert (Scheitelpunkt nach unten für Insertionen, Scheitelpunkt nach oben für Deletionen, die Zahl gibt die Länge in Basen an), das annotierte Startcodon ist grün und das annotierte Stoppcodon ist violett. Beim Protein-Alignment steht die menschliche Aminosäuresequenz oben, und die Sequenzen der anderen Arten sind als übereinstimmend (hellgrau), ähnlich (rosa) oder nicht übereinstimmend (rot) gekennzeichnet. Das „Frame Alignment“ zeigt die Verteilung der Nukleotidfehlanpassungen, die an jeder Codonposition gefunden wurden, wobei an der dritten Position ein Überschuss an Mutationen erwartet wird. Übereinstimmende Nukleotidfehlpaarungen sind hellgrau, Fehlpaarungen dunkelgrau dargestellt. „Indels, Starts und Stopps“ gibt einen Überblick über die wichtigsten Ereignisse. Indels sind durch Dreiecke gekennzeichnet (Scheitelpunkt nach unten für Insertionen, Scheitelpunkt nach oben für Deletionen) und als frameshifting (rot) oder frame-preserving (grau) gekennzeichnet. Startcodons sind grün und Stoppcodons lila markiert. „Spleißstellen“ zeigt die Sequenzerhaltung um Spleißstellen herum, wobei Donor- und Akzeptorstellen mit zwei Basen grau hervorgehoben und nicht übereinstimmende Basen rot markiert sind. Unter „Zusammenfassende Daten“ sind verschiedene Erhaltungsstatistiken im Vergleich zu Maus und Hund aufgeführt, einschließlich RFC-Score, Nukleotididentität, Anzahl der konservierten Spleißstellen, Frameshifting- und Nonframeshifting-Indel-Dichte/kb und Gen-Nachbarschaft. Die Gennachbarschaft zeigt einen Punkt für die drei stromaufwärts und stromabwärts gelegenen Gene, der grau eingefärbt ist, wenn die Syntenie erhalten ist, und andernfalls rot.

Die Berichtskarten sind wertvoll für die Untersuchung der Genevolution und für die Verfeinerung der Genannotation. Durch die Untersuchung lokaler Anomalien im artenübergreifenden Vergleich haben wir 23 eindeutige Fehler in der Genannotation identifiziert (einschließlich Fällen, in denen die Änderung des Leserasters oder des kodierenden Strangs eindeutige artenübergreifende Orthologe ergibt) und 332 Fälle, in denen die artenübergreifende Erhaltung eine Änderung des Start- oder Stoppcodons, die Eliminierung eines internen Exons oder die Verlagerung einer Spleißstelle nahelegt. Bei den letztgenannten Fällen handelt es sich wahrscheinlich um Fehler in der Annotation des menschlichen Gens, obwohl einige auch echte artenübergreifende Unterschiede darstellen können. Die Berichtskarten sind zusammen mit Suchwerkzeugen und zusammenfassenden Tabellen unter www.broad.mit.edu/mammals/alpheus verfügbar.

Similar Posts

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht.