Onderscheid tussen eiwitcoderende en niet-coderende genen in het menselijk genoom

author
15 minutes, 57 seconds Read

Results

Identifying Orphans.

Voor onze analyse moeten we de eigenschappen bestuderen van menselijke ORF’s die geen soortgenoten hebben, die we “orphans” noemen. Een dergelijke studie vereist een zorgvuldige filtering van de menselijke gencatalogi, om genen met tegenhangers te identificeren en een breed scala van artefacten te elimineren die de analyse van de orphans zouden verstoren. Daarom hebben wij de menselijke genencatalogi grondig opnieuw geanalyseerd.

Wij hebben ons geconcentreerd op de Ensembl-catalogus (versie 35), die 22.218 eiwit-coderende genen met in totaal 239.250 exonen bevat. Onze analyse beschouwde alleen de 21.895 genen op het menselijk genoom referentie-sequentie van chromosomen 1-22 en X. (We dus weggelaten het mitochondriale chromosoom, chromosoom Y, en “unplaced contigs,” die speciale overwegingen inhouden; zie hieronder.)

We ontwikkelden een computationeel protocol waarmee de putatieve genen worden geclassificeerd op basis van vergelijking met de menselijke, muis, en hond genomen (Fig. 1; zie Materialen en Methoden). De muis en hond genomen werden gebruikt, omdat hoge-kwaliteit genomische sequentie beschikbaar is (7, 8), en de mate van sequentie divergentie is zeer geschikt voor gen identificatie. De nucleotide substitutiesnelheid ten opzichte van de mens is ≈0,50 per base voor de muis en ≈0,35 voor de hond, met insertie en deletie (indel) gebeurtenissen die zich voordoen met een frequentie die ≈10-voudig lager (8, 9). Deze percentages zijn laag genoeg om een betrouwbare sequentie-uitlijning mogelijk te maken, maar hoog genoeg om de verwachte differentiële mutatiepatronen in coderende en niet-coderende regio’s aan het licht te brengen.

Klasse 2: Genen met soort-overschrijdende paralogen.

De pijplijn identificeerde vervolgens 155 gevallen van vermeende menselijke genen die een paraloog binnen het menselijk genoom hebben, dat op zijn beurt een ortholoog in muis of hond heeft. Deze genen vertegenwoordigen grotendeels niet-lokale duplicaties in de menselijke lineage (driekwart ligt in segmentale duplicaties) of mogelijk genverliezen in de andere lineages. Onder deze genen bracht nadere inspectie acht gevallen aan het licht waarin een kleine wijziging in de menselijke annotatie de identificatie van een duidelijk menselijk ortholoog mogelijk maakte.

Klasse 3: Genen met alleen menselijke paralogen.

De pijplijn identificeerde 68 gevallen van vermoedelijke menselijke genen die een of meer paralogen binnen het menselijk genoom hebben, maar waarbij geen van deze paralogen orthologen in muis of hond heeft. Nadere inspectie elimineerde 17 gevallen als extra retroposons of andere artefacten (zie SI Appendix ). De resterende 51 gevallen lijken geldige genen te zijn, waarbij 15 behoren tot drie bekende families van primaatspecifieke genen (DUF1220-, NPIP- en CDRT15-families) en de andere voorkomen in kleinere paraloge groepen (twee tot acht leden) die ook primaatspecifieke families kunnen vertegenwoordigen.

Klasse 4: Genen met Pfam-domeinen.

De pijplijn identificeerde 97 gevallen van vermeende genen met homologie naar een bekend eiwitdomein in de Pfam-collectie (10). Nauwkeurige inspectie elimineerde 21 gevallen als extra retroposons of andere artefacten (zie SI Appendix ) en 40 gevallen waarin een kleine wijziging in de menselijke annotatie de identificatie van een duidelijke menselijke ortholoog mogelijk maakte. De resterende 36 genen lijken geldige genen te zijn, waarbij 10 bekende primaat-specifieke domeinen bevatten en 26 domeinen die voor veel soorten gelden.

Klasse 5: Wezen.

Er bleven in totaal 1.285 vermoedelijke genen over na de bovenstaande procedure. Bij nadere inspectie werden 40 gevallen geïdentificeerd die duidelijke artefacten waren (lange tandem herhalingen die toevallig een stopcodon ontberen) en 68 gevallen waarin een soortoverschrijdende ortholoog kon worden toegewezen na een kleine correctie van de menselijke genannotatie. De overige 1.177 gevallen werden tot “orphans” verklaard, omdat ze geen orthologie, paralogie of homologie met bekende genen hebben en geen duidelijke artefacten zijn. We merken op dat de zorgvuldige herziening van de genen essentieel was voor het verkrijgen van een “schone” set van weeskinderen voor verdere analyse.

Karakteriseren van de Weeskinderen.

We karakteriseerden de eigenschappen van de weeskinderen om te zien of ze lijken op die gezien voor eiwit-coderende genen of verwacht voor randoms ORFs ontstaan in niet-coderende transcripten.

ORF-lengtes.

De orphans hebben een GC-gehalte van 55%, wat veel hoger is dan het gemiddelde voor het menselijk genoom (39%) en vergelijkbaar met dat gezien in eiwit-coderende genen met cross-species tegenhangers (53%). Het hoge GC-gehalte weerspiegelt de neiging van de wezen om in gen-rijke regio’s voor te komen.

We onderzochten de ORF-lengtes van de wezen, in verhouding tot hun GC-gehalte. De orphans hebben relatief kleine ORFs (mediaan = 393 bp), en de verdeling van ORF-lengtes komt sterk overeen met de wiskundige verwachting voor de langste ORF die bij toeval zou ontstaan in een transcript-afgeleid van menselijk genomisch DNA met het waargenomen GC-gehalte (SI Fig. 4).

Conservation properties.

We richtten ons vervolgens op cross-species conservation properties. Om de gevoeligheid van verschillende maten te beoordelen, onderzochten we een set van 5.985 “goed bestudeerde” genen, gedefinieerd door het criterium dat ze besproken worden in meer dan vijf gepubliceerde artikelen. Voor elk goed bestudeerd gen selecteerden we een gematchte willekeurige controle-sequentie uit het menselijk genoom, met een vergelijkbaar aantal “exonen” van vergelijkbare lengte, een vergelijkbaar aandeel herhaalde sequentie en een vergelijkbaar aandeel interspecies uitlijning, maar niet overlappend met enige putatieve genen.

De goed bestudeerde genen en gematchte willekeurige controles verschillen met betrekking tot alle bestudeerde behoudseigenschappen (SI Fig. 5 en SI Tabel 1). De nucleotide identiteit en Ka/Ks ratio verschillen duidelijk, maar de distributies zijn breed en vertonen aanzienlijke overlap. De indel dichtheid heeft een strakkere verdeling: 97.3% van de goed bestudeerde genen, maar slechts 2.8% van de willekeurige controles, hebben een indel dichtheid van <10 per kb. De scherpste verschillen werden echter gevonden voor twee maten die de kenmerkende evolutie van eiwit-coderende genen weerspiegelen: de reading frame conservation (RFC) score en de codon substitutie frequentie (CSF) score.

Reading frame conservation.

De RFC score weerspiegelt het percentage nucleotiden (variërend van 0% tot 100%) waarvan het leeskader tussen de soorten geconserveerd is (SI Fig. 6). De RFC-score wordt bepaald door de menselijke sequentie aan zijn soort-overschrijdende ortholoog uit te lijnen en het maximumpercentage nucleotiden met geconserveerd leesraam te berekenen, over de drie mogelijke leesramen voor de ortholoog. De resultaten worden gemiddeld over schuifvensters van 100 bases om de verspreiding van lokale effecten als gevolg van fouten in de sequentie-uitlijning en gen-grens annotatie te beperken. Wij berekenden afzonderlijke RFC-scores ten opzichte van de genomen van zowel de muis als de hond en concentreerden ons op een gezamenlijke RFC-score, gedefinieerd als de grootste van twee scores. De RFC score werd oorspronkelijk beschreven in ons werk op gist, maar is aangepast aan de frequente aanwezigheid van introns in de menselijke sequentie (zie SI Appendix ).

De RFC score toont vrijwel geen overlap tussen de goed bestudeerde genen en de willekeurige controles (SI Fig. 5). Slechts 1% van de willekeurige controles overschrijdt de drempel van RFC >90, terwijl 98,2% van de goed bestudeerde genen deze drempel overschrijdt. De situatie is vergelijkbaar voor de volledige reeks van 18.752 genen met soort-overschrijdende tegenhangers, waarbij 97% de drempel overschrijdt (Fig. 2 a). De RFC score is iets lager voor sneller evoluerende genen, maar de RFC verdeling voor zelfs de top 1% van snel evoluerende genen is sterk gescheiden van de willekeurige controles (SI Fig. 5).

Fig. 2.

Cumulatieve verdelingen van RFC score. (Links) Menselijke genen met soort-overschrijdende orthologs (blauw) versus gematchte willekeurige controles (zwart). (Rechts) Menselijke wezens (rood) versus gematchte willekeurige controles (zwart). De RFC-scores zijn berekend ten opzichte van muis en hond samen (boven), makaak (midden) en chimpansee (onder). In alle gevallen zijn de orthologs opvallend verschillend van hun gematchte willekeurige controles, terwijl de wezen in wezen niet te onderscheiden zijn van hun gematchte willekeurige controles.

De wezen daarentegen vertonen een heel ander beeld. Zij zijn in wezen niet te onderscheiden van de gematchte willekeurige controles (Fig. 2 b) en lijken zelfs niet op de snelst evoluerende subset van de 18.572 genen met soort-overschrijdende tegenhangers. Kortom, de set van wezen toont geen enkele neiging tot behoud van leesframe.

Codon substitutiefrequentie.

De CSF score biedt een aanvullende test van voor het evolutionaire patroon van eiwit-coderende genen. Terwijl de RFC score is gebaseerd op indels, is de CSF score gebaseerd op de verschillende patronen van nucleotide substitutie gezien in eiwit-coderende vs. willekeurige DNA. De methode, die onlangs werd ontwikkeld voor vergelijkende genomische analyse van Drosophila soorten (11), berekent een codon-substitutiefrequentie (CSF) score op basis van uitlijningen over vele soorten. We pasten de CSF-benadering toe op uitlijningen van de mens met negen zoogdiersoorten, bestaande uit sequentie met hoge dekking (≈7×) van muis, hond, rat, koe en opossum en sequentie met lage dekking (≈2×) van konijn, gordeldier, olifant en tenrec.

De resultaten toonden opnieuw sterke differentiatie tussen genen met soort-overschrijdende tegenhangers en wezen. Onder de 16.210 genen met eenvoudige orthologie, leverde 99,2% CSF-scores op die consistent waren met de verwachte evolutie van eiwit-coderende genen. Daarentegen bevatten de 1.177 weesgenen slechts twee gevallen waarvan het codon evolutie patroon wees op een geldig gen. Bij nader inzien waren deze twee gevallen duidelijke fouten in de menselijke genannotatie; door de sequentie in een ander frame te vertalen, kunnen duidelijk soort-overschrijdende orthologs worden geïdentificeerd.

Orphans Do Not Represent Protein-Coding Genes.

De bovenstaande resultaten zijn consistent met het feit dat de orphans gewoon willekeurige ORF’s zijn, in plaats van geldige menselijke eiwit-coderende genen. Maar consistentie is geen bewijs. In plaats daarvan moeten we de alternatieve hypothese rigoureus verwerpen.

Stel dat de wezen geldige menselijke eiwit-coderende genen vertegenwoordigen, die overeenkomstige ORFs in muis en hond ontberen. De wezen zouden in twee klassen vallen: (i) sommige dateren van vóór de divergentie van muis en hond – d.w.z. dat het voorouderlijke genen zijn die zowel bij de muis als bij de hond verloren zijn gegaan – en (ii) sommige dateren van na de divergentie – d.w.z. dat het nieuwe genen zijn die zijn ontstaan in de afstammingslijn die tot de mens heeft geleid. Hoe kunnen we deze mogelijkheden uitsluiten? Onze oplossing bestond erin twee verwante primaten te bestuderen: de makaak en de chimpansee. We bekijken de alternatieven achtereenvolgens.

  1. Stel dat de wezen voorouderlijke zoogdiergenen zijn die bij de hond en de muis verloren zijn gegaan, maar behouden zijn in de afstamming die tot de mens heeft geleid. Als dat zo is, zouden zij nog steeds aanwezig en functioneel zijn in makaak en chimpansee, behalve in het onwaarschijnlijke geval dat zij ook onafhankelijke verliesgebeurtenissen ondergingen in zowel makaak als chimpansee lineages.

  2. Vergonderstel dat de wezen nieuwe genen zijn die ontstonden in de lineage die leidde tot de mens, na de divergentie van hond en muis. Aangenomen dat de generatie van nieuwe genen een gestaag proces is, zouden de geboortedata over deze periode verdeeld moeten zijn. Als dat zo is, zullen de meeste geboortedata dateren van vóór de divergentie van makaak (≈30 Mya) en zullen bijna alle dateren van vóór de divergentie van chimpansee (≈6 Mya) (12).

In beide bovenstaande scenario’s moet de overgrote meerderheid van de wezen corresponderen met functionele eiwit-coderende genen in makaak of chimpansee.

Wij hebben daarom getest of de wezen enig bewijs vertonen van behoud van eiwitcodering ten opzichte van makaak of chimpansee, met behulp van de RFC score. Opvallend is dat de verdeling van RFC scores voor de wezen in wezen identiek is aan die voor de willekeurige controles (Fig. 2 d en f). De verdeling voor de wezen lijkt niet op die gezien zelfs voor de top 1% van de snelst evoluerende genen met soort-overschrijdende tegenhangers (SI Figs. 7-9).

De set van wezen toont dus geen enkel bewijs van lees-kader behoud, zelfs niet in onze naaste primaat verwanten. (Het is natuurlijk mogelijk dat de orphans een paar geldige eiwit-coderende genen bevatten, maar het aandeel moet klein genoeg zijn dat het geen merkbaar effect heeft op de totale RFC distributie). Wij concluderen dat de overgrote meerderheid van de weesgenen niet overeenkomt met functionele eiwit-coderende genen in makaak en chimpansee, en dus noch voorouderlijke noch nieuw ontstane genen zijn.

Als de wezen geldige menselijke eiwit-coderende genen vertegenwoordigen, zouden we moeten concluderen dat de overgrote meerderheid van de wezen geboren zijn na de divergentie van chimpansee. Zo’n model zou een enorm tempo van gengeboorte in zoogdierlijnen vereisen en een woest tempo van gensterfte, waardoor het enorme aantal genen geboren vóór de divergentie van de chimpansee zou worden uitgewist. Wij verwerpen een dergelijk model als volkomen onaannemelijk. Wij concluderen dus dat de overgrote meerderheid van de wezen gewoon willekeurig voorkomende ORF’s zijn die geen eiwit-coderende genen vertegenwoordigen.

Ten slotte merken wij op dat de zorgvuldige filtering van de menselijke genencatalogus hierboven essentieel was voor de analyse hierboven, omdat daardoor pseudogenen en artefacten werden geëlimineerd die een nauwkeurige analyse van de eigenschappen van de wezen in de weg zouden hebben gestaan.

Experimenteel bewijs van gecodeerde eiwitten.

Als een onafhankelijke controle op onze conclusie, hebben we de wetenschappelijke literatuur bekeken op gepubliceerde artikelen waarin de wezen worden genoemd, om te bepalen of er experimenteel bewijs was voor gecodeerde eiwitten. Terwijl van de overgrote meerderheid van de goed bestudeerde genen direct is aangetoond dat ze coderen voor een eiwit, vonden we slechts voor 12 van de 1.177 wezen artikelen die experimenteel bewijs leverden voor een gecodeerd eiwit in vivo, en sommige van deze rapporten zijn dubbelzinnig (SI Tabel 2). Het experimentele bewijsmateriaal is dus consistent met onze conclusie dat de overgrote meerderheid van niet-geconserveerde ORFs niet eiwit-coderend zijn. In de handvol gevallen waarin experimenteel bewijs bestaat of in de toekomst wordt gevonden, kunnen de genen van geval tot geval in de catalogus worden hersteld.

Herziening van de menselijke gencatalogi.

Met sterk bewijs dat de overgrote meerderheid van de ORF’s geen eiwit-coderende genen zijn, is het mogelijk om de menselijke gencatalogi op een principiële manier te herzien.

Ensembl catalogus.

Onze analyse van de Ensembl (v35) catalogus geeft aan dat deze 19.108 geldige eiwit-coderende genen bevat op chromosomen 1-22 en X binnen de huidige genoom-assemblage. De resterende 15% van de vermeldingen zijn geëlimineerd als retroposons, artefacten of wezen. Samen met het mitochrondriaal chromosoom en chromosoom Y , komt het totaal op 19.199.

We breidden de analyse uit naar de Ensembl (v38) catalogus, waarin 2.212 putatieve genen werden toegevoegd en veel eerdere vermeldingen werden herzien of verwijderd. Onze computationele pijplijn vond 598 extra geldige eiwit-coderende genen op basis van soort-overschrijdende tegenhangers, 1.135 retroposonen, en 479 weesgenen. De RFC-curven voor de orphans kwamen weer nauw overeen met de verwachting voor willekeurig DNA.

Andere catalogi.

We pasten dezelfde aanpak toe op de Vega (v34) en RefSeq (maart 2007) catalogus. Beide catalogi bevatten een substantieel deel ingangen die geen geldige eiwit-coderende genen lijken te zijn (16% en 10%, respectievelijk), gebaseerd op het ontbreken van een soort-overschrijdende tegenhanger (zie SI Fig. 10 en SI Appendix ). Als we de RefSeq vermeldingen beperken tot die met de hoogste betrouwbaarheid (met het voorbehoud dat deze reeks veel minder genen bevat), blijkt slechts 1% ongeldig. Samen voegen deze twee catalogi nog eens 673 eiwit-coderende genen toe.

Gecombineerde analyse.

Gecombineerde analyse van de drie belangrijkste gencatalogi, vinden we dat slechts 20.470 van de 24.551 vermeldingen geldige eiwit-coderende genen lijken te zijn.

Beperkingen van de analyse.

Onze analyse van de huidige gencatalogi heeft bepaalde beperkingen die moeten worden opgemerkt.

Vooreerst hebben we alle pseudogenen en wezen geëlimineerd. Wij vonden zes gerapporteerde gevallen waarin een verwerkt pseudogeen of transposon een exaptatie onderging om een functioneel gen te produceren (SI Tabellen 1 en 3) en 12 gerapporteerde gevallen van wezen met experimenteel bewijs voor een gecodeerd eiwit. Deze 18 gevallen kunnen gemakkelijk in de catalogus worden opgenomen (waardoor het aantal op 20.488 komt). Er zijn nog meer gevallen van potentieel functionele retroposons die niet in de huidige gencatalogi aanwezig zijn (15). Als blijkt dat deze eiwitten produceren, moeten ze ook worden opgenomen.

Ten tweede hebben we de 197 vermoedelijke genen die in de “unmapped contigs” liggen, buiten beschouwing gelaten. Deze regio’s zijn sequenties die in de voltooide assemblage van het menselijk genoom zijn weggelaten. Zij bestaan grotendeels uit segmentale duplicaties, en de meeste van de genen lijken sterk op andere in de assemblage. Veel van de sequenties kunnen alternatieve allelen of verkeerde assemblages van het genoom vertegenwoordigen. Maar van regio’s met segmentale duplicaties is bekend dat ze de kraamkamers van evolutionaire innovatie zijn (16) en mogelijk enkele geldige genen bevatten. Zij verdienen gerichte aandacht.

Derde en meest belangrijk, de hier bestudeerde niet-geconserveerde ORFs werden typisch opgenomen in de huidige gencatalogi omdat zij het potentieel hebben om ten minste 100 aminozuren te coderen. We weten dus niet of onze conclusies ook zouden gelden voor veel kortere ORFs. In principe bestaan er nog veel meer eiwitcoderende genen die coderen voor korte eiwitten, zoals peptidehormonen, die gewoonlijk vertaald worden uit veel grotere precursors en snel kunnen evolueren. Het zou mogelijk moeten zijn om de eigenschappen van kleinere ORFs te onderzoeken door gebruik te maken van andere zoogdiersoorten dan muis en hond.

Verbetering van Gen Annotaties.

In de loop van ons werk hebben we gedetailleerde grafische “report cards” gegenereerd voor elk van de 22.218 putatieve genen in Ensembl (v35). De rapportkaarten tonen de genstructuur, sequentie-uitlijningen, maten van evolutionair behoud, en onze uiteindelijke classificatie (Fig. 3).

Fig. 3.

Een voorbeeld van een gen-rapportkaart voor een klein gen, HAMP, op chromosoom 19. Rapportkaarten voor alle 22.218 putatieve genen in Ensembl v35 zijn beschikbaar op www.broad.mit.edu/mammals/alpheus. De rapportkaarten bieden een visueel kader voor het bestuderen van behoud tussen soorten en voor het opmerken van mogelijke problemen in de menselijke genannotatie. Informatie bovenaan toont de chromosomale locatie; alternatieve identificatoren; en samenvattende informatie, zoals lengte, aantal exonen, en herhaalde inhoud. Verschillende panelen hieronder geven grafische weergaven van de uitlijning van het menselijke gen aan de genomen van de muis en de hond. “Synteny” toont de grootschalige uitlijning van de genoomsequentie, met aanduiding van zowel uitgelijnde als niet uitgelijnde segmenten. De menselijke sequentie is geannoteerd met de exonen in het wit en de repetitieve sequentie in donkergrijs. “Alignment detail” toont de volledige DNA-sequentie-uitlijning en eiwituitlijning. In de DNA-uitlijning staat de menselijke sequentie bovenaan, basen in de andere soorten zijn gemarkeerd als overeenkomend (lichtgrijs) of niet-overeenkomend (donkergrijs), exon-grenzen zijn aangegeven met verticale lijnen, indels zijn aangegeven met kleine driehoekjes boven de sequentie (hoekpunt omlaag voor invoegingen, hoekpunt omhoog voor verwijderingen, het getal geeft de lengte in basen aan), het geannoteerde startcodon staat in het groen, en het geannoteerde stopcodon in het paars. In de eiwituitlijning staat de menselijke aminozuursequentie bovenaan, en de sequenties in de andere soorten zijn gemarkeerd als overeenkomend (lichtgrijs), gelijkend (roze), of niet-overeenkomend (rood). “Frame alignment” toont de verdeling van de gevonden nucleotide mismatches in elke codonpositie, met een verwachte overmaat aan mutaties in de derde positie. Matching wordt in lichtgrijs weergegeven, en mismatches in donkergrijs. “Indels, starts en stops” geeft een overzicht van de belangrijkste gebeurtenissen. Indels worden aangegeven met driehoeken (hoekpunt omlaag voor invoegingen, hoekpunt omhoog voor verwijderingen) en gemarkeerd als frameshifting (rood) of frame-preserving (grijs). Startcodons zijn gemarkeerd in groen en stopcodons in paars. “Splice sites” toont sequentiebehoud rond splice sites, met donor- en acceptor-plaatsen van twee basen gemarkeerd in grijs en mismatchende basen aangegeven in rood. “Samenvattende gegevens” toont verschillende behoudsstatistieken ten opzichte van muis en hond, waaronder RFC-score, nucleotide-identiteit, aantal geconserveerde splitsingsplaatsen, dichtheid van frameshifting en non-frameshifting indels/kb, en genbuurt. De genenbuurt toont een stip voor de drie stroomopwaartse en stroomafwaartse genen, die grijs gekleurd is als de syntenie bewaard is gebleven en anders rood.

De rapportkaarten zijn waardevol voor het bestuderen van genenevolutie en voor het verfijnen van genannotatie. Door lokale afwijkingen te onderzoeken door vergelijking tussen soorten, hebben wij 23 duidelijke fouten in de genannotatie geïdentificeerd (met inbegrip van gevallen waarin het veranderen van het leeskader of de coderende streng ondubbelzinnige orthologs tussen soorten aan het licht brengt) en 332 gevallen waarin behoud tussen soorten suggereert dat het start- of stopcodon veranderd is, een intern exon geëlimineerd is, of een splitsingsplaats verplaatst is. Van deze laatste gevallen zijn de meeste waarschijnlijk fouten in de menselijke genannotatie, hoewel sommige echte verschillen tussen de soorten kunnen vertegenwoordigen. De rapportkaarten, samen met zoekinstrumenten en samenvattende tabellen, zijn beschikbaar op www.broad.mit.edu/mammals/alpheus.

Similar Posts

Geef een antwoord

Het e-mailadres wordt niet gepubliceerd.