Att särskilja proteinkodande och icke-kodande gener i det mänskliga genomet

Resultat
Identifiera föräldralösa gener.
Klass 2: Gener med artöverskridande paraloger.
Klass 3: Gener med enbart mänskliga paraloger.
Klass 4: Gener med Pfam-domäner.
Klass 5: Föräldralösa.
Karaktärisering av de föräldralösa.
ORF-längder.
Konserveringsegenskaper.
Läsningsramens bevarande.
Codon substitutionsfrekvens.
Orphans Do Not Represent Protein-Coding Genes.
Experimentella bevis för kodade proteiner.
Revising the Human Gene Catalogs.
Ensembl-katalog.
Andra kataloger.
Kombinerad analys.
Begränsningar av analysen.
Improving Gene Annotations.

Resultat

Identifiera föräldralösa gener.

Vår analys kräver att man studerar egenskaperna hos mänskliga ORF:er som saknar motsvarigheter mellan olika arter, som vi kallar ”föräldralösa gener”. En sådan studie kräver noggrann filtrering av de mänskliga genkatalogerna, för att identifiera gener med motsvarigheter och för att eliminera ett stort antal artefakter som skulle störa analysen av de föräldralösa. Av denna anledning genomförde vi en grundlig omanalys av de mänskliga genkatalogerna.

Vi fokuserade på Ensembl-katalogen (version 35), som listar 22 218 proteinkodande gener med totalt 239 250 exoner. I vår analys beaktades endast de 21 895 generna i referenssekvensen för det mänskliga genomet för kromosomerna 1-22 och X. (Vi utelämnade alltså mitokondriekromosomen, kromosom Y och ”unplaced contigs”, som innebär särskilda överväganden; se nedan.)

Vi utvecklade ett beräkningsprotokoll genom vilket de förmodade generna klassificeras utifrån en jämförelse med genomet för människor, möss och hundar (fig. 1; se Material och metoder). Musens och hundens genom användes eftersom genomsekvenser av hög kvalitet finns tillgängliga (7, 8) och omfattningen av sekvensdivergens är väl lämpad för genidentifiering. Nukleotissubstitutionsfrekvensen i förhållande till människa är ≈0,50 per bas för mus och ≈0,35 för hund, med insättning och deletion (indel) som sker med en frekvens som är ≈10 gånger lägre (8, 9). Dessa frekvenser är tillräckligt låga för att möjliggöra tillförlitlig sekvensanpassning men tillräckligt höga för att avslöja de olika mutationsmönster som förväntas i kodande och icke-kodande regioner.

Klass 2: Gener med artöverskridande paraloger.

Pipelinen identifierade sedan 155 fall av förmodade mänskliga gener som har en paralog i det mänskliga genomet, som i sin tur har en ortolog i mus eller hund. Dessa gener representerar till stor del icke-lokala duplikationer i den mänskliga släkten (tre fjärdedelar ligger i segmentala duplikationer) eller möjligen genförluster i de andra släkterna. Bland dessa gener avslöjade en noggrann granskning åtta fall där en liten förändring av den mänskliga annotationen gjorde det möjligt att identifiera en tydlig mänsklig ortolog.

Klass 3: Gener med enbart mänskliga paraloger.

Pipelinen identifierade 68 fall av förmodade mänskliga gener som har en eller flera paraloger inom den mänskliga arvsmassan, men där ingen av dessa paraloger har ortologer i mus eller hund. Vid närmare granskning eliminerades 17 fall som ytterligare retroposoner eller andra artefakter (se SI Appendix ). De återstående 51 fallen verkar vara giltiga gener, där 15 tillhör tre kända familjer av primatspecifika gener (DUF1220-, NPIP- och CDRT15-familjerna) och de övriga förekommer i mindre paraloga grupper (två till åtta medlemmar) som också kan representera primatspecifika familjer.

Klass 4: Gener med Pfam-domäner.

Pipelinen identifierade 97 fall av presumtiva gener med homologi till en känd proteindomän i Pfamsam-samlingen (10). Vid närmare granskning eliminerades 21 fall som ytterligare retroposoner eller andra artefakter (se SI Appendix ) och 40 fall där en liten ändring av den mänskliga annotationen gjorde det möjligt att identifiera en tydlig mänsklig ortolog. De återstående 36 generna verkar vara giltiga gener, där 10 innehåller kända primatspecifika domäner och 26 innehåller domäner som är gemensamma för många arter.

Klass 5: Föräldralösa.

Totalt 1 285 putativa gener återstod efter ovanstående förfarande. Vid närmare granskning identifierades 40 fall som var tydliga artefakter (långa tandemrepetitioner som råkar sakna ett stoppkodon) och 68 fall där en ortolog över artgränserna kunde tilldelas efter en korrigering av en liten ändring i annoteringen av den mänskliga genen. De återstående 1 177 fallen förklarades vara föräldralösa, eftersom de saknar ortologi, paralogi eller homologi till kända gener och inte är uppenbara artefakter. Vi noterar att den noggranna granskningen av generna var avgörande för att få en ”ren” uppsättning föräldralösa för efterföljande analys.

Karaktärisering av de föräldralösa.

Vi karaktäriserade egenskaperna hos de föräldralösa för att se om de liknar de egenskaper som ses för proteinkodande gener eller som förväntas för randoms ORF:er som uppstår i icke-kodande transkriptioner.

ORF-längder.

De föräldralösa har ett GC-innehåll på 55 %, vilket är mycket högre än genomsnittet för det mänskliga genomet (39 %) och liknar det som ses i proteinkodande gener med motsvarigheter mellan olika arter (53 %). Den höga GC-innehållet återspeglar de föräldralösa barnens tendens att förekomma i genrika regioner.

Vi undersökte de föräldralösa barnens ORF-längder i förhållande till deras GC-innehåll. De föräldralösa har relativt små ORF:er (median = 393 bp), och fördelningen av ORF-längder liknar i hög grad den matematiska förväntan för den längsta ORF som slumpmässigt skulle uppstå i ett transkript som härstammar från mänskligt genomiskt DNA med det observerade GC-innehållet (SI Fig. 4).

Konserveringsegenskaper.

Vi fokuserade sedan på konserveringsegenskaper över artgränserna. För att bedöma känsligheten hos olika mått undersökte vi en uppsättning av 5 985 ”välstuderade” gener som definierades genom kriteriet att de diskuteras i mer än fem publicerade artiklar. För varje välstuderad gen valde vi en matchad slumpmässig kontrollsekvens från det mänskliga genomet, som har ett liknande antal ”exoner” med liknande längder, en liknande andel upprepade sekvenser och en liknande andel av anpassningar över artgränserna, men som inte överlappar med några förmodade gener.

De välstuderade generna och de matchade slumpmässiga kontrollerna skiljer sig åt med avseende på alla undersökta bevarandeegenskaper (SI Fig. 5 och SI Tabell 1). Nukleotididentiteten och Ka/Ks-förhållandet skiljer sig tydligt åt, men fördelningarna är breda och har betydande överlappning. Indeltätheten har en snävare fördelning: 97,3 % av de välstuderade generna, men endast 2,8 % av de slumpmässiga kontrollerna, har en indeltäthet på <10 per kb. De skarpaste skillnaderna hittades dock för två mått som återspeglar den distinkta evolutionen av proteinkodande gener: RFC-poängen (Reading Frame Conservation) och CSF-poängen (Codon Substitution Frequency).

Läsningsramens bevarande.

RFC-poängen återspeglar procentandelen nukleotider (från 0 % till 100 %) vars läsramar är bevarade mellan olika arter (SI fig. 6). RFC-poängen bestäms genom att anpassa den mänskliga sekvensen till dess ortolog över artgränserna och beräkna den maximala procentandelen nukleotider med bevarad läsram över de tre möjliga läsramarna för ortologen. Resultaten medelvärdesbildas över glidande fönster på 100 baser för att begränsa spridningen av lokala effekter på grund av fel i sekvensanpassningen och annoteringen av gengränserna. Vi beräknade separata RFC-poäng i förhållande till både mus- och hundgenomerna och fokuserade på en gemensam RFC-poäng, definierad som den största av två poängen. RFC-poängen beskrevs ursprungligen i vårt arbete med jäst, men har anpassats för att ta hänsyn till den frekventa förekomsten av introner i mänsklig sekvens (se SI Appendix ).

RFC-poängen visar praktiskt taget ingen överlappning mellan de välstuderade generna och de slumpmässiga kontrollerna (SI Fig. 5). Endast 1 % av de slumpmässiga kontrollerna överskrider tröskelvärdet för RFC >90, medan 98,2 % av de välstuderade generna överskrider detta tröskelvärde. Situationen är liknande för hela uppsättningen av 18 752 gener med artöverskridande motsvarigheter, där 97 % överskrider tröskelvärdet (fig. 2 a). RFC-poängen är något lägre för gener som utvecklas snabbare, men RFC-fördelningen för till och med den översta 1 % av de snabbt utvecklande generna är skarpt åtskild från de slumpmässiga kontrollerna (SI Fig. 5).

Fig. 2.

Kumulativa fördelningar av RFC-poäng. (Vänster) Mänskliga gener med artöverskridande ortologer (blått) jämfört med matchade slumpmässiga kontroller (svart). (Höger) Människans föräldralösa gener (röd) jämfört med matchade slumpmässiga kontroller (svart). RFC-poäng beräknas i förhållande till mus och hund tillsammans (överst), makak (mitten) och schimpans (nederst). I alla fall skiljer sig ortologerna påfallande mycket från sina matchade slumpmässiga kontroller, medan de föräldralösa barnen i princip inte går att skilja från sina matchade slumpmässiga kontroller.

Däremot visar de föräldralösa barnen en helt annan bild. De är i huvudsak omöjliga att skilja från matchade slumpmässiga kontroller (fig. 2 b) och liknar inte ens den snabbast utvecklande delmängden av de 18 572 generna med motsvarigheter över artgränserna. Kort sagt visar uppsättningen av föräldralösa gener ingen som helst tendens att bevara läsramen.

Codon substitutionsfrekvens.

S CSF-poängen ger ett kompletterande test av för det evolutionära mönstret hos proteinkodande gener. Medan RFC-poängen baseras på indels, baseras CSF-poängen på de olika mönster av nukleotissubstitution som ses i proteinkodande gener jämfört med slumpmässigt DNA. Metoden har nyligen utvecklats för jämförande genomisk analys av Drosophila-arter (11) och beräknar en kodonsubstitutionsfrekvens (CSF-poäng) på grundval av anpassningar mellan många arter. Vi tillämpade CSF-metoden på anpassningar av människan till nio däggdjursarter, bestående av sekvenser med hög täckning (≈7×) från mus, hund, råtta, ko och opossum och sekvenser med låg täckning (≈2×) från kanin, bältdjur, elefant och tenrec.

Resultaten visade återigen på en stark differentiering mellan gener med motsvarigheter över artgränserna och föräldralösa gener. Bland 16 210 gener med enkel ortologi gav 99,2 % CSF-poäng som överensstämde med den förväntade utvecklingen av proteinkodande gener. Däremot omfattar de 1 177 föräldralösa endast två fall vars kodonutvecklingsmönster visade på en giltig gen. Vid inspektion var dessa två fall tydliga fel i annoteringen av den mänskliga genen; genom att översätta sekvensen i en annan ram kan en tydlig ortolog över artgränserna identifieras.

Orphans Do Not Represent Protein-Coding Genes.

Resultaten ovan stämmer överens med att de föräldralösa är helt enkelt slumpmässiga ORF:er, snarare än giltiga mänskliga proteinkodande gener. Konsekvens utgör dock inte ett bevis. I stället måste vi rigoröst förkasta den alternativa hypotesen.

Antag att de föräldralösa barnen representerar giltiga mänskliga proteinkodande gener som saknar motsvarande ORF:er i mus och hund. De föräldralösa generna skulle falla in i två klasser: (i) vissa kan vara äldre än divergensen från mus och hund – det vill säga de är förfäders gener som försvann i både mus och hund, och (ii) vissa kan vara äldre än divergensen – det vill säga de är nya gener som uppstod i den släktlinje som leder till människan. Hur kan vi utesluta dessa möjligheter? Vår lösning var att studera två släktingar till primater: makaken och schimpansen. Vi betraktar alternativen i tur och ordning.

Antag att de föräldralösa är förfäders däggdjursgener som gick förlorade hos hund och mus men som bibehålls i den släktlinje som leder till människan. I så fall skulle de fortfarande finnas kvar och vara funktionella i makaker och schimpanser, utom i den osannolika händelsen att de också genomgått oberoende förlusthändelser i både makaker- och schimpanselinjer.
Antag att de föräldralösa djurslagen är nya gener som uppstod i linjen som leder till människan, efter att de divergerat från hund och mus . Om man antar att genereringen av nya gener är en jämn process bör födelsedatumen fördelas över denna period. Om så är fallet kommer de flesta av födelsedatumen att föregå divergensen från makaken (≈30 Mya) och nästan alla kommer att föregå divergensen från schimpansen (≈6 Mya) (12).

Med något av ovanstående scenarier måste den stora majoriteten av de föräldralösa barnen motsvara funktionella proteinkodande gener i makaken eller schimpansen.

Vi testade därför med hjälp av RFC-poängen om de föräldralösa visar några tecken på bevarande av proteinkodande gener i förhållande till antingen makaken eller schimpansen. Påfallande nog är fördelningen av RFC-poängen för de föräldralösa i stort sett identisk med fördelningen för de slumpmässiga kontrollerna (fig. 2 d och f). Fördelningen för de föräldralösa barnen liknar inte ens den som ses för den översta 1 % av de snabbast utvecklande generna med motsvarigheter över artgränserna (SI fig. 7-9).

Satsen av föräldralösa barn visar alltså inga som helst bevis för att läsramar bevaras, inte ens hos våra närmsta släktingar till primater. (Det är förstås möjligt att de föräldralösa innehåller några giltiga proteinkodande gener, men andelen måste vara så liten att den inte har någon märkbar effekt på den totala RFC-fördelningen). Vi drar slutsatsen att den stora majoriteten av de föräldralösa generna inte motsvarar funktionella proteinkodande gener i makaker och schimpanser, och att de därför varken är förfäders gener eller nyuppkomna gener.

Om de föräldralösa generna representerar giltiga mänskliga proteinkodande gener måste vi dra slutsatsen att den stora majoriteten av de föräldralösa generna föddes efter divergensen från schimpansen. En sådan modell skulle kräva att det i däggdjurslinjerna föds en enorm hastighet av gener och en våldsam hastighet av gendöd som raderar det enorma antalet gener som föddes före divergensen från schimpanserna. Vi förkastar en sådan modell som helt osannolik. Vi drar därför slutsatsen att den stora majoriteten av de föräldralösa är helt enkelt slumpmässigt förekommande ORF:er som inte representerar proteinkodande gener.

Slutligt noterar vi att den noggranna filtreringen av den mänskliga genkatalogen ovan var väsentlig för analysen ovan, eftersom den eliminerade pseudogener och artefakter som skulle ha förhindrat en noggrann analys av de föräldralösa genernas egenskaper.

Experimentella bevis för kodade proteiner.

Som en oberoende kontroll av vår slutsats granskade vi den vetenskapliga litteraturen efter publicerade artiklar som nämnde de föräldralösa för att avgöra om det fanns experimentella bevis för kodade proteiner. Medan den stora majoriteten av de välstuderade generna direkt har visat sig koda för ett protein, hittade vi artiklar som rapporterade experimentella bevis för ett kodat protein in vivo för endast 12 av 1 177 föräldralösa, och en del av dessa rapporter är tvetydiga (SI Tabell 2). De experimentella bevisen är således förenliga med vår slutsats att den stora majoriteten av icke-konserverade ORF:er inte är proteinkodande. I den handfull fall där experimentella bevis finns eller kommer att hittas i framtiden kan generna återföras till katalogen från fall till fall.

Revising the Human Gene Catalogs.

Med starka bevis för att den stora majoriteten av de föräldralösa generna inte är proteinkodande gener är det möjligt att revidera de mänskliga genkatalogerna på ett principiellt sätt.

Ensembl-katalog.

Vår analys av Ensembl-katalogen (v35) visar att den innehåller 19 108 giltiga proteinkodande gener på kromosomerna 1-22 och X inom den nuvarande genomsammansättningen. De återstående 15 % av posterna elimineras som retroposoner, artefakter eller föräldralösa. Tillsammans med mitokrondrialkromosomen och kromosom Y uppgår totalen till 19 199.

Vi utvidgade analysen till Ensembl-katalogen (v38), i vilken 2 212 putativa gener lades till och många tidigare poster reviderades eller raderades. Vår beräkningspipeline hittade 598 ytterligare giltiga proteinkodande gener baserade på motsvarigheter mellan olika arter, 1 135 retroposoner och 479 föräldralösa gener. RFC-kurvorna för de föräldralösa organismerna överensstämde återigen nära med förväntningarna för slumpmässigt DNA.

Andra kataloger.

Vi tillämpade samma tillvägagångssätt på katalogerna Vega (v34) och RefSeq (mars 2007). Båda katalogerna innehåller en betydande andel poster som inte verkar vara giltiga proteinkodande gener (16 % respektive 10 %), baserat på avsaknaden av en artöverskridande motsvarighet (se SI Fig. 10 och SI Appendix ). Om vi begränsar RefSeq-posterna till de poster som har den högsta konfidensen (med reservation för att denna uppsättning innehåller mycket färre gener) verkar endast 1 % vara ogiltiga. Tillsammans lägger dessa två kataloger till ytterligare 673 proteinkodande gener.

Kombinerad analys.

Kombinerar vi analysen av de tre stora genkatalogerna finner vi att endast 20 470 av de 24 551 posterna verkar vara giltiga proteinkodande gener.

Begränsningar av analysen.

Vår analys av de nuvarande genkatalogerna har vissa begränsningar som bör noteras.

För det första har vi eliminerat alla pseudogener och föräldralösa gener. Vi fann sex rapporterade fall där en bearbetad pseudogen eller transposon genomgick exaptation för att producera en funktionell gen (SI tabellerna 1 och 3) och 12 rapporterade fall av föräldralösa med experimentella bevis för ett kodat protein. Dessa 18 fall kan lätt återställas i katalogen (vilket ökar antalet till 20 488). Det finns ytterligare fall av potentiellt funktionella retroposoner som inte finns med i de nuvarande genkatalogerna (15). Om några av dem visar sig producera protein bör de också tas med.

För det andra har vi inte tagit hänsyn till de 197 förmodade gener som ligger i ”unmapped contigs”. Dessa regioner är sekvenser som utelämnades från den färdiga sammansättningen av det mänskliga genomet. De består till stor del av segmentala duplikationer, och de flesta av generna är mycket lika andra gener i sammanställningen. Många av sekvenserna kan representera alternativa alleler eller felaktiga sammansättningar av genomet. Områden med segmentala duplikationer är dock kända för att vara barnkammare för evolutionär innovation (16) och kan innehålla vissa giltiga gener. De förtjänar fokuserad uppmärksamhet.

För det tredje och viktigast är att de icke-konserverade ORF:er som studerats här vanligtvis ingick i nuvarande genkataloger eftersom de har potential att koda för minst 100 aminosyror. Vi vet därför inte om våra slutsatser skulle gälla för mycket kortare ORF:er. I princip finns det många ytterligare proteinkodande gener som kodar för korta proteiner, t.ex. peptidhormoner, som vanligtvis översätts från mycket större prekursorer och kan utvecklas snabbt. Det borde vara möjligt att undersöka egenskaperna hos mindre ORF:er genom att använda ytterligare däggdjursarter utöver mus och hund.

Improving Gene Annotations.

I samband med vårt arbete genererade vi detaljerade grafiska ”rapportkort” för var och en av de 22 218 förmodade generna i Ensembl (v35). Rapportkorten visar genens struktur, sekvensanpassningar, mått på evolutionärt bevarande och vår slutliga klassificering (fig. 3).

Fig. 3.

Ett exempel på genrapportkort för en liten gen, HAMP, på kromosom 19. Rapportkort för alla 22 218 förmodade gener i Ensembl v35 finns tillgängliga på www.broad.mit.edu/mammals/alpheus. Rapportkorten ger en visuell ram för att studera bevarandet mellan olika arter och för att upptäcka eventuella problem i annoteringen av mänskliga gener. Informationen längst upp visar kromosomalt läge, alternativa identifierare och sammanfattande information, t.ex. längd, antal exoner och repetitionsinnehåll. Olika paneler nedanför ger grafiska vyer av anpassningen av den mänskliga genen till musens och hundens genom. ”Synteny” visar den storskaliga anpassningen av den genomiska sekvensen, med angivande av både anpassade och oanpassade segment. Den mänskliga sekvensen är annoterad med exoner i vitt och repetitiva sekvenser i mörkgrått. ”Alignment detail” visar den fullständiga DNA-sekvensanpassningen och proteinanpassningen. I DNA-justeringen anges den mänskliga sekvensen överst, baser i de andra arterna markeras som matchande (ljusgrå) eller icke-matchande (mörkgrå), exongränser markeras med vertikala linjer, indels markeras med små trianglar ovanför sekvensen (vertex nedåt för insättningar, vertex uppåt för borttagningar, siffran anger längden i baser), den kommenterade startkoden är i grönt och den kommenterade stoppkoden är i lila. I proteinanpassningen anges den mänskliga aminosyrasekvensen överst, och sekvenserna i de andra arterna är markerade som matchande (ljusgrå), liknande (rosa) eller icke-matchande (röd). ”Frame alignment” visar fördelningen av nukleotidmissmatchningar som hittats i varje kodonposition, med överskott av mutationer som förväntas i den tredje positionen. Matchningar visas i ljusgrått och missmatchningar i mörkgrått. ”Indels, starts and stops” ger en översikt över viktiga händelser. Indels indikeras av trianglar (vertex nedåt för insättningar, vertex uppåt för deletioner) och markeras som ramförskjutande (rött) eller rambevarande (grått). Startkodoner är markerade i grönt och stoppkodoner i lila. ”Splice sites” visar sekvensbevaringen kring splejsningsställen, med donator- och acceptatorställen med två baser markerade i grått och felmatchande baser markerade i rött. ”Summary data” listar olika bevarandestatistik i förhållande till mus och hund, inklusive RFC-poäng, nukleotididentitet, antal bevarade skarvplatser, ramförskjutande och icke ramförskjutande indel-täthet/kb, och gengrannskap. Gengrannskapet visar en prick för de tre generna uppströms och nedströms, som är färgad grå om synteny bevaras och röd annars.

Rapporteringskorten är värdefulla för att studera genernas utveckling och för att förfina genannotationen. Genom att undersöka lokala anomalier genom jämförelser mellan arter har vi identifierat 23 tydliga fel i genannoteringen (inklusive fall där ändring av läsramen eller kodningssträngen avslöjar otvetydiga ortologer över artgränserna) och 332 fall där bevarandet över artgränserna tyder på att man bör ändra start- eller stoppkodonet, eliminera ett internt exon eller flytta en skarvplats. Av de sistnämnda fallen är de flesta sannolikt fel i annoteringen av den mänskliga genen, även om vissa kan utgöra verkliga skillnader mellan olika arter. Rapporterna, tillsammans med sökverktyg och sammanfattande tabeller, finns tillgängliga på www.broad.mit.edu/mammals/alpheus.