Adskillelse af protein-kodende og ikke-kodende gener i det menneskelige genom

Resultater
Identificering af forældreløse gener.
Klasse 2: Gener med paraloge på tværs af arter.
Klasse 3: Gener med kun menneskelige paraloge.
Klasse 4: Gener med Pfam-domæner.
Klasse 5: Forældreløse.
Karakterisering af de forældreløse.
ORF-længder.
Konserveringsegenskaber.
Læserammebevarelse.
Codon-substitutionsfrekvens.
Orphans Do Not Represent Protein-Coding Genes.
Eksperimentelt bevis for kodede proteiner.
Revision af de menneskelige genkataloger.
Ensembl-katalog.
Andre kataloger.
Kombineret analyse.
Begrænsninger i analysen.
Improving Gene Annotations.

Resultater

Identificering af forældreløse gener.

Vores analyse kræver undersøgelse af egenskaberne ved menneskelige ORF’er, der mangler modstykker på tværs af arter, som vi kalder “forældreløse gener”. En sådan undersøgelse kræver omhyggelig filtrering af de menneskelige genkataloger for at identificere gener med modstykker og for at fjerne en lang række artefakter, der ville forstyrre analysen af de forældreløse. Derfor foretog vi en grundig reanalyse af de menneskelige genkataloger.

Vi fokuserede på Ensembl-kataloget (version 35), som indeholder 22.218 protein-kodende gener med i alt 239.250 exoner. Vores analyse tog kun hensyn til de 21.895 gener på det menneskelige genoms referencesekvens af kromosomerne 1-22 og X. (Vi udelod således mitokondrialkromosomet, kromosom Y og “uplacerede kontigs”, som indebærer særlige overvejelser; se nedenfor.)

Vi udviklede en beregningsprotokol, hvormed de formodede gener klassificeres på grundlag af sammenligning med menneskets, musens og hundens genomer (fig. 1; se materialer og metoder). Musens og hundens genomer blev anvendt, fordi genomisk sekvens af høj kvalitet er tilgængelig (7, 8), og omfanget af sekvensdivergens er velegnet til genidentifikation. Nukleotid-substitutionsfrekvensen i forhold til mennesket er ≈0,50 pr. base for mus og ≈0,35 for hund, med insertion og deletion (indel) hændelser, der forekommer med en frekvens, der er ≈10 gange lavere (8, 9). Disse frekvenser er lave nok til at muliggøre pålidelig sekvenstilpasning, men høje nok til at afsløre de differentielle mutationsmønstre, der forventes i de kodende og ikke-kodende regioner.

Klasse 2: Gener med paraloge på tværs af arter.

Pipelinen identificerede derefter 155 tilfælde af formodede menneskelige gener, der har en paralog inden for det menneskelige genom, som igen har en ortolog i mus eller hund. Disse gener repræsenterer i vid udstrækning ikke-lokale duplikationer i den menneskelige slægt (tre fjerdedele ligger i segmentale duplikationer) eller muligvis tab af gener i de andre slægter. Blandt disse gener afslørede en nærmere undersøgelse otte tilfælde, hvor en lille ændring af den menneskelige annotation gjorde det muligt at identificere en klar menneskelig ortolog.

Klasse 3: Gener med kun menneskelige paraloge.

Pipelinen identificerede 68 tilfælde af formodede menneskelige gener, som har en eller flere paraloge inden for det menneskelige genom, men hvor ingen af disse paraloge har ortologer i mus eller hund. Ved nærmere inspektion blev 17 tilfælde elimineret som yderligere retroposoner eller andre artefakter (se SI Appendix ). De resterende 51 tilfælde ser ud til at være gyldige gener, idet 15 tilhører tre kendte familier af primatspecifikke gener (DUF1220-, NPIP- og CDRT15-familier), og de øvrige forekommer i mindre paraloge grupper (to til otte medlemmer), der også kan repræsentere primatspecifikke familier.

Klasse 4: Gener med Pfam-domæner.

Pipelinen identificerede 97 tilfælde af formodede gener med homologi til et kendt proteindomæne i Pfam-samlingen (10). Nærmere inspektion eliminerede 21 tilfælde som yderligere retroposoner eller andre artefakter (se SI Appendix ) og 40 tilfælde, hvor en lille ændring af den menneskelige annotation gjorde det muligt at identificere en klar menneskelig ortolog. De resterende 36 gener synes at være gyldige gener, hvoraf 10 indeholder kendte primatspecifikke domæner og 26 indeholder domæner, der er fælles for mange arter.

Klasse 5: Forældreløse.

I alt var der 1 285 formodede gener tilbage efter ovenstående procedure. Ved nærmere inspektion blev der identificeret 40 tilfælde, der var klare artefakter (lange tandemrepeats, der tilfældigvis mangler et stopkodon), og 68 tilfælde, hvor en ortolog på tværs af arterne kunne tildeles efter en lille ændringskorrektion til annotationen af det menneskelige gen. De resterende 1 177 tilfælde blev erklæret for at være forældreløse, fordi de mangler ortologi, paralogi eller homologi til kendte gener og ikke er åbenlyse artefakter. Vi bemærker, at den omhyggelige gennemgang af generne var afgørende for at opnå et “rent” sæt af forældreløse til efterfølgende analyse.

Karakterisering af de forældreløse.

Vi karakteriserede egenskaberne ved de forældreløse for at se, om de ligner dem, der ses for proteinkodende gener eller forventes for randoms ORF’er, der opstår i ikke-kodende transskriptioner.

ORF-længder.

De forældreløse har et GC-indhold på 55%, hvilket er meget højere end gennemsnittet for det menneskelige genom (39%) og svarer til det, der ses i protein-kodende gener med modstykker på tværs af arter (53%). Det høje GC-indhold afspejler de forældreløse børns tendens til at forekomme i genrige regioner.

Vi undersøgte de forældreløse børns ORF-længder i forhold til deres GC-indhold. De forældreløse har relativt små ORF’er (median = 393 bp), og fordelingen af ORF-længder ligner nøje den matematiske forventning til den længste ORF, der tilfældigt ville opstå i et transkript afledt af menneskeligt genomisk DNA med det observerede GC-indhold (SI Fig. 4).

Konserveringsegenskaber.

Vi fokuserede derefter på bevaringsegenskaber på tværs af arterne. For at vurdere følsomheden af forskellige foranstaltninger undersøgte vi et sæt af 5,985 “velundersøgte” gener defineret ved det kriterium, at de er diskuteret i mere end fem offentliggjorte artikler. For hvert velundersøgt gen udvalgte vi en matchet tilfældig kontrolsekvens fra det menneskelige genom, der har et lignende antal “exons” med lignende længder, en lignende andel af gentagelsessekvenser og en lignende andel af alignment på tværs af arter, men som ikke overlapper med nogen formodede gener.

De velundersøgte gener og de matchede tilfældige kontroller adskiller sig fra hinanden med hensyn til alle de undersøgte bevaringsegenskaber (SI Fig. 5 og SI Tabel 1). Nukleotididentiteten og Ka/Ks-forholdet er klart forskellige, men fordelingerne er brede og har et betydeligt overlap. Indeltætheden har en strammere fordeling: 97,3 % af de velundersøgte gener, men kun 2,8 % af de tilfældige kontroller, har en indeltæthed på <10 pr. kb. De skarpeste sondringer blev imidlertid fundet for to mål, der afspejler den særskilte evolution af proteinkodende gener: scoren for bevarelse af læserammen (RFC) og scoren for kodonsubstitutionsfrekvens (CSF).

Læserammebevarelse.

RFC-scoren afspejler procentdelen af nukleotider (fra 0 % til 100 %), hvis læseramme er bevaret på tværs af arter (SI Fig. 6). RFC-scoren bestemmes ved at tilpasse den menneskelige sekvens til dens ortolog på tværs af arter og beregne den maksimale procentdel af nukleotider med bevaret læseramme på tværs af de tre mulige læserammer for ortologet. Resultaterne er gennemsnit over glidende vinduer på 100 baser for at begrænse udbredelsen af lokale virkninger som følge af fejl i sekvensjusteringen og annotationen af gengrænserne. Vi beregnede separate RFC-scoringer i forhold til både musens og hundens genomer og fokuserede på en fælles RFC-score, der er defineret som den største af to scoringer. RFC-scoren blev oprindeligt beskrevet i vores arbejde med gær, men er blevet tilpasset til at tage højde for den hyppige forekomst af introner i menneskelig sekvens (se SI Appendix ).

RFC-scoren viser stort set ingen overlapning mellem de velundersøgte gener og de tilfældige kontroller (SI Fig. 5). Kun 1 % af de tilfældige kontroller overskrider tærsklen for RFC >90, mens 98,2 % af de velundersøgte gener overskrider denne tærskel. Situationen er tilsvarende for det fulde sæt af 18 752 gener med modstykker på tværs af arter, hvor 97 % overskrider tærsklen (Fig. 2 a). RFC-scoren er lidt lavere for mere hurtigt udviklende gener, men RFC-fordelingen for selv den øverste 1% af de hurtigt udviklende gener er skarpt adskilt fra de tilfældige kontroller (SI Fig. 5).

Fig. 2.

Kumulative fordelinger af RFC-score. (Til venstre) Menneskelige gener med ortologer på tværs af arter (blå) versus matchede tilfældige kontroller (sort). (Højre) Menneskelige forældreløse gener (rød) versus matchede tilfældige kontroller (sort). RFC-scorerne er beregnet i forhold til mus og hund sammen (øverst), makak (midten) og chimpanse (nederst). I alle tilfælde er ortologerne markant forskellige fra deres matchede tilfældige kontroller, mens de forældreløse børn stort set ikke kan skelnes fra deres matchede tilfældige kontroller.

Men derimod viser de forældreløse børn et helt andet billede. De er i det væsentlige ikke til at skelne fra matchede tilfældige kontroller (Fig. 2 b) og ligner ikke engang den hurtigst udviklende delmængde af de 18.572 gener med modstykker på tværs af arterne. Kort sagt viser sættet af forældreløse ingen som helst tendens til at bevare læserammen.

Codon-substitutionsfrekvens.

CSF-scoren giver en supplerende test af for det evolutionære mønster for protein-kodende gener. Mens RFC-scoren er baseret på indels, er CSF-scoren baseret på de forskellige mønstre for nukleotid-substitution, der ses i protein-kodende DNA i forhold til tilfældigt DNA. Denne metode, der for nylig blev udviklet til sammenlignende genomisk analyse af Drosophila-arter (11), beregner en CSF-score (codon substitution frequency) på grundlag af alignments på tværs af mange arter. Vi anvendte CSF-metoden på tilpasninger af mennesket til ni pattedyrarter, bestående af højdækkende sekvenser (≈7×) fra mus, hund, rotte, ko og opossum og lavdækkende sekvenser (≈2×) fra kanin, bæltedyr, elefant og tenrec.

Resultaterne viste igen en stærk differentiering mellem gener med modstykker på tværs af arter og forældreløse gener. Blandt 16.210 gener med simpel ortologi gav 99,2 % CSF-scoringer, der var i overensstemmelse med den forventede evolution af proteinkodende gener. Derimod omfatter de 1.177 forældreløse kun to tilfælde, hvis kodon-evolutionsmønster indikerede et gyldigt gen. Ved inspektion var disse to tilfælde klare fejl i annotationen af det menneskelige gen; ved at oversætte sekvensen i en anden ramme kan der identificeres en klar ortolog på tværs af arter.

Orphans Do Not Represent Protein-Coding Genes.

Overstående resultater er i overensstemmelse med, at orphans blot er tilfældige ORF’er, snarere end gyldige menneskelige protein-kodende gener. Overensstemmelse er dog ikke ensbetydende med bevis. Vi må snarere strengt forkaste den alternative hypotese.

Sæt, at de forældreløse repræsenterer gyldige menneskelige protein-kodende gener, som mangler tilsvarende ORF’er i mus og hund. De forældreløse ville falde i to klasser: (i) nogle kan være fra før divergensen fra mus og hund – dvs. de er forfædres gener, der er gået tabt i både mus og hund, og (ii) nogle kan være fra efter divergensen – dvs. de er nye gener, der er opstået i den slægt, der fører til mennesket. Hvordan kan vi udelukke disse muligheder? Vores løsning var at studere to primate slægtninge: makaken og chimpansen. Vi overvejer alternativerne efter tur.

Sæt, at de forældreløse er forfædres pattedyrgener, som gik tabt i hund og mus, men som er bevaret i den slægt, der fører til mennesket. I så fald ville de stadig være til stede og funktionelle i makak og chimpanse, undtagen i det usandsynlige tilfælde, at de også undergik uafhængige tabsbegivenheder i både makak- og chimpansens slægter.
Sæt, at de forældreløse er nye gener, der opstod i den slægt, der fører til mennesket, efter divergensen fra hund og mus . Hvis man antager, at genereringen af nye gener er en konstant proces, bør fødselsdatoerne være fordelt over denne periode. I så fald vil de fleste af fødselsdatoerne ligge før divergensen fra makaken (≈30 Mya) og næsten alle vil ligge før divergensen fra chimpansen (≈6 Mya) (12).

I henhold til et af de to ovenstående scenarier må langt størstedelen af de forældreløse børn svare til funktionelle protein-kodende gener i makaken eller chimpansen.

Vi testede derfor ved hjælp af RFC-score, om de forældreløse viser tegn på bevarelse af proteinkodning i forhold til enten makak eller chimpansee. Det er påfaldende, at fordelingen af RFC-scorerne for de forældreløse børn stort set er identisk med fordelingen for de tilfældige kontroller (fig. 2 d og f). Fordelingen for de forældreløse ligner ikke den, der ses selv for den øverste 1% af de mest hurtigt udviklende gener med modstykker på tværs af arter (SI Fig. 7-9).

Sættet af forældreløse gener viser således ikke noget som helst bevis for bevarelse af læserammer, selv ikke hos vores nærmeste primat-slægtninge. (Det er naturligvis muligt, at de forældreløse omfatter nogle få gyldige protein-kodende gener, men andelen må være så lille, at den ikke har nogen mærkbar effekt på den samlede RFC-fordeling). Vi konkluderer, at langt størstedelen af de forældreløse ikke svarer til funktionelle protein-kodende gener i makak og chimpanse, og at de således hverken er forfædres eller nyopståede gener.

Hvis de forældreløse repræsenterer gyldige menneskelige proteinkodende gener, må vi konkludere, at langt størstedelen af de forældreløse gener blev født efter afvigelsen fra chimpansee. En sådan model ville kræve en fantastisk genfødselsrate i pattedyrslinjerne og en voldsom gen-dødshastighed, der udraderer det enorme antal gener, der er født før divergensen fra chimpansen. Vi afviser en sådan model som fuldstændig usandsynlig. Vi konkluderer derfor, at langt størstedelen af de forældreløse er simpelthen tilfældigt forekommende ORF’er, der ikke repræsenterer proteinkodende gener.

Sluttelig bemærker vi, at den omhyggelige filtrering af det menneskelige genkatalog ovenfor var afgørende for analysen ovenfor, fordi den eliminerede pseudogener og artefakter, der ville have forhindret en præcis analyse af de forældreløse geners egenskaber.

Eksperimentelt bevis for kodede proteiner.

Som en uafhængig kontrol af vores konklusion gennemgik vi den videnskabelige litteratur for offentliggjorte artikler, der omtaler de forældreløse for at afgøre, om der var eksperimentelt bevis for kodede proteiner. Mens langt størstedelen af de velundersøgte gener er blevet direkte vist at kode for et protein, fandt vi artikler, der rapporterede eksperimentelt bevis for et kodet protein in vivo for kun 12 ud af 1 177 forældreløse, og nogle af disse rapporter er tvetydige (SI tabel 2). De eksperimentelle beviser er således i overensstemmelse med vores konklusion, at langt de fleste ikke-konserverede ORF’er ikke er proteinkodende. I den håndfuld tilfælde, hvor der findes eller findes eksperimentelle beviser i fremtiden, kan generne genoptages i kataloget fra sag til sag.

Revision af de menneskelige genkataloger.

Med stærke beviser for, at langt størstedelen af de forældreløse gener ikke er protein-kodende gener, er det muligt at revidere de menneskelige genkataloger på en principiel måde.

Ensembl-katalog.

Vores analyser af Ensembl-kataloget (v35) viser, at det indeholder 19.108 gyldige protein-kodende gener på kromosomerne 1-22 og X inden for den nuværende genomsamling. De resterende 15 % af posterne er elimineret som retroposoner, artefakter eller forældreløse. Sammen med det mitochrondriale kromosom og kromosom Y , når det samlede antal op på 19 199.

Vi udvidede analysen til Ensembl (v38)-kataloget, hvor 2 212 formodede gener blev tilføjet, og mange tidligere poster blev revideret eller slettet. Vores beregningsmæssige pipeline fandt 598 yderligere gyldige proteinkodningsgener baseret på modstykker på tværs af arter, 1.135 retroposoner og 479 forældreløse gener. RFC-kurverne for de forældreløse svarede igen nøje til forventningen for tilfældigt DNA.

Andre kataloger.

Vi anvendte samme fremgangsmåde på Vega (v34) og RefSeq (marts 2007)-kataloget. Begge kataloger indeholder en betydelig andel af poster, der tilsyneladende ikke er gyldige proteinkodende gener (henholdsvis 16 % og 10 %), baseret på manglen på et modstykke på tværs af arter (se SI Fig. 10 og SI Appendix ). Hvis vi begrænser RefSeq-posterne til dem med den højeste tillid (med det forbehold, at dette sæt indeholder langt færre gener), synes kun 1 % at være ugyldige. Tilsammen tilføjer disse to kataloger yderligere 673 protein-kodende gener.

Kombineret analyse.

Kombinerer vi analysen af de tre store genkataloger, finder vi, at kun 20 470 af de 24 551 poster ser ud til at være gyldige protein-kodende gener.

Begrænsninger i analysen.

Vores analyse af de nuværende genkataloger har visse begrænsninger, som bør bemærkes.

For det første har vi elimineret alle pseudogener og forældreløse gener. Vi fandt seks rapporterede tilfælde, hvor et behandlet pseudogen eller transposon gennemgik en exaptation for at producere et funktionelt gen (SI tabellerne 1 og 3), og 12 rapporterede tilfælde af forældreløse med eksperimentelt bevis for et kodet protein. Disse 18 tilfælde kan let genindføres i kataloget (hvilket øger antallet til 20.488). Der er yderligere tilfælde af potentielt funktionelle retroposoner, som ikke findes i de nuværende genkataloger (15). Hvis nogen af dem viser sig at producere protein, bør de også medtages.

For det andet har vi ikke taget hensyn til de 197 formodede gener, der ligger i de “ukortlagte contigs”. Disse regioner er sekvenser, der blev udeladt fra den færdige samling af det menneskelige genom. De består i vid udstrækning af segmentale duplikationer, og de fleste af generne ligner i høj grad andre gener i samlingen. Mange af disse sekvenser kan repræsentere alternative alleler eller fejlsamlinger af genomet. Imidlertid er regioner med segmental duplikation kendt for at være børnehaver for evolutionær innovation (16) og kan indeholde nogle gyldige gener. De fortjener fokuseret opmærksomhed.

For det tredje og vigtigst af alt blev de ikke-konserverede ORF’er, der er undersøgt her, typisk medtaget i de nuværende genkataloger, fordi de har potentiale til at kode for mindst 100 aminosyrer. Vi ved derfor ikke, om vores konklusioner ville gælde for meget kortere ORF’er. I princippet findes der mange yderligere proteinkodende gener, der koder for korte proteiner, f.eks. peptidhormoner, som normalt oversættes fra meget større forløbere og kan udvikle sig hurtigt. Det burde være muligt at undersøge egenskaberne ved mindre ORF’er ved at bruge yderligere pattedyrarter ud over mus og hund.

Improving Gene Annotations.

I løbet af vores arbejde genererede vi detaljerede grafiske “rapportkort” for hver af de 22.218 formodede gener i Ensembl (v35). Rapportkortene viser genets struktur, sekvenstilpasninger, mål for evolutionær bevarelse og vores endelige klassifikation (fig. 3).

Fig. 3.

Et eksempel på genrapportkort for et lille gen, HAMP, på kromosom 19. Rapportkort for alle 22 218 putative gener i Ensembl v35 er tilgængelige på www.broad.mit.edu/mammals/alpheus. Rapportkortene giver en visuel ramme for undersøgelse af bevarelse på tværs af arter og for at opdage mulige problemer i annotationen af menneskelige gener. Oplysningerne øverst viser kromosomal placering, alternative identifikatorer og sammenfattende oplysninger som f.eks. længde, antal exons og gentagelsesindhold. Forskellige paneler nedenfor giver grafiske visninger af tilpasningen af det menneskelige gen til musens og hundens genomer. “Synteny” viser den store justering af den genomiske sekvens med angivelse af både justerede og ikkejusterede segmenter. Den menneskelige sekvens er annoteret med exonerne i hvidt og den repetitive sekvens i mørkegråt. “Alignment detail” viser den komplette DNA-sekvenstilpasning og proteintilpasning. I DNA-justeringen er den menneskelige sekvens angivet øverst, baser i de andre arter er markeret som matchende (lysegrå) eller ikke-matchende (mørkegrå), exongrænser er markeret med lodrette linjer, indels er markeret med små trekanter over sekvensen (toppunktet nedad for indsættelser, toppunktet opad for sletninger, nummeret angiver længden i baser), det annoterede startkodon er grønt, og det annoterede stopkodon er lilla. I proteinjusteringen er den menneskelige aminosyresekvens angivet øverst, og sekvenserne i de andre arter er markeret som matchende (lysegrå), lignende (lyserød) eller ikke-matchende (rød). “Frame alignment” viser fordelingen af de nukleotidmismatches, der er fundet i hver kodonposition, med overskydende mutationer forventet i tredje position. Overensstemmelser er vist i lysegråt, og mismatches er vist i mørkegråt. “Indels, starts og stops” giver et overblik over de vigtigste begivenheder. Indels er angivet med trekanter (toppunkt nedad for indsættelser, toppunkt opad for sletninger) og markeret som frameshifting (rød) eller frame-preserving (grå). Startkodoner er markeret med grønt og stopkodoner med lilla. “Splejsesteder” viser sekvensbevarelse omkring splejsesteder, med to-base donor- og acceptorsteder fremhævet med grå farve og mismatchende baser angivet med rød farve. “Summary data” viser forskellige bevaringsstatistikker i forhold til mus og hund, herunder RFC-score, nukleotididentitet, antal bevarede splejsesteder, frameshifting- og nonframeshifting-indel-tæthed/kb og gennærhed. Genkvarteret viser en prik for de tre opstrøms- og nedstrømsgener, som er farvet grå, hvis synteny er bevaret, og rødt ellers.

Rapportkortene er værdifulde til undersøgelse af genernes evolution og til at forfine genannotationen. Ved at undersøge lokale anomalier ved sammenligning på tværs af arter har vi identificeret 23 klare fejl i genannotationen (herunder tilfælde, hvor ændring af læserammen eller kodningsstrengen afslører utvetydige ortologer på tværs af arter) og 332 tilfælde, hvor bevarelse på tværs af arter tyder på ændring af start- eller stopkodon, fjernelse af et internt exon eller flytning af et splejsningssted. Af disse sidstnævnte tilfælde er de fleste sandsynligvis fejl i annotationen af det menneskelige gen, selv om nogle kan repræsentere ægte forskelle på tværs af arter. Rapportkortene er sammen med søgeværktøjer og oversigtstabeller tilgængelige på www.broad.mit.edu/mammals/alpheus.