Rozlišení protein-kódujících a nekódujících genů v lidském genomu

author
19 minutes, 39 seconds Read

Výsledky

Identifikace sirotků.

Naše analýza vyžaduje studium vlastností lidských ORF, které postrádají mezidruhové protějšky, jež označujeme jako „sirotky“. Takové studium vyžaduje pečlivé filtrování katalogů lidských genů, aby bylo možné identifikovat geny s protějšky a eliminovat širokou škálu artefaktů, které by narušovaly analýzu sirotků. Z tohoto důvodu jsme provedli důkladnou reanalýzu katalogů lidských genů.

Zaměřili jsme se na katalog Ensembl (verze 35), který uvádí 22 218 protein kódujících genů s celkem 239 250 exony. Naše analýza brala v úvahu pouze 21 895 genů na referenční sekvenci lidského genomu chromozomů 1-22 a X. (Vynechali jsme tedy mitochondriální chromozom, chromozom Y a „neumístěné kontigy“, které zahrnují zvláštní úvahy; viz níže.)

Vypracovali jsme výpočetní protokol, podle kterého jsou domnělé geny klasifikovány na základě srovnání s lidským, myším a psím genomem (obr. 1; viz Materiály a metody). Byly použity genomy myší a psů, protože jsou k dispozici vysoce kvalitní genomové sekvence (7, 8) a míra sekvenční divergence je vhodná pro identifikaci genů. Míra nukleotidových substitucí ve srovnání s člověkem je ≈0,50 na bázi u myši a ≈0,35 u psa, přičemž k insercím a delecím (indelům) dochází s frekvencí, která je ≈10krát nižší (8, 9). Tyto četnosti jsou dostatečně nízké na to, aby umožnily spolehlivé zarovnání sekvencí, ale dostatečně vysoké na to, aby odhalily rozdílné vzorce mutací očekávané v kódujících a nekódujících oblastech.

Třída 2: Geny s mezidruhovými paralogy.

Pipeline pak identifikovala 155 případů domnělých lidských genů, které mají paralog v rámci lidského genomu, který má zase ortolog u myši nebo psa. Tyto geny z velké části představují nelokální duplikace v lidské linii (tři čtvrtiny leží v segmentálních duplikacích) nebo případně ztráty genů v jiných liniích. Mezi těmito geny bylo při podrobném zkoumání odhaleno osm případů, kdy malá změna lidské anotace umožnila identifikovat jasný lidský ortolog.

Třída 3: Geny s paralogy pouze u člověka.

Pipeline identifikovala 68 případů domnělých lidských genů, které mají jeden nebo více paralogů v rámci lidského genomu, ale žádný z těchto paralogů nemá ortologa u myši nebo psa. Pečlivá kontrola vyloučila 17 případů jako další retropozony nebo jiné artefakty (viz příloha SI ). Zbývajících 51 případů se zdá být platnými geny, přičemž 15 patří do tří známých rodin genů specifických pro primáty (rodiny DUF1220, NPIP a CDRT15) a ostatní se vyskytují v menších paralogických skupinách (dva až osm členů), které mohou rovněž představovat rodiny specifické pro primáty.

Třída 4: Geny s doménami Pfam.

Pipeline identifikovala 97 případů domnělých genů s homologií se známou proteinovou doménou ve sbírce Pfam (10). Pečlivá kontrola vyřadila 21 případů jako další retropozony nebo jiné artefakty (viz příloha SI ) a 40 případů, u nichž malá změna lidské anotace umožnila identifikovat jasný lidský ortolog. Zbývajících 36 genů se zdá být platnými geny, přičemž 10 z nich obsahuje známé domény specifické pro primáty a 26 obsahuje domény společné pro mnoho druhů.

Třída 5: Sirotci.

Po výše uvedeném postupu zůstalo celkem 1285 domnělých genů. Pečlivou kontrolou bylo zjištěno 40 případů, které byly jasnými artefakty (dlouhé tandemové repetice, u nichž náhodou chybí stop kodon), a 68 případů, kdy bylo možné přiřadit mezidruhový ortolog po korekci malé změny k anotaci lidského genu. Zbývajících 1 177 případů bylo prohlášeno za sirotky, protože postrádají ortologii, paralogii nebo homologii se známými geny a nejsou zjevnými artefakty. Podotýkáme, že pečlivá revize genů byla nezbytná pro získání „čistého“ souboru sirotků pro následnou analýzu.

Charakterizace sirotků.

Charakterizovali jsme vlastnosti sirotků, abychom zjistili, zda se podobají vlastnostem pozorovaným u genů kódujících proteiny nebo očekávaným u náhodných ORF vznikajících v nekódujících transkriptech.

Délky ORF.

Osirotci mají obsah GC 55 %, což je mnohem více než průměr pro lidský genom (39 %) a podobně jako u genů kódujících proteiny s mezidruhovými protějšky (53 %). Vysoký obsah GC odráží tendenci sirotků vyskytovat se v oblastech bohatých na geny.

Zkoumali jsme délky ORF sirotků vzhledem k jejich obsahu GC. Sirotci mají relativně malé ORF (medián = 393 bp) a rozložení délek ORF se velmi podobá matematickému očekávání pro nejdelší ORF, který by vznikl náhodou v transkriptu odvozeném z lidské genomické DNA se zjištěným obsahem GC (SI obr. 4).

Vlastnosti zachování.

Poté jsme se zaměřili na vlastnosti zachování mezi druhy. Abychom posoudili citlivost různých měřítek, prozkoumali jsme soubor 5 985 „dobře prozkoumaných“ genů definovaných kritériem, že jsou diskutovány ve více než pěti publikovaných článcích. Pro každý dobře prostudovaný gen jsme vybrali odpovídající náhodnou kontrolní sekvenci z lidského genomu, která má podobný počet „exonů“ s podobnou délkou, podobný podíl opakujících se sekvencí a podobný podíl mezidruhového zarovnání, ale nepřekrývá se s žádnými domnělými geny.

Dobře prostudované geny a odpovídající náhodné kontroly se liší s ohledem na všechny studované vlastnosti zachování (SI obr. 5 a SI tab. 1). Identita nukleotidů a poměr Ka/Ks se zřetelně liší, ale distribuce jsou široké a značně se překrývají. Hustota indelů má těsnější rozložení: 97,3 % dobře prostudovaných genů, ale pouze 2,8 % náhodných kontrol, má hustotu indelů <10 na kb. Nejostřejší rozdíly však byly zjištěny u dvou měr, které odrážejí odlišnou evoluci genů kódujících proteiny: skóre zachování čtecího rámce (RFC) a skóre frekvence záměn kodonů (CSF).

Zachování čtecího rámce.

Skóre RFC odráží procento nukleotidů (od 0 % do 100 %), jejichž čtecí rámec je zachován napříč druhy (SI obr. 6). Skóre RFC se určuje zarovnáním lidské sekvence k jejímu mezidruhovému ortologu a výpočtem maximálního procenta nukleotidů se zachovaným čtecím rámcem, a to ve třech možných čtecích rámcích pro ortolog. Výsledky jsou zprůměrovány přes klouzavá okna o 100 bázích, aby se omezilo šíření lokálních efektů způsobených chybami při zarovnávání sekvencí a anotaci hranic genů. Vypočítali jsme samostatné skóre RFC vzhledem ke genomu myši i psa a zaměřili jsme se na společné skóre RFC, definované jako větší ze dvou skóre. Skóre RFC bylo původně popsáno v naší práci na kvasinkách, ale bylo upraveno tak, aby zohledňovalo častou přítomnost intronů v lidské sekvenci (viz příloha SI ).

Skóre RFC nevykazuje prakticky žádné překrývání mezi dobře prozkoumanými geny a náhodnými kontrolami (obr. SI 5). Pouze 1 % náhodných kontrol překračuje práh RFC >90, zatímco 98,2 % dobře prostudovaných genů tento práh překračuje. Podobná situace je i u kompletního souboru 18 752 genů s mezidruhovými protějšky, kde práh překračuje 97 % (obr. 2 a). Skóre RFC je o něco nižší u rychleji se vyvíjejících genů, ale rozdělení RFC dokonce i pro 1 % nejrychleji se vyvíjejících genů je ostře odděleno od náhodných kontrol (SI obr. 5).

Obr. 2. Skóre RFC pro rychleji se vyvíjející geny.

Kumulativní rozdělení skóre RFC. (Vlevo) Lidské geny s mezidruhovými ortology (modře) versus odpovídající náhodné kontroly (černě). (Vpravo) Lidské sirotky (červeně) versus odpovídající náhodné kontroly (černě). RFC skóre je vypočteno vzhledem k myším a psům dohromady (nahoře), makakům (uprostřed) a šimpanzům (dole). Ve všech případech se ortologové nápadně liší od odpovídajících náhodných kontrol, zatímco sirotci se od odpovídajících náhodných kontrol v podstatě neliší.

Oproti tomu sirotci ukazují zcela jiný obraz. Jsou v podstatě nerozlišitelné od odpovídajících náhodných kontrol (obr. 2 b) a nepodobají se ani nejrychleji se vyvíjející podskupině 18 572 genů s mezidruhovými protějšky. Stručně řečeno, soubor sirotků nevykazuje vůbec žádnou tendenci k zachování čtecího rámce.

Frekvence záměn kodonů.

Skóre CSF poskytuje doplňkový test pro evoluční vzorec genů kódujících proteiny. Zatímco skóre RFC je založeno na indelech, skóre CSF je založeno na rozdílných vzorcích substituce nukleotidů pozorovaných v DNA kódující proteiny oproti náhodné DNA. Metoda, která byla nedávno vyvinuta pro srovnávací genomickou analýzu druhů rodu Drosophila (11), vypočítává skóre CSF (codon substitution frequency) na základě zarovnání napříč mnoha druhy. Přístup CSF jsme použili na zarovnání člověka s devíti druhy savců, které se skládaly ze sekvencí s vysokým pokrytím (≈7×) od myši, psa, krysy, krávy a vačice a sekvencí s nízkým pokrytím (≈2×) od králíka, pásovce, slona a tenreka.

Výsledky opět ukázaly silnou diferenciaci mezi geny s mezidruhovými protějšky a sirotky. Mezi 16 210 geny s jednoduchou ortologií 99,2 % poskytlo skóre CSF odpovídající očekávané evoluci genů kódujících proteiny. Naproti tomu 1 177 sirotků zahrnuje pouze dva případy, jejichž vzorec kodonové evoluce naznačoval platný gen. Při kontrole těchto dvou případů se jednalo o jasné chyby v anotaci lidského genu; překladem sekvence v jiném rámci lze identifikovat jasné mezidruhové ortology.

Orphans Do Not Represent Protein-Coding Genes.

Výše uvedené výsledky odpovídají tomu, že orphans jsou jednoduše náhodné ORF, nikoliv platné lidské geny kódující proteiny. Konzistence však nepředstavuje důkaz. Spíše musíme důsledně zamítnout alternativní hypotézu.

Předpokládejme, že sirotci představují platné lidské geny kódující proteiny, kterým chybí odpovídající ORF u myši a psa. Sirotci by spadali do dvou tříd: (i) některé z nich mohou předcházet divergenci myši a psa – to znamená, že se jedná o ancestrální geny, které byly ztraceny u myši i psa, a (ii) některé mohou pocházet z doby po divergenci – to znamená, že se jedná o nové geny, které vznikly v linii vedoucí k člověku. Jak můžeme tyto možnosti vyloučit? Naším řešením bylo studovat dva příbuzné primáty: makaka a šimpanze. Postupně zvážíme tyto alternativy:

  1. Předpokládejme, že sirotci jsou předky savčích genů, které byly ztraceny u psa a myši, ale zachovaly se v linii vedoucí k člověku. Pokud by tomu tak bylo, byly by stále přítomny a funkční u makaků a šimpanzů, s výjimkou nepravděpodobného případu, že by také prošly nezávislými ztrátami v obou liniích makaků a šimpanzů.

  2. Předpokládejme, že sirotci jsou nové geny, které vznikly v linii vedoucí k člověku, po divergenci od psa a myši . Za předpokladu, že generování nových genů je ustálený proces, měla by být data narození rozložena do celého tohoto období. Pokud tomu tak je, většina dat zrození bude předcházet divergenci od makaka (≈30 Mya) a téměř všechna budou předcházet divergenci od šimpanze (≈6 Mya) (12).

Podle obou výše uvedených scénářů musí naprostá většina sirotků odpovídat funkčním genům kódujícím proteiny u makaka nebo šimpanze.

Testovali jsme proto, zda sirotci vykazují nějaké známky zachování proteinů kódujících genů vzhledem k makakům nebo šimpanzům, a to pomocí skóre RFC. Zarážející je, že rozložení skóre RFC u sirotků je v podstatě totožné s rozložením u náhodných kontrol (obr. 2 d a f). Rozložení pro sirotky se nepodobá rozložení pozorovanému dokonce ani u 1 % nejrychleji se vyvíjejících genů s mezidruhovými protějšky (obr. SI 7-9).

Soubor sirotků tedy nevykazuje vůbec žádné známky zachování čtecích rámců ani u našich nejbližších příbuzných primátů. (Je samozřejmě možné, že sirotci zahrnují několik platných genů kódujících proteiny, ale jejich podíl musí být natolik malý, že nemá žádný znatelný vliv na celkové rozložení RFC). Došli jsme k závěru, že naprostá většina sirotků neodpovídá funkčním genům kódujícím proteiny u makaků a šimpanzů, a nejedná se tedy ani o předky, ani o nově vzniklé geny.

Pokud by sirotci představovali platné lidské geny kódující bílkoviny, museli bychom dojít k závěru, že naprostá většina sirotků se narodila po divergenci od šimpanze. Takový model by vyžadoval ohromnou rychlost zrodu genů v savčích liniích a divokou rychlost genové smrti, která by vymazala obrovské množství genů zrozených před divergencí od šimpanze. Takový model odmítáme jako zcela nepravděpodobný. Došli jsme tedy k závěru, že naprostá většina sirotků jsou jednoduše náhodně se vyskytující ORF, které nepředstavují geny kódující proteiny.

Nakonec poznamenáváme, že výše uvedená pečlivá filtrace katalogu lidských genů byla pro výše uvedenou analýzu zásadní, protože eliminovala pseudogeny a artefakty, které by zabránily přesné analýze vlastností sirotků.

Experimentální důkazy o kódovaných proteinech.

Jako nezávislou kontrolu našeho závěru jsme prošli vědeckou literaturu a vyhledali publikované články zmiňující sirotky, abychom zjistili, zda existují experimentální důkazy o kódovaných proteinech. Zatímco u naprosté většiny dobře prozkoumaných genů bylo přímo prokázáno, že kódují protein, články uvádějící experimentální důkaz o kódovaném proteinu in vivo jsme našli pouze u 12 z 1 177 sirotků, přičemž některé z těchto zpráv jsou nejednoznačné (tabulka SI 2). Experimentální důkazy jsou tedy v souladu s naším závěrem, že naprostá většina nezachovaných ORF nekóduje protein. V hrstce případů, pro které existují experimentální důkazy nebo které budou nalezeny v budoucnu, lze tyto geny obnovit v katalogu případ od případu.

Revize katalogů lidských genů.

Se silnými důkazy, že naprostá většina sirotků nejsou geny kódující proteiny, je možné zásadním způsobem revidovat katalogy lidských genů.

Katalog Ensembl.

Naše analýza katalogu Ensembl (v35) ukazuje, že obsahuje 19 108 platných protein-kódujících genů na chromozomech 1-22 a X v rámci současné sestavy genomu. Zbývajících 15 % záznamů je vyřazeno jako retropozony, artefakty nebo sirotci. Spolu s mitochrondriálním chromozomem a chromozomem Y , dosahuje celkový počet 19 199.

Rozšířili jsme analýzu na katalog Ensembl (v38), ve kterém bylo přidáno 2 212 domnělých genů a mnoho předchozích záznamů bylo revidováno nebo odstraněno. Naše výpočetní pipeline našla 598 dalších platných genů kódujících proteiny na základě mezidruhových protějšků, 1 135 retropozonů a 479 sirotků. Křivky RFC pro sirotky opět přesně odpovídaly očekávání pro náhodnou DNA.

Jiné katalogy.

Stejný přístup jsme použili na katalogy Vega (v34) a RefSeq (březen 2007). Oba katalogy obsahují značný podíl záznamů, které zřejmě nejsou platnými geny kódujícími proteiny (16 %, resp. 10 %), a to na základě absence mezidruhového protějšku (viz SI obr. 10 a SI dodatek ). Pokud omezíme položky RefSeq na ty s nejvyšší důvěryhodností (s výhradou, že tento soubor obsahuje mnohem méně genů), jeví se jako neplatné pouze 1 %. Dohromady tyto dva katalogy přidávají dalších 673 genů kódujících proteiny.

Kombinovaná analýza.

Kombinace analýzy tří hlavních genových katalogů ukazuje, že pouze 20 470 z 24 551 záznamů se jeví jako platné geny kódující proteiny.

Omezení analýzy.

Naše analýza současných genových katalogů má určitá omezení, na která je třeba upozornit.

Předně jsme vyloučili všechny pseudogeny a sirotky. Našli jsme šest hlášených případů, kdy zpracovaný pseudogen nebo transpozon prošel exaptací za vzniku funkčního genu (tabulky SI 1 a 3), a 12 hlášených případů sirotků s experimentálním důkazem kódovaného proteinu. Těchto 18 případů lze snadno obnovit v katalogu (čímž se počet případů zvýší na 20 488). Existují další případy potenciálně funkčních retropozonů, které se v současných katalozích genů nevyskytují (15). Pokud se zjistí, že některé z nich produkují protein, měly by být také zahrnuty.

Druhé, nezohlednili jsme 197 domnělých genů, které leží v „nezmapovaných kontigenech“. Tyto oblasti jsou sekvence, které byly z dokončené sestavy lidského genomu vynechány. Z velké části se skládají ze segmentálních duplikací a většina genů je velmi podobná jiným genům v sestavě. Mnohé sekvence mohou představovat alternativní alely nebo chybné sestavení genomu. Je však známo, že oblasti segmentálních duplikací jsou líhněmi evolučních inovací (16) a mohou obsahovat některé platné geny. Zaslouží si soustředěnou pozornost.

Zatřetí a především, zde studované nezachované ORF byly obvykle zahrnuty do současných genových katalogů, protože mají potenciál kódovat alespoň 100 aminokyselin. Nevíme tedy, zda by naše závěry platily i pro mnohem kratší ORF. V zásadě existuje mnoho dalších genů kódujících proteiny, které kódují krátké proteiny, například peptidové hormony, které jsou obvykle překládány z mnohem větších prekurzorů a mohou se rychle vyvíjet. Mělo by být možné zkoumat vlastnosti menších ORF pomocí dalších savčích druhů kromě myši a psa.

Zlepšení anotací genů.

V průběhu naší práce jsme vytvořili podrobné grafické „přehledy“ pro každý z 22 218 předpokládaných genů v databázi Ensembl (v35). Tyto přehledy zobrazují strukturu genu, zarovnání sekvencí, míry evoluční zachovalosti a naši konečnou klasifikaci (obr. 3).

Obr. 3.

Příkladová karta hlášení genu pro malý gen HAMP na chromozomu 19. Karty hlášení pro všech 22 218 domnělých genů v databázi Ensembl v35 jsou k dispozici na adrese www.broad.mit.edu/mammals/alpheus. Karty hlášení poskytují vizuální rámec pro studium mezidruhové konzervace a pro odhalení možných problémů v anotaci lidských genů. Informace v horní části zobrazují chromozomální umístění, alternativní identifikátory a souhrnné informace, jako je délka, počet exonů a obsah opakování. Různé panely níže poskytují grafické zobrazení zarovnání lidského genu s genomy myši a psa. „Syntéza“ zobrazuje rozsáhlé zarovnání genomové sekvence s vyznačením zarovnaných i nezarovnaných segmentů. Lidská sekvence je anotována s exony v bílé barvě a repetitivní sekvence v tmavě šedé. „Detail zarovnání“ zobrazuje kompletní zarovnání sekvence DNA a zarovnání proteinů. V zarovnání DNA je lidská sekvence uvedena nahoře, báze u ostatních druhů jsou označeny jako shodné (světle šedá) nebo neshodné (tmavě šedá), hranice exonů jsou vyznačeny svislými čarami, indely jsou označeny malými trojúhelníčky nad sekvencí (vrcholem dolů pro inzerce, vrcholem nahoru pro delece, číslo udává délku v bázích), anotovaný start kodon je zeleně a anotovaný stop kodon je fialově. V zarovnání proteinů je nahoře uvedena sekvence lidských aminokyselin a sekvence ostatních druhů jsou označeny jako shodné (světle šedá), podobné (růžová) nebo neshodné (červená). „Rámcové zarovnání“ ukazuje rozložení nukleotidových neshod nalezených v každé pozici kodonu, přičemž přebytek mutací se očekává ve třetí pozici. Shody jsou zobrazeny světle šedou barvou a neshody tmavě šedou. „Indels, starts and stops“ poskytuje přehled klíčových událostí. Indely jsou označeny trojúhelníky (vrchol dolů pro inzerce, vrchol nahoru pro delece) a označeny jako posunující rámec (červeně) nebo zachovávající rámec (šedě). Počáteční kodony jsou označeny zeleně a stop kodony fialově. „Místa sestřihu“ ukazují zachování sekvence v okolí míst sestřihu, přičemž donorská a akceptorská místa se dvěma bázemi jsou zvýrazněna šedě a neshodující se báze jsou označeny červeně. „Souhrnná data“ uvádí různé statistiky zachování ve vztahu k myším a psům, včetně RFC skóre, identity nukleotidů, počtu konzervovaných míst spoje, hustoty frameshiftingových a nonframeshiftingových indelů/kb a sousedství genů. Sousedství genu zobrazuje tečku pro tři předcházející a následující geny, která je zbarvena šedě, pokud je zachována syntéza, a červeně v opačném případě.

Přehledy jsou cenné pro studium evoluce genů a pro zpřesnění genové anotace. Zkoumáním lokálních anomálií pomocí mezidruhového srovnání jsme identifikovali 23 jasných chyb v anotaci genů (včetně případů, kdy změna čtecího rámce nebo kódujícího vlákna odhalí jednoznačné mezidruhové ortology) a 332 případů, kdy mezidruhové zachování naznačuje změnu start nebo stop kodonu, odstranění vnitřního exonu nebo přesun místa sestřihu. Z těchto posledních případů se pravděpodobně většinou jedná o chyby v anotaci lidských genů, i když některé mohou představovat skutečné mezidruhové rozdíly. Přehledy spolu s vyhledávacími nástroji a souhrnnými tabulkami jsou k dispozici na adrese www.broad.mit.edu/mammals/alpheus.

.

Similar Posts

Napsat komentář

Vaše e-mailová adresa nebude zveřejněna.