Fehérjekódoló és nem kódoló gének megkülönböztetése az emberi genomban

author
22 minutes, 40 seconds Read

Eredmények

Az árvák azonosítása.

Elemzésünkhöz az olyan emberi ORF-ek tulajdonságainak tanulmányozására van szükség, amelyeknek nincsenek fajközi megfelelői, amelyeket “árváknak” nevezünk. Ez a vizsgálat megköveteli a humán génkatalógusok gondos szűrését, hogy azonosítani lehessen a megfelelő génekkel rendelkező géneket, és hogy ki lehessen küszöbölni az árvák elemzését zavaró műtermékek széles skáláját. Ezért elvégeztük az emberi génkatalógusok alapos újraelemzését.

Az Ensembl katalógusra (35. verzió) összpontosítottunk, amely 22 218 fehérjekódoló gént tartalmaz összesen 239 250 exonnal. Elemzésünk csak a humán genom referenciaszekvenciáján található 21 895 gént vette figyelembe az 1-22. és X kromoszómán. (Így kihagytuk a mitokondriális kromoszómát, az Y kromoszómát és a “nem elhelyezett kontigokat”, amelyek speciális megfontolásokat igényelnek; lásd alább.)

Kifejlesztettünk egy számítási protokollt, amellyel a feltételezett géneket az emberi, egér- és kutyagenomokkal való összehasonlítás alapján osztályoztuk (1. ábra; lásd Anyagok és módszerek). Az egér- és kutyagenomot használtuk, mivel jó minőségű genomszekvencia áll rendelkezésre (7, 8), és a szekvencia-divergencia mértéke jól használható a génazonosításhoz. Az emberhez viszonyított nukleotidsubsztitúciós ráta az egér esetében ≈0,50 bázisonként, a kutya esetében ≈0,35, az inszerciós és deléciós (indel) események ≈10-szer kisebb gyakorisággal fordulnak elő (8, 9). Ezek az arányok elég alacsonyak ahhoz, hogy megbízható szekvenciaillesztést tegyenek lehetővé, de elég magasak ahhoz, hogy feltárják a kódoló és nem kódoló régiókban várható eltérő mutációs mintázatokat.

2. osztály: Fajok közötti paralóg gének.

A pipeline ezután 155 olyan feltételezett emberi gént azonosított, amelyeknek a humán genomban van egy paralógjuk, amelynek viszont van egy ortológja egérben vagy kutyában. Ezek a gének nagyrészt nem lokális duplikációkat képviselnek a humán vonalban (háromnegyedük szegmentális duplikációkban rejlik) vagy esetleg génveszteségeket a többi vonalban. E gének közül a közelebbi vizsgálat nyolc olyan esetet tárt fel, amelyekben a humán annotáció kis módosítása lehetővé tette egy egyértelmű humán ortológ azonosítását.

3. osztály: Csak humán paralógokkal rendelkező gének.

A pipeline 68 olyan feltételezett humán gént azonosított, amelyeknek egy vagy több paralógjuk van a humán genomban, de egyik paralógnak sincs ortológja egérben vagy kutyában. A szoros vizsgálat 17 esetet további retroposonként vagy egyéb artefaktumként zárt ki (lásd SI Függelék ). A fennmaradó 51 eset érvényes génnek tűnik, amelyek közül 15 a főemlős-specifikus gének három ismert családjába tartozik (DUF1220, NPIP és CDRT15 családok), a többi pedig kisebb paralóg csoportokban fordul elő (kettő-nyolc tag), amelyek szintén főemlős-specifikus családokat képviselhetnek.

4. osztály: Pfam-doménnel rendelkező gének.

A pipeline 97 olyan feltételezett gént azonosított, amelyek homológiája a Pfam-gyűjteményben (10) található ismert fehérjedoménnel mutat homológiát. A szoros vizsgálat 21 esetet további retroposonként vagy egyéb artefaktumként (lásd SI Függelék ), 40 esetben pedig a humán annotáció kis módosításával sikerült egyértelmű humán ortológot azonosítani. A fennmaradó 36 gén érvényes génnek tűnik, amelyek közül 10 tartalmaz ismert főemlős-specifikus doméneket, 26 pedig számos fajban közös doméneket.

5. osztály: Árvák.

A fenti eljárás után összesen 1285 feltételezett gén maradt. A közelebbi vizsgálat 40 olyan esetet azonosított, amelyek egyértelmű artefaktumok voltak (hosszú tandem ismétlődések, amelyekből történetesen hiányzik a stopkódon), és 68 olyan esetet, amelyekben a humán gén annotációjának kis módosítási korrekciója után egy fajok közötti ortológot lehetett hozzárendelni. A fennmaradó 1177 esetet árvának nyilvánítottuk, mivel hiányzik az ortológia, a paralógia vagy az ismert génekkel való homológia, és nem nyilvánvaló artefaktumok. Megjegyezzük, hogy a gének gondos felülvizsgálata elengedhetetlen volt ahhoz, hogy az árvák “tiszta” halmazát kapjuk a későbbi elemzéshez.

Az árvák jellemzése.

Az árvák tulajdonságait jellemeztük, hogy lássuk, hasonlítanak-e a fehérjekódoló géneknél megfigyelt vagy a nem kódoló transzkriptekben keletkező random ORF-eknél várható tulajdonságokhoz.

ORF-hossz.

Az árvák GC-tartalma 55%, ami jóval magasabb, mint a humán genom átlaga (39%), és hasonló ahhoz, amit a fehérjekódoló gének fajközi megfelelőinél láttunk (53%). A magas GC-tartalom tükrözi az árvák azon tendenciáját, hogy génben gazdag régiókban fordulnak elő.

Vizsgáltuk az árvák ORF-hosszát a GC-tartalmukhoz viszonyítva. Az árvák viszonylag kis ORF-ekkel rendelkeznek (medián = 393 bp), és az ORF-hosszúságok eloszlása nagyban hasonlít a leghosszabb ORF-re vonatkozó matematikai elváráshoz, amely véletlenszerűen keletkezne a megfigyelt GC-tartalmú emberi genomi DNS-ből származó transzkriptben (SI 4. ábra).

Konzervációs tulajdonságok.

A továbbiakban a fajok közötti konzervációs tulajdonságokra összpontosítottunk. A különböző mérőszámok érzékenységének értékeléséhez megvizsgáltunk egy 5985 “jól tanulmányozott” gént tartalmazó halmazt, amelyet azzal a kritériummal határoztunk meg, hogy több mint öt publikált cikkben tárgyalják őket. Minden jól tanulmányozott génhez kiválasztottunk egy megfelelő véletlenszerű kontrollszekvenciát a humán genomból, amely hasonló számú és hosszúságú “exonnal”, hasonló arányú ismétlődő szekvenciával és hasonló arányú fajközi igazodással rendelkezik, de nem fed át egyetlen feltételezett génnel sem.

A jól tanulmányozott gének és a megfelelő véletlenszerű kontrollok minden vizsgált konzervációs tulajdonság tekintetében különböznek (SI 5. ábra és SI 1. táblázat). A nukleotid-azonosság és a Ka/Ks arány egyértelműen különbözik, de az eloszlások szélesek és jelentős átfedést mutatnak. Az indel-sűrűség eloszlása szűkebb: a jól vizsgált gének 97,3%-ának, de a véletlenszerű kontrolloknak csak 2,8%-ának van <10 indel-sűrűsége kb-nként. A legélesebb különbségeket azonban két olyan mérőszám esetében találtuk, amelyek a fehérjekódoló gének sajátos evolúcióját tükrözik: az olvasási keret konzerváltsági (RFC) pontszám és a kodonhelyettesítési gyakorisági (CSF) pontszám.

Az olvasási keret konzerváltsága.

Az RFC pontszám azon nukleotidok százalékos arányát tükrözi (0% és 100% között), amelyek olvasási kerete konzervált a fajok között (SI 6. ábra). Az RFC pontszámot úgy határozzuk meg, hogy a humán szekvenciát a fajok közötti ortológ szekvenciához igazítjuk, és kiszámítjuk a konzervált olvasási keretet tartalmazó nukleotidok maximális százalékos arányát az ortológ három lehetséges olvasási keretére vonatkozóan. Az eredményeket 100 bázisból álló csúszóablakokban átlagoljuk, hogy korlátozzuk a szekvencia-illesztési és génhatár-jelölési hibákból eredő helyi hatások terjedését. Külön RFC-pontszámokat számítottunk mind az egér-, mind a kutyagenomhoz viszonyítva, és egy közös RFC-pontszámra összpontosítottunk, amelyet a két pontszám nagyobbikaként definiáltunk. Az RFC-pontszámot eredetileg az élesztőn végzett munkánk során írtuk le, de a humán szekvenciában gyakran előforduló intronokhoz igazítottuk (lásd SI Függelék ).

Az RFC-pontszám gyakorlatilag nem mutat átfedést a jól vizsgált gének és a véletlenszerű kontrollok között (SI 5. ábra). A véletlenszerű kontrolloknak csak 1%-a haladja meg az RFC >90 küszöbértéket, míg a jól vizsgált gének 98,2%-a meghaladja ezt a küszöbértéket. Hasonló a helyzet a 18 752 génből álló teljes készlet esetében is, amelynek fajközi megfelelői vannak, 97%-a meghaladja a küszöbértéket (2. ábra a). A gyorsabban fejlődő gének esetében az RFC pontszám valamivel alacsonyabb, de még a gyorsan fejlődő gének felső 1%-ának RFC eloszlása is élesen elkülönül a véletlenszerű kontrolloktól (SI 5. ábra).

2. ábra.

Az RFC pontszámok kumulatív eloszlásai. (Balra) Emberi gének fajközi ortológokkal (kék) versus illeszkedő random kontrollok (fekete). (Jobbra) Emberi árvák (piros) versus illeszkedő véletlenszerű kontrollok (fekete). Az RFC-pontszámok az egér és a kutya együttes (fent), a makákó (középen) és a csimpánz (alul) viszonylatában kerültek kiszámításra. Az ortológok minden esetben feltűnően különböznek a hozzájuk illesztett random kontrolloktól, míg az árvák lényegében megkülönböztethetetlenek a hozzájuk illesztett random kontrolloktól.

Az árvák ezzel szemben teljesen más képet mutatnak. Lényegében megkülönböztethetetlenek az illesztett random kontrolloktól (2. b ábra), és nem hasonlítanak még a 18 572 gén leggyorsabban fejlődő, fajközi megfelelővel rendelkező részhalmazára sem. Röviden, az árvák halmaza egyáltalán nem mutat tendenciát az olvasókeret megőrzésére.

Kodonok helyettesítési gyakorisága.

A CSF-pontszám kiegészítő tesztet nyújt a fehérjekódoló gének evolúciós mintázatára. Míg az RFC pontszám az indeleken alapul, a CSF pontszám a fehérjekódoló és a véletlenszerű DNS-ben megfigyelhető eltérő nukleotid szubsztitúciós mintázatokon alapul. A nemrégiben a Drosophila fajok összehasonlító genomikai elemzéséhez kifejlesztett módszer (11) számos fajra kiterjedő összehangolások alapján számítja ki a kodonszubsztitúciós gyakorisági (CSF) pontszámot. A CSF-megközelítést alkalmaztuk az ember és kilenc emlősfaj igazításaira, amelyek egér, kutya, patkány, tehén és oposszum magas fedettségű (≈7×), valamint nyúl, armadillo, elefánt és tenrec alacsony fedettségű (≈2×) szekvenciáiból állnak.

Az eredmények ismét erős különbséget mutattak a fajok közötti megfelelő és árva gének között. Az egyszerű ortológiával rendelkező 16 210 gén közül 99,2%-ban a fehérjekódoló gének várható evolúciójának megfelelő CSF-pontszámokat kaptunk. Ezzel szemben az 1177 árva gén között csak két olyan eset volt, amelynek kodonevolúciós mintázata érvényes génre utalt. A vizsgálat során ez a két eset egyértelmű hiba volt a humán gén annotációjában; a szekvencia más keretben történő lefordításával egyértelmű fajközi ortológok azonosíthatók.

Az árvák nem képviselnek fehérjekódoló géneket.

A fenti eredmények összhangban vannak azzal, hogy az árvák egyszerűen véletlenszerű ORF-ek, nem pedig érvényes humán fehérjekódoló gének. A konzisztencia azonban nem jelent bizonyítékot. Inkább szigorúan el kell utasítanunk az alternatív hipotézist.

Tegyük fel, hogy az árvák érvényes emberi fehérjekódoló géneket képviselnek, amelyeknek nincsenek megfelelő ORF-jei az egérben és a kutyában. Az árvák két osztályba sorolhatók: (i) néhányuk megelőzheti az egér és a kutya divergenciáját – vagyis olyan ősi gének, amelyek mind az egérből, mind a kutyából eltűntek -, és (ii) néhányuk a divergencia után keletkezett – vagyis olyan új gének, amelyek az emberhez vezető vonalban keletkeztek. Hogyan zárhatjuk ki ezeket a lehetőségeket? A megoldásunk az volt, hogy két főemlős rokont tanulmányoztunk: a makákót és a csimpánzt. Vizsgáljuk meg sorban az alternatívákat.

  1. Tegyük fel, hogy az árvák ősi emlősök génjei, amelyek a kutyából és az egérből eltűntek, de az emberhez vezető vonalban megmaradtak. Ha ez így van, akkor a makákóban és a csimpánzban még mindig jelen vannak és működőképesek lennének, kivéve azt a valószínűtlen esetet, hogy a makákó és a csimpánz vonalában is független veszteséges eseményeken mentek keresztül.

  2. Tegyük fel, hogy az árvák olyan új gének, amelyek az emberhez vezető vonalban keletkeztek a kutyától és az egértől való eltérés után. Feltételezve, hogy az új gének keletkezése folyamatos folyamat, a születési időpontoknak el kell oszlaniuk ezen az időszakon. Ha ez így van, akkor a legtöbb születési időpont a makákótól való eltérést (≈30 Mya), és majdnem az összes a csimpánztól való eltérést (≈6 Mya) (12) fogja megelőzni.

A fenti forgatókönyvek bármelyike szerint az árvák túlnyomó többségének a makákó vagy a csimpánz funkcionális fehérjekódoló génjeinek kell megfelelnie.

Ezért az RFC-pontszám segítségével megvizsgáltuk, hogy az árvák mutatnak-e bizonyítékot a fehérjekódoló gének konzerváltságára akár a makákóhoz, akár a csimpánzhoz képest. Feltűnő, hogy az árvák RFC-pontszámának eloszlása lényegében megegyezik a random kontrollokéval (2. ábra d és f). Az árvák eloszlása nem hasonlít ahhoz, amit még a leggyorsabban fejlődő gének felső 1%-ának fajközi megfelelői esetében is láthatunk (SI 7-9. ábra).

Az árvák halmaza tehát semmilyen bizonyítékot nem mutat az olvasási keret konzerválására még a legközelebbi főemlős rokonainkban sem. (Természetesen lehetséges, hogy az árvák között van néhány érvényes fehérjekódoló gén, de ezek aránya elég kicsi lehet ahhoz, hogy ne legyen észrevehető hatása a teljes RFC-eloszlásra). Arra a következtetésre jutottunk, hogy az árvák túlnyomó többsége nem felel meg funkcionális fehérjekódoló géneknek a makákóban és a csimpánzban, és így sem ősi, sem újonnan keletkezett gének.

Ha az árvák érvényes emberi fehérjekódoló géneket képviselnek, akkor arra kell következtetnünk, hogy az árvák túlnyomó többsége a csimpánztól való eltérés után született. Egy ilyen modellhez az emlősök vonalában a génszületés elképesztő ütemére lenne szükség, és a génpusztulás kegyetlen ütemére, amely eltörölné a csimpánztól való eltérés előtt született rengeteg gént. Egy ilyen modellt teljesen valószínűtlennek tartunk. Ezért arra a következtetésre jutunk, hogy az árvák túlnyomó többsége egyszerűen véletlenszerűen előforduló ORF, amelyek nem fehérjekódoló géneket képviselnek.

Végezetül megjegyezzük, hogy az emberi génkatalógus fenti gondos szűrése alapvető fontosságú volt a fenti elemzéshez, mert ez kiküszöbölte az álgéneket és a műtermékeket, amelyek megakadályozták volna az árvák tulajdonságainak pontos elemzését.

Kísérleti bizonyíték a kódolt fehérjékre.

A következtetésünk független ellenőrzéseként átnéztük a tudományos irodalmat az árvákat említő publikált cikkek után, hogy megállapítsuk, van-e kísérleti bizonyíték a kódolt fehérjékre. Míg a jól vizsgált gének túlnyomó többségéről közvetlenül kimutatták, hogy fehérjét kódolnak, az 1177 árva génből csak 12 esetében találtunk olyan cikkeket, amelyek a kódolt fehérje in vivo kísérleti bizonyítékáról számoltak be, és ezek közül néhány jelentés kétértelmű (SI 2. táblázat). A kísérleti bizonyítékok tehát összhangban vannak azzal a következtetésünkkel, hogy a nem konzervált ORF-ek túlnyomó többsége nem fehérjét kódoló. Abban a maroknyi esetben, amikor kísérleti bizonyíték van vagy a jövőben lesz, a géneket eseti alapon vissza lehet állítani a katalógusba.

A humán génkatalógusok felülvizsgálata.

Mivel erős bizonyíték van arra, hogy az árvák túlnyomó többsége nem fehérjekódoló gén, lehetséges a humán génkatalógusok elvszerű felülvizsgálata.

Ensembl katalógus.

Az Ensembl (v35) katalógus elemzése azt mutatja, hogy 19 108 érvényes fehérjekódoló gént tartalmaz az 1-22. és X kromoszómákon a jelenlegi genom-összeállításon belül. A bejegyzések fennmaradó 15%-át retropozonként, artefaktumként vagy árvaként zártuk ki. A mitokrondriális kromoszómával és az Y kromoszómával együtt az összesítés eléri a 19 199-et.

Az elemzést kiterjesztettük az Ensembl (v38) katalógusra, amelyben 2212 feltételezett gént adtunk hozzá, és számos korábbi bejegyzést felülvizsgáltunk vagy töröltünk. Számítógépes csővezetékünk 598 további érvényes fehérjekódoló gént talált a fajok közötti megfelelők alapján, 1135 retroposont és 479 árvát. Az árvák RFC-görbéi ismét szorosan megfeleltek a véletlen DNS-re vonatkozó várakozásnak.

Más katalógusok.

A Vega (v34) és a RefSeq (2007. március) katalógusra ugyanezt a megközelítést alkalmaztuk. Mindkét katalógus jelentős arányban tartalmaz olyan bejegyzéseket, amelyek úgy tűnik, hogy nem érvényes fehérjekódoló gének (16%, illetve 10%), a fajok közötti megfelelő hiányában (lásd SI 10. ábra és SI függelék ). Ha a RefSeq-bejegyzéseket a legnagyobb megbízhatóságúakra szűkítjük (azzal a megjegyzéssel, hogy ez a halmaz sokkal kevesebb gént tartalmaz), csak 1% tűnik érvénytelennek. Ez a két katalógus együttesen további 673 fehérjekódoló gént ad hozzá.

Kombinált elemzés.

A három fő génkatalógus elemzését kombinálva azt találjuk, hogy a 24 551 bejegyzésből csak 20 470 tűnik érvényes fehérjekódoló génnek.

Az elemzés korlátai.

A jelenlegi génkatalógusok elemzésének vannak bizonyos korlátai, amelyeket meg kell jegyezni.

Először is, minden pszeudogént és árvát kizártunk. Hat olyan bejelentett esetet találtunk, amikor egy feldolgozott pszeudogén vagy transzpozon exaptáción ment keresztül, hogy funkcionális gént hozzon létre (SI 1. és 3. táblázat), és 12 olyan bejelentett árva esetet, ahol kísérleti bizonyíték van a kódolt fehérjére. Ez a 18 eset könnyen visszailleszthető a katalógusba (így a szám 20 488-ra emelkedik). Vannak további, potenciálisan funkcionális retroposonok esetei, amelyek nem szerepelnek a jelenlegi génkatalógusokban (15). Ha bármelyikről kiderül, hogy fehérjét termel, ezeket is fel kell venni.

Második, nem vettük figyelembe azt a 197 feltételezett gént, amelyek a “feltérképezetlen kontigok” között találhatók. Ezek a régiók olyan szekvenciák, amelyek kimaradtak az emberi genom kész összeállításából. Nagyrészt szegmentális duplikációkból állnak, és a legtöbb gén nagymértékben hasonlít az összeállításban szereplő többi génhez. Sok szekvencia alternatív allélokat vagy a genom rossz összeállítását jelentheti. A szegmentális duplikációs régiók azonban köztudottan az evolúciós innováció fészkei (16), és tartalmazhatnak néhány érvényes gént. Ezek megérdemlik a kiemelt figyelmet.

Harmadszor és ami a legfontosabb, az itt vizsgált nem konzervált ORF-ek jellemzően azért kerültek be a jelenlegi génkatalógusokba, mert legalább 100 aminosavat képesek kódolni. Így nem tudjuk, hogy következtetéseink vonatkoznának-e ennél sokkal rövidebb ORF-ekre is. Elvileg számos további, rövid fehérjéket kódoló gén létezik, mint például a peptidhormonok, amelyeket általában sokkal nagyobb prekurzorokból fordítanak le, és amelyek gyorsan fejlődhetnek. Lehetővé kellene tenni a kisebb ORF-ek tulajdonságainak vizsgálatát az egéren és a kutyán kívül további emlősfajok felhasználásával.

Improving Gene Annotations.

Munkánk során részletes grafikus “jelentéskártyákat” készítettünk az Ensembl (v35) 22 218 feltételezett génjének mindegyikéről. A jelentéskártyák mutatják a génszerkezetet, a szekvenciaillesztéseket, az evolúciós konzerváció mértékét és a végső osztályozásunkat (3. ábra).

3. ábra.

Egy példa génjelentőkártya egy kis génre, a HAMP-ra, a 19. kromoszómán. Az Ensembl v35-ben található összes 22 218 feltételezett génre vonatkozó jelentéskártyák elérhetők a www.broad.mit.edu/mammals/alpheus oldalon. A jelentéskártyák vizuális keretet biztosítanak a fajok közötti konzerváció tanulmányozásához és a humán gén annotáció lehetséges problémáinak felismeréséhez. A felső részen található információk a kromoszómális elhelyezkedést, az alternatív azonosítókat és az összefoglaló információkat, például a hosszúságot, az exonok számát és az ismétlődések tartalmát mutatják. Az alatta lévő különböző panelek grafikus nézeteket nyújtanak az emberi gén egér- és kutyagenomhoz való igazításáról. A “Synteny” a genomszekvencia nagyméretű összehangolását mutatja, feltüntetve az összehangolt és az összehangolatlan szegmenseket. A humán szekvenciát az exonok fehérrel, a repetitív szekvencia sötétszürkével van annotálva. Az “Alignment detail” a teljes DNS-szekvencia-illesztést és a fehérjeillesztést mutatja. A DNS-illesztésnél az emberi szekvencia van felül, a többi faj bázisai megegyező (világosszürke) vagy nem egyező (sötétszürke) jelöléssel vannak ellátva, az exonhatárokat függőleges vonalak jelölik, az indeleket kis háromszögek jelölik a szekvencia felett (a csúcs lefelé a beillesztéseknél, a csúcs felfelé a törléseknél, a szám a bázisok hosszát jelzi), az annotált startkódon zölddel, az annotált stopkódon pedig lilával van jelölve. A fehérjeillesztésben az emberi aminosav szekvencia van megadva felül, és a többi faj szekvenciái egyező (világosszürke), hasonló (rózsaszín) vagy nem egyező (piros) szekvenciaként vannak jelölve. A “Frame alignment” az egyes kodonpozíciókban talált nukleotid-eltérések eloszlását mutatja, a harmadik pozícióban várható többletmutációkkal. Az egyezéseket világosszürkével, a nem egyezéseket sötétszürkével ábrázoljuk. Az “Indelek, kezdetek és leállások” áttekintést nyújt a kulcsfontosságú eseményekről. Az indeleket háromszögek jelzik (beillesztés esetén csúcs lefelé, törlés esetén csúcs felfelé), és frameshiftingként (piros) vagy frame-preservingként (szürke) vannak jelölve. A startkódonok zölddel, a stopkódonok lilával vannak jelölve. A “Splice sites” a szekvencia konzerváltságát mutatja a splice-helyek körül, a két bázist tartalmazó donor és akceptor helyeket szürkével, a nem illeszkedő bázisokat pedig pirossal jelölve. Az “Összefoglaló adatok” különböző konzervációs statisztikákat sorol fel az egérhez és a kutyához viszonyítva, beleértve az RFC pontszámot, a nukleotid azonosságot, a konzervált splice helyek számát, a frameshifting és nem frameshifting indel sűrűséget/kb, és a gén szomszédságát. A génszomszédság a három upstream és downstream génhez tartozó pontot mutatja, amely szürke színű, ha a szintenia megmaradt, egyébként pedig piros.

A jelentéskártyák értékesek a génfejlődés tanulmányozásához és a génannotáció finomításához. A helyi anomáliák fajközi összehasonlítással történő vizsgálatával 23 egyértelmű hibát azonosítottunk a gén annotációjában (beleértve azokat az eseteket, amikor az olvasási keret vagy a kódoló szál megváltoztatása egyértelmű fajközi ortológokat tár fel), és 332 olyan esetet, amikor a fajközi konzerváció a start- vagy stopkódon megváltoztatását, egy belső exon megszüntetését vagy egy splice-hely áthelyezését sugallja. Ez utóbbi esetek közül a legtöbb valószínűleg a humán gén annotációjának hibája, bár egyesek valódi fajközi különbségeket jelenthetnek. A jelentéskártyák, a keresőeszközökkel és az összefoglaló táblázatokkal együtt a www.broad.mit.edu/mammals/alpheus oldalon érhetők el.

Similar Posts

Vélemény, hozzászólás?

Az e-mail-címet nem tesszük közzé.