Proteiinia koodaavien ja ei-koodaavien geenien erottaminen ihmisen genomissa

author
13 minutes, 58 seconds Read

Tulokset

Orvojen tunnistaminen.

Analyysimme edellyttää sellaisten ihmisen ORF:ien ominaisuuksien tutkimista, joilta puuttuvat lajikohtaiset vastineet, joita kutsumme ”orvoiksi”. Tällainen tutkimus edellyttää ihmisen geeniluetteloiden huolellista suodattamista, jotta voidaan tunnistaa geenit, joilla on vastineet, ja poistaa monenlaisia artefakteja, jotka häiritsisivät orpojen analysointia. Tästä syystä teimme perusteellisen uudelleenanalyysin ihmisen geeniluetteloista.

Keskityimme Ensembl-luetteloon (versio 35), jossa luetellaan 22 218 proteiinia koodaavaa geeniä, joissa on yhteensä 239 250 eksonia. Analyysissämme otimme huomioon vain ne 21 895 geeniä, jotka sisältyvät ihmisen genomin referenssisekvenssiin kromosomeista 1-22 ja X. (Jätimme siis pois mitokondriokromosomin, kromosomin Y ja ”sijoittamattomat kontigit”, joihin liittyy erityisiä näkökohtia; ks. jäljempänä.)

Kehitimme laskennallisen protokollan, jonka avulla putatiiviset geenit luokiteltiin vertailemalla niitä ihmisen, hiiren ja koiran genomiin (kuvio 1; ks. Materiaalit ja menetelmät). Hiiren ja koiran genomeja käytettiin, koska korkealaatuisia genomisekvenssejä on saatavilla (7, 8), ja sekvenssierojen laajuus soveltuu hyvin geenien tunnistamiseen. Nukleotidisubstituutiotiheys suhteessa ihmiseen on hiirellä ≈0,50 emästä kohden ja koiralla ≈0,35. Insertioita ja deletointeja (indeleitä) esiintyy ≈10-kertaisesti harvemmin (8, 9). Nämä frekvenssit ovat riittävän alhaisia luotettavan sekvenssikohdistuksen mahdollistamiseksi, mutta riittävän korkeita paljastaakseen koodaavilla ja ei-koodaavilla alueilla odotettavissa olevat erilaiset mutaatiomallit.

Luokka 2: Geenit, joilla on lajien välisiä paralogeja.

Putkilinja tunnisti tämän jälkeen 155 tapausta, joissa oletetuilla ihmisgeeneillä on ihmisgenomissa paralogi, jolla puolestaan on ortologi hiiressä tai koirassa. Nämä geenit edustavat suurelta osin ei-paikallisia duplikaatioita ihmisen sukulinjassa (kolme neljäsosaa sijaitsee segmentaalisissa duplikaatioissa) tai mahdollisesti geenien menetyksiä muissa sukulinjoissa. Näistä geeneistä lähempi tarkastelu paljasti kahdeksan tapausta, joissa pieni muutos ihmisen annotaatioon mahdollisti selkeän ihmisen ortologin tunnistamisen.

Luokka 3: Geenit, joilla on vain ihmisen paralogit.

Tutkimusputki tunnisti 68 tapausta, joissa oletetuilla ihmisen geeneillä on yksi tai useampi paralogi ihmisen genomissa, mutta yhdelläkään näistä paralogeista ei ole ortologeja hiirellä tai koiralla. Tarkka tarkastelu poisti 17 tapausta ylimääräisiksi retroposoneiksi tai muiksi artefakteiksi (ks. SI-liite ). Loput 51 tapausta näyttävät olevan kelvollisia geenejä, joista 15 kuuluu kolmeen tunnettuun kädelliselle spesifiseen geeniperheeseen (DUF1220-, NPIP- ja CDRT15-perheet) ja loput esiintyvät pienemmissä paralogisissa ryhmissä (kahdesta kahdeksaan jäsentä), jotka voivat myös edustaa kädelliselle spesifisiä perheitä.

Luokka 4: Geenit, joilla on Pfam-verkkotunnuksia.

Putkilinja yksilöi 97 tapausta, jotka ovat sellaisia, että ne ovat sellaisia, että niillä on homologiaa tunnetun proteiinidomeenin kanssa, joka on Pfam-tiedotteiden kokoelmasta (10). Tarkka tarkastelu poisti 21 tapausta ylimääräisiksi retroposoneiksi tai muiksi artefakteiksi (ks. SI-liite ) ja 40 tapausta, joissa pieni muutos ihmisen annotaatioon mahdollisti selkeän ihmisen ortologin tunnistamisen. Jäljelle jääneet 36 geeniä näyttävät olevan kelvollisia geenejä, joista 10 sisältää tunnettuja kädellisille spesifisiä domeeneja ja 26 monille lajeille yhteisiä domeeneja.

Luokka 5: Orvot.

Yllämainitun menettelyn jälkeen jäljelle jäi yhteensä 1285 oletettua geeniä. Lähempi tarkastelu tunnisti 40 tapausta, jotka olivat selviä artefakteja (pitkiä tandemtoistoja, joista sattuu puuttumaan stop-kodoni), ja 68 tapausta, joissa ihmisgeenin annotaatioon tehdyn pienen muutoskorjauksen jälkeen voitiin määrittää lajienvälinen ortologi. Loput 1177 tapausta julistettiin orvoiksi, koska niillä ei ole ortologiaa, paralogiaa tai homologiaa tunnettujen geenien kanssa eivätkä ne ole ilmeisiä artefakteja. Huomautamme, että geenien huolellinen tarkistaminen oli olennaista, jotta saatiin ”puhdas” joukko orpoja myöhempää analyysia varten.

Orpojen karakterisointi.

Karakterisoimme orpojen ominaisuuksia nähdaksemme, muistuttavatko ne proteiineja koodaavien geenien kohdalla nähtyjä tai ei-koodaavissa transkripteissä syntyville satunnaisille ORF:ille odotettuja ominaisuuksia.

ORF-pituudet.

Orvojen GC-pitoisuus on 55 %, mikä on paljon korkeampi kuin ihmisen genomissa keskimäärin (39 %) ja samankaltainen kuin proteiinia koodaavissa geeneissä, joilla on lajirajat ylittäviä vastineita (53 %). Korkea GC-pitoisuus kuvastaa orpojen taipumusta esiintyä geenirikkailla alueilla.

Tarkastelimme orpojen ORF-pituuksia suhteessa niiden GC-pitoisuuteen. Orvojen ORF:t ovat suhteellisen pieniä (mediaani = 393 bp), ja ORF:n pituuksien jakauma muistuttaa läheisesti matemaattista odotusta pisimmästä ORF:stä, joka syntyisi sattumalta transkriptiosta, joka on peräisin ihmisen genomisesta DNA:sta, jossa on havaittu GC-pitoisuus (SI-kuvio 4).

Säilyvyysominaisuudet.

Keskeytimme sen jälkeen tarkastelemme lajien välisiä säilyvyysominaisuuksia. Arvioidaksemme eri toimenpiteiden herkkyyttä tarkastelimme 5 985 ”hyvin tutkittua” geeniä, jotka määriteltiin sillä kriteerillä, että niitä käsitellään yli viidessä julkaistussa artikkelissa. Jokaista hyvin tutkittua geeniä varten valitsimme ihmisen genomista vastaavan satunnaiskontrollisekvenssin, jolla on samanlainen määrä ”eksoneja”, joilla on samanlainen pituus, samanlainen osuus toistosekvenssejä ja samanlainen osuus lajienvälisestä kohdentumisesta, mutta joka ei ole päällekkäinen minkään oletetun geenin kanssa.

Hyvin tutkitut geenit ja vastaavat satunnaiskontrollisekvenssit eroavat toisistaan kaikkien tutkittujen säilyvyysominaisuuksien suhteen (SI Kuva 5 ja SI Taulukko 1). Nukleotidi-identiteetti ja Ka/Ks-suhde eroavat selvästi toisistaan, mutta jakaumat ovat laajoja ja niissä on huomattavaa päällekkäisyyttä. Indelitiheyden jakauma on tiukempi: 97,3 %:lla hyvin tutkituista geeneistä, mutta vain 2,8 %:lla satunnaisista kontrolleista, indelitiheys on <10 per kb. Jyrkimmät erot löytyivät kuitenkin kahdesta mittarista, jotka heijastavat proteiineja koodaavien geenien omaleimaista evoluutiota: lukukehyksen säilyneisyys (RFC-pistemäärä) ja koodonien korvautumisfrekvenssi (CSF-pistemäärä).

Lukukehyksen säilyneisyys.

RFC-pistemäärä kuvastaa niiden nukleotidien prosentuaalista osuutta, joiden lukukehys on säilynyt eri lajeissa eri tavoin kuin muilla lajeilla, ja joiden lukukehys on säilynyt eri lajeissa eri tavoin kuin muilla lajeilla. RFC-pistemäärä määritetään kohdistamalla ihmisen sekvenssi sen lajirajat ylittävään ortologiin ja laskemalla niiden nukleotidien enimmäisprosenttiosuus, joiden lukukehys on säilynyt, ortologin kolmesta mahdollisesta lukukehyksestä. Tulokset keskiarvoistetaan 100 emäksen liukuvissa ikkunoissa, jotta voidaan rajoittaa sekvenssien kohdistamisessa ja geenien rajojen merkinnöissä esiintyvien virheiden aiheuttamien paikallisten vaikutusten leviämistä. Laskimme erilliset RFC-pisteet sekä hiiren että koiran genomiin nähden ja keskityimme yhteiseen RFC-pisteeseen, joka määritellään kahdesta pisteestä suuremmaksi. RFC-pistemäärä kuvattiin alun perin hiivaa koskevassa työssämme, mutta sitä on mukautettu siten, että se vastaa intronien usein esiintyvää esiintymistä ihmisen sekvenssissä (ks. SI-liite ).

RFC-pistemäärä osoittaa, että hyvin tutkittujen geenien ja satunnaiskontrollin välillä ei ole käytännöllisesti katsoen mitään päällekkäisyyttä (SI-kuva 5). Vain 1 % satunnaiskontrolleista ylittää kynnysarvon RFC >90, kun taas 98,2 % hyvin tutkituista geeneistä ylittää tämän kynnysarvon. Tilanne on samanlainen koko 18 752 geenin joukossa, joilla on lajikohtaiset vastineet, ja 97 prosenttia ylittää kynnysarvon (kuva 2 a). RFC-pistemäärä on hieman alhaisempi nopeammin kehittyvillä geeneillä, mutta jopa nopeasti kehittyvien geenien ylimmän 1 %:n RFC-jakauma eroaa jyrkästi satunnaisista kontrolleista (SI-kuva 5).

Kuva 2. RFC-pistemäärä.

RFC-pisteiden kumulatiiviset jakaumat. (Vasemmalla) Ihmisen geenit, joilla on lajirajat ylittäviä ortologeja (sininen) vs. vastaavat satunnaiskontrollit (musta). (Oikea) Ihmisen orvot (punainen) vs. sovitetut satunnaiskontrollit (musta). RFC-pisteet on laskettu suhteessa hiireen ja koiraan yhdessä (ylhäällä), makakiiniin (keskellä) ja simpanssiin (alhaalla). Kaikissa tapauksissa ortologit eroavat silmiinpistävästi vastaavista satunnaiskontrolleista, kun taas orvot ovat olennaisesti erottamattomia vastaavista satunnaiskontrolleista.

Orvot sen sijaan näyttävät täysin erilaisen kuvan. Ne ovat olennaisesti erottautumattomia sovitetuista satunnaiskontrollilajeista (kuva 2 b), eivätkä ne muistuta edes kaikkein nopeimmin kehittyvää osajoukkoa 18 572 geenistä, joilla on lajirajat ylittäviä vastineita. Lyhyesti sanottuna orpojen joukko ei osoita minkäänlaista taipumusta lukukehyksen säilyttämiseen.

Kodonien korvautumisfrekvenssi.

Kodonien korvautumisfrekvenssi tarjoaa täydentävän testin proteiineja koodaavien geenien evoluutiomallista. Siinä missä RFC-pistemäärä perustuu indeleihin, CSF-pistemäärä perustuu erilaisiin nukleotidisubstituutiomalleihin, joita nähdään proteiinikoodaavassa ja satunnaisessa DNA:ssa. Menetelmä, joka on hiljattain kehitetty Drosophila-lajien vertailevaa genomianalyysia varten (11), laskee koodonien substituutiofrekvenssipisteytyksen (CSF-pisteytyksen), joka perustuu useiden lajien välisiin linjauksiin. Sovelsimme CSF-menetelmää ihmisen ja yhdeksän nisäkäslajin kohdistuksiin, jotka koostuivat hiiren, koiran, rotan, lehmän ja opossumin korkean peittävyyden sekvensseistä (≈7×) ja kanin, vyötiäisen, elefantin ja tenrecin matalan peittävyyden sekvensseistä (≈2×).

Tulokset osoittivat jälleen kerran, että geenit, joilla on lajirajat ylittäviä vastinpareja, erottuvat voimakkaasti toisistaan. Yksinkertaisen ortologian omaavista 16 210 geenistä 99,2 % antoi CSF-pisteet, jotka vastasivat proteiinia koodaavien geenien odotettua evoluutiota. Sitä vastoin 1 177 orpoa sisältää vain kaksi tapausta, joiden koodonien evoluutiomalli viittasi kelvolliseen geeniin. Tarkasteltaessa nämä kaksi tapausta olivat selviä virheitä ihmisen geenin annotaatiossa; kääntämällä sekvenssi eri kehykseen voidaan tunnistaa selvä lajin rajat ylittävä ortologi.

Orvot eivät edusta proteiinia koodaavia geenejä.

Ylläolevat tulokset ovat sopusoinnussa sen kanssa, että orvot ovat pelkkiä sattumanvaraisia ORF:iä pikemminkin kuin päteviä ihmisen proteiinia koodaavia geenejä. Johdonmukaisuus ei kuitenkaan ole todiste. Pikemminkin meidän on tiukasti hylättävä vaihtoehtoinen hypoteesi.

Emme oleta, että orvot edustavat kelvollisia ihmisen proteiinia koodaavia geenejä, joista puuttuu vastaavat ORF:t hiirellä ja koiralla. Orvot jakautuisivat kahteen luokkaan: (i) osa voi olla hiiren ja koiran eroa edeltäneitä – eli ne ovat esi-isien geenejä, jotka hävisivät sekä hiirestä että koirasta, ja (ii) osa voi olla eron jälkeisiä – eli ne ovat uusia geenejä, jotka ovat syntyneet ihmiseen johtavassa sukupuussa. Miten voimme sulkea nämä mahdollisuudet pois? Ratkaisumme oli tutkia kahta kädellisten sukulaista: makakkia ja simpanssia. Tarkastelemme vaihtoehtoja vuorotellen.

  1. Oletetaan, että orvot ovat nisäkkäiden esi-isien geenejä, jotka katosivat koiralta ja hiireltä mutta säilyivät ihmiseen johtavassa sukupuussa. Jos näin on, ne olisivat edelleen läsnä ja toiminnassa makakissa ja simpanssissa, paitsi siinä epätodennäköisessä tapauksessa, että myös ne olisivat kokeneet itsenäisiä häviämistapahtumia sekä makakki- että simpanssilinjassa.

  2. Esitettäköön, että orvot geenit ovat uusia geenejä, jotka ovat syntyneet ihmiseen johtavassa linjassa koirasta ja hiirestä tapahtuneen divergenssin jälkeen. Jos oletetaan, että uusien geenien syntyminen on tasainen prosessi, syntymäaikojen pitäisi jakautua tälle ajanjaksolle. Jos näin on, suurin osa syntymäajoista ajoittuu ennen makakista eroamista (≈30 Mya) ja lähes kaikki ennen simpanssista eroamista (≈6 Mya) (12).

Jommassakummassa edellä mainituista skenaarioista valtaosan orvoista on vastattava toimivia proteiineja koodaavia geenejä makakissa tai simpanssissa.

Testasimme siksi RFC-pistemäärän avulla, onko orvoissa todisteita proteiinikoodaavien geenien säilymisestä suhteessa joko makakiiniin tai simpanssiin. On silmiinpistävää, että orpojen RFC-pisteiden jakauma on olennaisesti identtinen satunnaiskontrollin jakauman kanssa (kuva 2 d ja f). Orpojen jakauma ei muistuta sitä jakaumaa, joka on nähtävissä edes nopeimmin kehittyneiden geenien ylimmän 1 %:n osalta, joilla on lajirajat ylittäviä vastineita (SI-kuva 7-9).

Orpojen joukosta ei siis löydy mitään todisteita lukukehyksen säilymisestä edes lähimmissä kädellisissä sukulaisissamme. (On tietysti mahdollista, että orpojen joukossa on muutamia kelvollisia proteiineja koodaavia geenejä, mutta niiden osuuden on oltava niin pieni, ettei sillä ole havaittavaa vaikutusta RFC:n kokonaisjakaumaan). Päättelemme, että valtaosa orvoista ei vastaa toimivia proteiineja koodaavia geenejä makakissa ja simpanssissa, eivätkä ne näin ollen ole esi-isien tai vasta syntyneitä geenejä.

Jos orvot edustavat kelvollisia ihmisen proteiineja koodaavia geenejä, meidän olisi pääteltävä, että valtaosa orvoista on syntynyt simpanssista eroamisen jälkeen. Tällainen malli edellyttäisi, että nisäkkäiden sukulinjoissa syntyisi valtavasti geenejä ja että geenien kuolema pyyhkisi pois valtavan määrän geenejä, jotka syntyivät ennen simpanssista eroamista. Hylkäämme tällaisen mallin täysin epäuskottavana. Päättelemme näin ollen, että valtaosa orvoista on yksinkertaisesti satunnaisesti esiintyviä ORF:iä, jotka eivät edusta proteiinia koodaavia geenejä.

Viimeiseksi toteamme, että edellä mainittu ihmisen geeniluettelon huolellinen suodattaminen oli olennaista edellä esitetylle analyysille, koska se poisti pseudogeenit ja artefaktit, jotka olisivat estäneet orpojen ominaisuuksien tarkan analysoinnin.

Kokeellinen näyttö koodatuista proteiineista.

Johtopäätöstemme riippumattomana tarkistuksena kävimme läpi tieteellisen kirjallisuuden julkaistujen artikkeleiden osalta, joissa mainitaan orvot, selvittääksemme, oliko koodatuista proteiineista kokeellista näyttöä. Vaikka valtaosan hyvin tutkituista geeneistä on osoitettu suoraan koodaavan proteiinia, löysimme artikkeleita, joissa raportoitiin kokeellista näyttöä koodatusta proteiinista in vivo vain 12:sta 1 177 orposta, ja osa näistä raporteista on epäselviä (SI-taulukko 2). Kokeellinen todistusaineisto on siten yhdenmukainen sen päätelmämme kanssa, että valtaosa ei-konservoituneista ORF:istä ei ole proteiinia koodaavia. Niissä kourallisissa tapauksissa, joissa kokeellista näyttöä on olemassa tai löytyy tulevaisuudessa, geenit voidaan palauttaa luetteloon tapauskohtaisesti.

Ihmisen geeniluetteloiden tarkistaminen

Vahvojen todisteiden perusteella siitä, että valtaosa orvoista ei ole proteiinia koodaavia geenejä, on mahdollista tarkistaa ihmisen geeniluetteloita periaatteellisella tavalla.

Ensembl-katalogi.

Analyysimme Ensembl-katalogista (v35) osoittaa, että se sisältää 19 108 kelvollista proteiinia koodaavaa geeniä kromosomeilla 1-22 ja X nykyisen genomikokoonpanon sisällä. Loput 15 % merkinnöistä on eliminoitu retroposoneina, artefakteina tai orvoina. Yhdessä mitokrondriokromosomin ja kromosomin Y kanssa kokonaismääräksi tulee 19 199.

Lisäsimme analyysin Ensembl (v38) -luetteloon, johon lisättiin 2212 oletettua geeniä ja monia aiempia merkintöjä tarkistettiin tai poistettiin. Laskennallinen putkilinjamme löysi 598 uutta kelvollista proteiinia koodaavaa geeniä, jotka perustuvat lajien välisiin vastineisiin, 1135 retroposonia ja 479 orpoa geeniä. Orvojen RFC-käyrät vastasivat jälleen tarkasti satunnaisen DNA:n odotuksia.

Muut luettelot.

Sovelsimme samaa lähestymistapaa Vegan (v34) ja RefSeqin (maaliskuu 2007) luetteloihin. Molemmissa luetteloissa on huomattava osuus merkintöjä, jotka eivät näytä olevan kelvollisia proteiineja koodaavia geenejä (16 % ja 10 %) sen perusteella, että niillä ei ole lajirajat ylittävää vastinetta (ks. SI-kuva 10 ja SI-liite ). Jos rajoitamme RefSeq-tietueet niihin, joiden luotettavuus on korkein (sillä varauksella, että tämä joukko sisältää paljon vähemmän geenejä), vain 1 % vaikuttaa virheelliseltä. Yhdessä nämä kaksi luetteloa lisäävät 673 proteiinia koodaavaa geeniä.

Yhdistetty analyysi.

Yhdistämällä kolmen tärkeimmän geeniluettelon analyysin havaitsemme, että vain 20 470 merkintää 24 551:stä näyttää olevan päteviä proteiinia koodaavia geenejä.

Analyysin rajoitukset.

Tämänhetkisten geeniluetteloiden analyysissämme on tiettyjä rajoituksia, jotka on syytä huomioida.

Ensiksi poistimme kaikki pseudogeenit ja orvot. Löysimme kuusi raportoitua tapausta, joissa prosessoitu pseudogeeni tai transposoni kävi läpi eksaptaation tuottaakseen toiminnallisen geenin (SI-taulukot 1 ja 3), ja 12 raportoitua tapausta orvoista, joissa oli kokeellista näyttöä koodatusta proteiinista. Nämä 18 tapausta voidaan helposti palauttaa luetteloon (mikä nostaa lukumäärän 20 488:aan). On muitakin tapauksia mahdollisesti toimivista retroposoneista, joita ei ole nykyisissä geeniluetteloissa (15). Jos joidenkin havaitaan tuottavan proteiinia, myös ne olisi sisällytettävä luetteloon.

Toiseksi emme ole ottaneet huomioon 197 oletettua geeniä, jotka sijaitsevat ”kartoittamattomissa contigeissa”. Nämä alueet ovat sekvenssejä, jotka on jätetty pois ihmisen genomin valmiista kokoonpanosta. Ne koostuvat suurelta osin segmentaalisista duplikaatioista, ja suurin osa geeneistä on hyvin samankaltaisia kuin muut kokoonpanossa olevat geenit. Monet sekvensseistä saattavat edustaa vaihtoehtoisia alleeleja tai genomin virheellisiä kokoonpanoja. Segmenttiduplikaatioiden alueiden tiedetään kuitenkin olevan evolutiivisten innovaatioiden kasvattamoja (16), ja ne saattavat sisältää joitakin päteviä geenejä. Ne ansaitsevat erityistä huomiota.

Kolmanneksi ja mikä tärkeintä, tässä tutkitut ei-konservoituneet ORF:t sisällytettiin tyypillisesti nykyisiin geeniluetteloihin, koska niillä on potentiaalia koodata vähintään 100 aminohappoa. Emme siis tiedä, soveltuisivatko johtopäätöksemme paljon lyhyempiin ORF:iin. Periaatteessa on olemassa monia muita proteiineja koodaavia geenejä, jotka koodaavat lyhyitä proteiineja, kuten peptidihormoneja, jotka yleensä käännetään paljon suuremmista esiasteista ja jotka voivat kehittyä nopeasti. Pienten ORF:ien ominaisuuksia pitäisi olla mahdollista tutkia käyttämällä hiiren ja koiran lisäksi muitakin nisäkäslajeja.

Improving Gene Annotations.

Työssämme loimme yksityiskohtaiset graafiset ”raporttikortit” jokaisesta Ensemblissä (v35) olevasta 22 218:sta oletetusta geenistä. Raporttikortit osoittavat geenin rakenteen, sekvenssikohdistukset, evolutiivisen säilymisen mittarit ja lopullisen luokituksemme (kuva 3).

Kuva 3. Genembl.

Esimerkki geeniraporttikortista pienelle geenille, HAMP, kromosomissa 19. Ensembl v35:n kaikkien 22 218 oletetun geenin raporttikortit ovat saatavilla osoitteessa www.broad.mit.edu/mammals/alpheus. Raporttikortit tarjoavat visuaalisen kehyksen lajien välisen konservaation tutkimiseen ja mahdollisten ongelmien havaitsemiseen ihmisen geenien annotaatiossa. Yläosassa olevat tiedot osoittavat kromosomipaikan, vaihtoehtoiset tunnisteet ja yhteenvetotiedot, kuten pituuden, eksonien lukumäärän ja toistojen määrän. Alla olevissa eri paneeleissa on graafisia näkymiä ihmisen geenin kohdistamisesta hiiren ja koiran genomiin. ”Synteny” näyttää genomisekvenssin laajamittaisen kohdistuksen, jossa näkyvät sekä kohdistetut että kohdistamattomat segmentit. Ihmisen sekvenssi on merkitty siten, että eksonit on merkitty valkoisella ja toistuvat sekvenssit tummanharmaalla. ”Alignment detail” näyttää täydellisen DNA-sekvenssin kohdistuksen ja proteiinien kohdistuksen. Muiden lajien emäkset on merkitty vastaaviksi (vaaleanharmaa) tai ei vastaaviksi (tummanharmaa), eksonien rajat on merkitty pystysuorilla viivoilla, indelit on merkitty pienillä kolmioilla sekvenssin yläpuolella (kärkipiste alaspäin, kun kyseessä on lisäys, kärkipiste ylöspäin, kun kyseessä on poisto, ja numero osoittaa pituuden emäspisteinä), kommentoitu aloituskoodoni on vihreällä ja kommentoitu lopetuskoodoni violetilla värillä. Proteiinikohdistuksessa ihmisen aminohapposekvenssi on ylhäällä, ja muiden lajien sekvenssit on merkitty vastaaviksi (vaaleanharmaa), samankaltaisiksi (vaaleanpunainen) tai ei vastaaviksi (punainen). ”Frame alignment” näyttää kussakin kodonipaikassa havaittujen nukleotidivirheiden jakauman, ja kolmannessa paikassa odotetaan ylimääräisiä mutaatioita. Vastaavuudet esitetään vaaleanharmaalla ja epäsuhtaisuudet tummanharmaalla. ”Indelit, aloitukset ja lopetukset” tarjoaa yleiskatsauksen tärkeimmistä tapahtumista. Indelit on merkitty kolmioilla (kärki alaspäin, kun kyseessä on lisäys, kärki ylöspäin, kun kyseessä on poisto), ja ne on merkitty kehyksiä siirtäviksi (punainen) tai kehyksiä säilyttäviksi (harmaa). Aloituskodonit on merkitty vihreällä ja lopetuskodonit violetilla. ”Liitospaikat” osoittaa sekvenssin säilymisen liitospaikkojen ympärillä, ja kahden emäksen luovuttaja- ja hyväksymiskohdat on korostettu harmaalla ja epäsopivat emäkset on merkitty punaisella. ”Yhteenvetotiedot” sisältää erilaisia säilyvyystilastoja suhteessa hiireen ja koiraan, mukaan lukien RFC-pisteet, nukleotidi-identiteetti, konservoitujen liitoskohtien määrä, frameshifting- ja nonframeshifting-indel-tiheys/kb ja geenin naapuruus. Geenin naapurustossa näkyy kolmen ylävirran ja alavirran geenin piste, joka on värjätty harmaaksi, jos syntenia on säilynyt, ja muuten punaiseksi.

Raporttikortit ovat arvokkaita geenien evoluution tutkimisessa ja geenien annotaation tarkentamisessa. Tarkastelemalla paikallisia poikkeavuuksia lajien välisessä vertailussa olemme tunnistaneet 23 selvää virhettä geenien annotaatiossa (mukaan lukien tapaukset, joissa lukukehyksen tai koodaavan säikeen muuttaminen paljastaa yksiselitteisiä lajien välisiä ortologeja) ja 332 tapausta, joissa lajien välinen säilyminen viittaa alku- tai lopetuskodonin muuttamiseen, sisäisen eksonin poistamiseen tai liitospaikan siirtämiseen. Näistä jälkimmäisistä tapauksista suurin osa on todennäköisesti virheitä ihmisen geenin annotaatiossa, vaikka jotkut tapaukset saattavat edustaa todellisia lajin välisiä eroja. Raporttikortit sekä hakutyökalut ja yhteenvetotaulukot ovat saatavilla osoitteessa www.broad.mit.edu/mammals/alpheus.

.

Similar Posts

Vastaa

Sähköpostiosoitettasi ei julkaista.