Wyróżnianie genów kodujących białka i niekodujących w ludzkim genomie

author
17 minutes, 22 seconds Read

Wyniki

Identyfikacja sierot.

Nasza analiza wymaga zbadania właściwości ludzkich ORF, którym brakuje odpowiedników międzygatunkowych, które nazywamy „sierotami”. Takie badanie wymaga starannego filtrowania katalogów ludzkich genów, aby zidentyfikować geny z odpowiednikami i wyeliminować szeroki zakres artefaktów, które mogłyby zakłócić analizę sierot. Z tego powodu podjęliśmy się dokładnej reanalizy katalogów ludzkich genów.

Skupiliśmy się na katalogu Ensembl (wersja 35), który wymienia 22 218 genów kodujących białka z całkowitą liczbą 239 250 eksonów. W naszej analizie uwzględniliśmy tylko 21 895 genów w sekwencji referencyjnej ludzkiego genomu chromosomów 1-22 i X. (Pominęliśmy zatem chromosom mitochondrialny, chromosom Y i „unplaced contigs”, które wymagają specjalnych rozważań; patrz poniżej.)

Opracowaliśmy protokół obliczeniowy, za pomocą którego putatywne geny są klasyfikowane na podstawie porównania z genomami człowieka, myszy i psa (ryc. 1; patrz Materiały i Metody). Wykorzystano genomy myszy i psów, ponieważ dostępna jest wysokiej jakości sekwencja genomowa (7, 8), a zakres rozbieżności sekwencji jest dobrze dostosowany do identyfikacji genów. Wskaźnik substytucji nukleotydów w stosunku do człowieka wynosi ≈0,50 na bazę dla myszy i ≈0,35 dla psa, przy czym zdarzenia insercji i delecji (indel) występują z częstotliwością ≈10-krotnie niższą (8, 9). Te wskaźniki są wystarczająco niskie, aby umożliwić wiarygodne wyrównanie sekwencji, ale wystarczająco wysokie, aby ujawnić różne wzorce mutacji oczekiwane w regionach kodujących i niekodujących.

Klasa 2: Geny z paralogami międzygatunkowymi.

Potok zidentyfikował następnie 155 przypadków domniemanych genów ludzkich, które mają paralog w genomie ludzkim, który z kolei ma ortologa u myszy lub psa. Geny te w dużej mierze reprezentują nielokalne duplikacje w linii ludzkiej (trzy czwarte leży w duplikacjach segmentalnych) lub prawdopodobnie straty genów w innych liniach. Wśród tych genów dokładna inspekcja ujawniła osiem przypadków, w których niewielka zmiana w anotacji człowieka pozwoliła na identyfikację wyraźnego ludzkiego ortologa.

Klasa 3: Geny z paralogami tylko u człowieka.

Potok zidentyfikował 68 przypadków domniemanych genów ludzkich, które mają jeden lub więcej paralogów w ludzkim genomie, ale żaden z tych paralogów nie ma ortologów u myszy lub psa. Dokładna inspekcja wyeliminowała 17 przypadków jako dodatkowe retroposony lub inne artefakty (patrz Dodatek SI ). Pozostałe 51 przypadków wydaje się być ważnymi genami, przy czym 15 należy do trzech znanych rodzin genów specyficznych dla naczelnych (rodziny DUF1220, NPIP i CDRT15), a pozostałe występują w mniejszych grupach paralogicznych (od dwóch do ośmiu członków), które również mogą reprezentować rodziny specyficzne dla naczelnych.

Klasa 4: Geny z domenami Pfam.

Potok zidentyfikował 97 przypadków domniemanych genów z homologią do znanej domeny białkowej w kolekcji Pfam (10). Dokładna inspekcja wyeliminowała 21 przypadków jako dodatkowe retroposony lub inne artefakty (patrz Dodatek SI ) oraz 40 przypadków, w których niewielka zmiana w anotacji człowieka pozwoliła na identyfikację wyraźnego ludzkiego ortologa. Pozostałe 36 genów wydaje się być poprawnymi genami, z 10 zawierającymi znane domeny specyficzne dla naczelnych i 26 zawierającymi domeny wspólne dla wielu gatunków.

Klasa 5: Sieroty.

Po powyższej procedurze pozostało w sumie 1285 domniemanych genów. Dokładna inspekcja zidentyfikowała 40 przypadków, które były wyraźnymi artefaktami (długie powtórzenia tandemowe, którym zdarzyło się nie mieć kodonu stop) i 68 przypadków, w których można było przypisać ortologa międzygatunkowego po niewielkiej korekcie zmian w anotacji ludzkiego genu. Pozostałe 1177 przypadków uznano za sieroty, ponieważ brakuje im ortologii, paralogii lub homologii do znanych genów i nie są oczywistymi artefaktami. Zwracamy uwagę, że staranny przegląd genów był niezbędny do uzyskania „czystego” zestawu sierot do późniejszej analizy.

Charakteryzowanie sierot.

Charakteryzowaliśmy właściwości sierot, aby zobaczyć, czy przypominają one te widziane dla genów kodujących białka lub oczekiwane dla random ORFs powstających w niekodujących transkryptach.

Długości ORF.

Sieroty mają zawartość GC 55%, która jest znacznie wyższa niż średnia dla ludzkiego genomu (39%) i podobna do tej widzianej w genach kodujących białka z odpowiednikami międzygatunkowymi (53%). Wysoka zawartość GC odzwierciedla tendencję sierot do występowania w regionach bogatych w geny.

Zbadaliśmy długości ORF sierot, w stosunku do ich zawartości GC. Sieroty mają stosunkowo małe ORF (mediana = 393 bp), a rozkład długości ORF ściśle przypomina matematyczne oczekiwanie dla najdłuższego ORF, który powstałby przypadkowo w transkrypcie pochodzącym z formy ludzkiego genomowego DNA z obserwowaną zawartością GC (SI Fig. 4).

Właściwości konserwatorskie.

Następnie skupiliśmy się na międzygatunkowych właściwościach konserwatorskich. Aby ocenić wrażliwość różnych środków, zbadaliśmy zestaw 5,985 „dobrze zbadanych” genów zdefiniowanych przez kryterium, że są one omawiane w więcej niż pięciu opublikowanych artykułach. Dla każdego dobrze zbadanego genu wybraliśmy dopasowaną losową sekwencję kontrolną z ludzkiego genomu, mającą podobną liczbę „eksonów” o podobnej długości, podobną proporcję sekwencji powtórzonej i podobną proporcję wyrównania międzygatunkowego, ale nie pokrywającą się z żadnymi genami putatywnymi.

Dobrze zbadane geny i dopasowane losowe kontrole różnią się pod względem wszystkich badanych właściwości konserwacyjnych (SI Fig. 5 i SI Tabela 1). Identyczność nukleotydów i stosunek Ka/Ks wyraźnie się różnią, ale rozkłady są szerokie i mają znaczne nakładanie się. Gęstość indeli ma ściślejszy rozkład: 97,3% dobrze zbadanych genów, ale tylko 2,8% przypadkowych kontroli, ma gęstość indeli <10 na kb. Najostrzejsze rozróżnienia znaleziono jednak dla dwóch miar, które odzwierciedlają charakterystyczną ewolucję genów kodujących białka: wynik zachowania ramki odczytu (RFC) i wynik częstotliwości zastępowania kodonów (CSF).

Zachowanie ramki odczytu.

Wynik RFC odzwierciedla procent nukleotydów (w zakresie od 0% do 100%), których ramka odczytu jest zachowana między gatunkami (SI Fig. 6). Wynik RFC jest określany przez wyrównanie ludzkiej sekwencji do jej międzygatunkowego ortologa i obliczenie maksymalnego procentu nukleotydów z zachowaną ramką odczytu, w trzech możliwych ramkach odczytu dla ortologa. Wyniki są uśredniane w przesuwanych oknach po 100 baz, aby ograniczyć propagację lokalnych efektów spowodowanych błędami w wyrównaniu sekwencji i anotacji granic genów. Obliczyliśmy oddzielne wyniki RFC w odniesieniu do genomu myszy i psa i skupiliśmy się na wspólnym wyniku RFC, zdefiniowanym jako większy z dwóch wyników. Wynik RFC został pierwotnie opisany w naszej pracy na drożdżach, ale został dostosowany do częstej obecności intronów w sekwencji ludzkiej (patrz Dodatek SI ).

Wynik RFC nie wykazuje praktycznie żadnego nakładania się między dobrze zbadanymi genami a losowymi kontrolami (SI Rys. 5). Tylko 1% kontroli losowych przekracza próg RFC >90, podczas gdy 98,2% dobrze zbadanych genów przekracza ten próg. Podobnie jest w przypadku pełnego zestawu 18 752 genów z odpowiednikami międzygatunkowymi, gdzie 97% przekracza próg (ryc. 2 a). Wynik RFC jest nieco niższy dla bardziej szybko ewoluujących genów, ale rozkład RFC nawet dla górnego 1% szybko ewoluujących genów jest ostro oddzielony od kontroli losowych (SI Rys. 5).

Rys. 2.

Kumulatywne rozkłady wyników RFC. (Po lewej) Ludzkie geny z ortologiami międzygatunkowymi (niebieskie) versus dopasowane kontrole losowe (czarne). (Po prawej) Ludzkie sieroty (czerwone) versus dopasowane losowe kontrole (czarne). Wyniki RFC są obliczane w stosunku do myszy i psa razem (Góra), makaka (Środek) i szympansa (Dół). We wszystkich przypadkach, ortologowie są uderzająco różni od ich dopasowanych kontroli losowych, podczas gdy sieroty są zasadniczo nie do odróżnienia od ich dopasowanych kontroli losowych.

Przez kontrast, sieroty pokazują zupełnie inny obraz. Są one zasadniczo nieodróżnialne od dopasowanych losowych kontroli (ryc. 2 b) i nie przypominają nawet najbardziej szybko ewoluującego podzbioru 18 572 genów z odpowiednikami międzygatunkowymi. W skrócie, zestaw sierot nie wykazuje żadnej tendencji do zachowania ramki odczytu.

Częstotliwość substytucji kodonów.

Wynik CSF zapewnia uzupełniający test ewolucyjnego wzorca genów kodujących białka. Podczas gdy wynik RFC jest oparty na indelach, wynik CSF jest oparty na różnych wzorcach substytucji nukleotydów widzianych w DNA kodującym białka w porównaniu z przypadkowym. Ostatnio opracowana dla porównawczej analizy genomowej gatunków Drosophila (11), metoda ta oblicza wynik CSF (codon substitution frequency) w oparciu o dopasowania między wieloma gatunkami. Zastosowaliśmy metodę CSF do dopasowań człowieka do dziewięciu gatunków ssaków, składających się z sekwencji o wysokim pokryciu (≈7×) pochodzących od myszy, psa, szczura, krowy i oposa oraz sekwencji o niskim pokryciu (≈2×) pochodzących od królika, pancernika, słonia i tenreca.

Wyniki ponownie wykazały silne zróżnicowanie między genami mającymi odpowiedniki międzygatunkowe i sierotami. Wśród 16 210 genów o prostej ortologii, 99,2% uzyskało wyniki CSF zgodne z oczekiwaną ewolucją genów kodujących białka. Z kolei wśród 1177 sierot znalazły się tylko dwa przypadki, których wzór ewolucji kodonów wskazywał na prawidłowy gen. Po sprawdzeniu, te dwa przypadki były wyraźnymi błędami w anotacji ludzkiego genu; tłumacząc sekwencję w innej ramce, można zidentyfikować wyraźne ortologi międzygatunkowe.

Orphans Do Not Represent Protein-Coding Genes.

Powyższe wyniki są spójne z sierotami będącymi po prostu przypadkowymi ORF-ami, a nie ważnymi ludzkimi genami kodującymi białka. Jednakże, spójność nie stanowi dowodu. Raczej musimy rygorystycznie odrzucić alternatywną hipotezę.

Załóżmy, że sieroty reprezentują ważne ludzkie geny kodujące białka, którym brakuje odpowiednich ORF-ów u myszy i psa. Sieroty będą należeć do dwóch klas: (i) niektóre mogą poprzedzać dywergencję z myszy i psa – to znaczy, że są to geny przodków, które zostały utracone zarówno u myszy, jak i u psa, oraz (ii) niektóre mogą poprzedzać dywergencję – to znaczy, że są to nowe geny, które powstały w linii prowadzącej do człowieka. Jak możemy wykluczyć te możliwości? Naszym rozwiązaniem było zbadanie dwóch krewnych naczelnych: makaka i szympansa. Rozważamy te alternatywy po kolei.

  1. Załóżmy, że sieroty to geny przodków ssaków, które zostały utracone u psa i myszy, ale zachowane w linii prowadzącej do człowieka. Jeśli tak, byłyby one nadal obecne i funkcjonalne w makaka i szympansa, z wyjątkiem mało prawdopodobnego przypadku, że również przeszedł niezależne zdarzenia utraty w obu makaka i szympansa lineages.

  2. Załóżmy, że sieroty są nowe geny, które powstały w linii prowadzącej do człowieka, po dywergencji z psa i myszy . Zakładając, że generowanie nowych genów jest procesem stałym, daty narodzin powinny być rozłożone w tym okresie. Jeśli tak, to większość dat urodzenia będzie poprzedzać dywergencję z makaka (≈30 Mya), a prawie wszystkie będą poprzedzać dywergencję z szympansa (≈6 Mya) (12).

Podług jednego z powyższych scenariuszy, zdecydowana większość sierot musi odpowiadać funkcjonalnym genom kodującym białka u makaka lub szympansa.

W związku z tym sprawdziliśmy, czy sieroty wykazują jakiekolwiek dowody na konserwację kodowania białek w stosunku do makaka lub szympansa, używając wyniku RFC. Uderzająco, rozkład wyników RFC dla sierot jest zasadniczo identyczny z rozkładem dla kontroli losowych (Rys. 2 d i f). Rozkład dla sierot nie przypomina tego, co widać nawet dla górnego 1% najszybciej ewoluujących genów z odpowiednikami międzygatunkowymi (SI Figs. 7-9).

Zestaw sierot nie wykazuje zatem żadnych dowodów na zachowanie ramki odczytu nawet u naszych najbliższych krewnych naczelnych. (Jest oczywiście możliwe, że sieroty zawierają kilka ważnych genów kodujących białka, ale proporcja musi być na tyle mała, że nie ma zauważalnego wpływu na ogólny rozkład RFC). Stwierdzamy, że zdecydowana większość sierot nie odpowiada funkcjonalnym genom kodującym białka u makaka i szympansa, a zatem nie są to ani geny przodków, ani nowo powstałe.

Jeśli sieroty reprezentują ważne ludzkie geny kodujące białka, musielibyśmy stwierdzić, że ogromna większość sierot urodziła się po dywergencji od szympansa. Taki model wymagałby ogromnego tempa narodzin genów w liniach ssaków i przerażającego tempa śmierci genów wymazujących ogromną liczbę genów urodzonych przed dywergencją od szympansa. Odrzucamy taki model jako całkowicie niewiarygodny. Wnioskujemy zatem, że ogromna większość sierot to po prostu losowo występujące ORF, które nie reprezentują genów kodujących białka.

Na koniec zauważamy, że staranne filtrowanie ludzkiego katalogu genów powyżej było niezbędne do powyższej analizy, ponieważ wyeliminowało pseudogeny i artefakty, które uniemożliwiłyby dokładną analizę właściwości sierot.

Dowody doświadczalne kodowanych białek.

Jako niezależne sprawdzenie naszego wniosku, przejrzeliśmy literaturę naukową pod kątem opublikowanych artykułów wspominających o sierotach, aby ustalić, czy istniały dowody doświadczalne na kodowane białka. Podczas gdy zdecydowana większość dobrze zbadanych genów została bezpośrednio pokazana, aby kodować białko, znaleźliśmy artykuły zgłaszające eksperymentalne dowody kodowanego białka in vivo tylko dla 12 z 1177 sierot, a niektóre z tych raportów są niejednoznaczne (SI Tabela 2). Dowody eksperymentalne są więc zgodne z naszym wnioskiem, że ogromna większość niekonserwatywnych ORF-ów nie koduje białka. W garstce przypadków, w których istnieją dowody eksperymentalne lub zostaną znalezione w przyszłości, geny mogą zostać przywrócone do katalogu na zasadzie indywidualnej.

Revising the Human Gene Catalogs.

Z silnymi dowodami, że ogromna większość sierot nie jest genami kodującymi białka, możliwe jest zrewidowanie ludzkich katalogów genów w sposób pryncypialny.

Katalog Ensembl.

Nasza analiza katalogu Ensembl (v35) wskazuje, że zawiera on 19 108 ważnych genów kodujących białka na chromosomach 1-22 i X w ramach obecnego złożenia genomu. Pozostałe 15% wpisów zostało wyeliminowanych jako retroposony, artefakty lub sieroty. Razem z chromosomem mitochrondrialnym i chromosomem Y , całkowita liczba genów sięga 19 199.

Rozszerzyliśmy analizę na katalog Ensembl (v38), w którym dodano 2 212 genów, a wiele wcześniejszych wpisów zostało poprawionych lub usuniętych. Nasz potok obliczeniowy znalazł 598 dodatkowych ważnych genów kodujących białka w oparciu o odpowiedniki międzygatunkowe, 1135 retroposonów i 479 sierot. Krzywe RFC dla sierot ponownie ściśle odpowiadały oczekiwaniom dla losowego DNA.

Inne katalogi.

Zastosowaliśmy to samo podejście do katalogu Vega (v34) i RefSeq (marzec 2007). Oba katalogi zawierają znaczną część wpisów, które wydają się nie być ważnymi genami kodującymi białka (odpowiednio 16% i 10%), w oparciu o brak odpowiednika międzygatunkowego (patrz SI Fig. 10 i SI Appendix ). Jeśli zawęzimy wpisy RefSeq do tych o najwyższej wiarygodności (z zastrzeżeniem, że ten zestaw zawiera znacznie mniej genów), tylko 1% wydaje się nieważny. Razem, te dwa katalogi dodają dodatkowe 673 geny kodujące białka.

Połączona analiza.

Połączając analizę trzech głównych katalogów genów, stwierdzamy, że tylko 20 470 z 24 551 wpisów wydaje się być ważnymi genami kodującymi białka.

Ograniczenia analizy.

Nasza analiza obecnych katalogów genów ma pewne ograniczenia, które należy zauważyć.

Po pierwsze, wyeliminowaliśmy wszystkie pseudogeny i sieroty. Znaleźliśmy sześć zgłoszonych przypadków, w których przetworzony pseudogen lub transpozon przeszedł egzaptację, aby wytworzyć funkcjonalny gen (SI Tabele 1 i 3) i 12 zgłoszonych przypadków sierot z eksperymentalnymi dowodami na zakodowane białko. Te 18 przypadków może być łatwo przywrócone do katalogu (podnosząc liczbę do 20 488). Istnieją dodatkowe przypadki potencjalnie funkcjonalnych retroposonów, które nie są obecne w obecnych katalogach genów (15). Jeśli okaże się, że którekolwiek z nich produkują białko, powinny one również zostać uwzględnione.

Po drugie, nie uwzględniliśmy 197 przypuszczalnych genów, które leżą w „niezmapowanych kontigach”. Regiony te są sekwencjami, które zostały pominięte w ukończonym montażu ludzkiego genomu. W dużej mierze składają się one z segmentalnych duplikacji, a większość genów jest bardzo podobna do innych w montażu. Wiele z tych sekwencji może reprezentować alternatywne allele lub błędne złożenie genomu. Wiadomo jednak, że regiony segmentalnej duplikacji są żłobkami innowacji ewolucyjnych (16) i mogą zawierać pewne ważne geny. Zasługują one na szczególną uwagę.

Po trzecie i najważniejsze, niekonserwowane ORF badane tutaj były zazwyczaj włączane do bieżących katalogów genów, ponieważ mają potencjał do kodowania co najmniej 100 aminokwasów. Nie wiemy więc, czy nasze wnioski miałyby zastosowanie do znacznie krótszych ORF-ów. W zasadzie istnieje wiele dodatkowych genów kodujących krótkie białka, takie jak hormony peptydowe, które są zwykle tłumaczone z dużo większych prekursorów i mogą szybko ewoluować. Powinno być możliwe zbadanie właściwości mniejszych ORF-ów poprzez wykorzystanie dodatkowych gatunków ssaków poza myszą i psem.

Improving Gene Annotations.

W trakcie naszej pracy wygenerowaliśmy szczegółowe graficzne „karty raportowe” dla każdego z 22 218 przypuszczalnych genów w Ensembl (v35). Karty te przedstawiają strukturę genów, dopasowania sekwencji, miary zachowania ewolucyjnego i naszą ostateczną klasyfikację (Rys. 3).

Rys. 3.

Przykładowa karta raportowa genu dla małego genu, HAMP, na chromosomie 19. Karty raportowe dla wszystkich 22 218 putatywnych genów w Ensembl v35 są dostępne na stronie www.broad.mit.edu/mammals/alpheus. Karty raportowe zapewniają wizualne ramy do badania zachowania międzygatunkowego oraz do wykrywania możliwych problemów w anotacji ludzkich genów. Informacje na górze pokazują lokalizację chromosomalną, alternatywne identyfikatory i informacje zbiorcze, takie jak długość, liczba eksonów i zawartość powtórzeń. Różne panele poniżej dostarczają graficznych widoków dopasowania ludzkiego genu do genomów myszy i psa. „Synteny” pokazuje wielkoskalowe wyrównanie sekwencji genomowej, wskazując zarówno wyrównane jak i nie wyrównane segmenty. Ludzka sekwencja jest opisana eksonami w kolorze białym i sekwencjami powtarzającymi się w kolorze ciemnoszarym. „Alignment detail” pokazuje kompletne wyrównanie sekwencji DNA i wyrównanie białek. W wyrównaniu DNA, sekwencja człowieka jest podana na górze, zasady w innych gatunkach są zaznaczone jako pasujące (jasnoszare) lub niepasujące (ciemnoszare), granice eksonów są zaznaczone pionowymi liniami, indele są zaznaczone małymi trójkątami nad sekwencją (wierzchołek w dół dla insercji, wierzchołek w górę dla delecji, liczba wskazuje długość w bazach), kodon startowy jest na zielono, a kodon stopowy na fioletowo. W wyrównaniu białek, sekwencja aminokwasów człowieka jest podana na górze, a sekwencje innych gatunków są oznaczone jako pasujące (jasnoszare), podobne (różowe) lub niepasujące (czerwone). „Frame alignment” pokazuje rozkład niedopasowań nukleotydów znalezionych w każdej pozycji kodonu, z nadmiarem mutacji spodziewanych w trzeciej pozycji. Dopasowania są pokazane w kolorze jasnoszarym, a niedopasowania w ciemnoszarym. „Indele, starty i zatrzymania” przedstawiają przegląd kluczowych zdarzeń. Intele są zaznaczone trójkątami (wierzchołek w dół dla insercji, wierzchołek w górę dla delecji) i oznaczone jako framehifting (czerwony) lub frame-preserving (szary). Kodony startu są zaznaczone na zielono, a kodony stopu na fioletowo. „Miejsca splotu” pokazuje konserwację sekwencji wokół miejsc splotu, z dwubazowym donorem i akceptorem zaznaczonym na szaro i niedopasowanymi zasadami zaznaczonymi na czerwono. „Dane zbiorcze” przedstawiają różne statystyki zachowania sekwencji w stosunku do myszy i psa, w tym wynik RFC, identyczność nukleotydów, liczbę konserwowanych miejsc splice’u, gęstość indeli/kb, oraz sąsiedztwo genów. Sąsiedztwo genów pokazuje kropkę dla trzech genów upstream i downstream, która jest pokolorowana na szaro, jeśli synteza jest zachowana i na czerwono w przeciwnym wypadku.

Karty raportowe są cenne dla badania ewolucji genów i dla udoskonalania anotacji genów. Badając lokalne anomalie poprzez porównania międzygatunkowe, zidentyfikowaliśmy 23 wyraźne błędy w anotacji genów (w tym przypadki, w których zmiana ramki odczytu lub nici kodującej ujawnia jednoznaczne ortologie międzygatunkowe) i 332 przypadki, w których konserwacja międzygatunkowa sugeruje zmianę kodonu startu lub stopu, eliminację wewnętrznego eksonu lub przesunięcie miejsca splotu. Z tych ostatnich przypadków większość to prawdopodobnie błędy w anotacji ludzkiego genu, choć niektóre mogą reprezentować prawdziwe różnice międzygatunkowe. Karty raportów, wraz z narzędziami do wyszukiwania i tabelami podsumowującymi, są dostępne na stronie www.broad.mit.edu/mammals/alpheus.

.

Similar Posts

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany.