Distingerea genelor codificatoare de proteine și a genelor necodificatoare în genomul uman

author
18 minutes, 30 seconds Read

Rezultate

Identificarea orfanilor.

Analiza noastră necesită studierea proprietăților ORF-urilor umane care nu au corespondenți între specii, pe care le numim „orfane”. Un astfel de studiu necesită o filtrare atentă a cataloagelor de gene umane, pentru a identifica genele cu omologi și pentru a elimina o gamă largă de artefacte care ar interfera cu analiza orfanilor. Din acest motiv, am întreprins o reanaliză amănunțită a cataloagelor de gene umane.

Ne-am concentrat pe catalogul Ensembl (versiunea 35), care enumeră 22.218 gene codificatoare de proteine cu un total de 239.250 de exoni. Analiza noastră a luat în considerare doar cele 21.895 de gene din secvența de referință a genomului uman a cromozomilor 1-22 și X. (Am omis astfel cromozomul mitocondrial, cromozomul Y și „contigurile neplasate”, care implică considerații speciale; a se vedea mai jos.)

Am dezvoltat un protocol computațional prin care genele putative sunt clasificate pe baza comparației cu genomurile umane, de șoarece și de câine (Fig. 1; a se vedea Materiale și metode). Au fost utilizate genomurile de șoarece și câine, deoarece sunt disponibile secvențe genomice de înaltă calitate (7, 8), iar gradul de divergență a secvențelor este bine adaptat pentru identificarea genelor. Rata de substituție a nucleotidelor în raport cu omul este de ≈0,50 per bază pentru șoarece și ≈0,35 pentru câine, evenimentele de inserție și deleție (indel) având o frecvență care este de ≈10 ori mai mică (8, 9). Aceste rate sunt suficient de scăzute pentru a permite o aliniere fiabilă a secvențelor, dar suficient de ridicate pentru a dezvălui modelele de mutație diferențiale așteptate în regiunile codificatoare și necodificatoare.

Clasa 2: Gene cu paralogi interspecii.

Procesul a identificat apoi 155 de cazuri de gene umane putative care au un paralog în cadrul genomului uman, care, la rândul său, are un ortolog la șoarece sau câine. Aceste gene reprezintă în mare parte duplicații nelocale în descendența umană (trei sferturi se află în duplicații segmentare) sau, eventual, pierderi de gene în celelalte descendențe. Printre aceste gene, o inspecție atentă a evidențiat opt cazuri în care o mică modificare a adnotării umane a permis identificarea unui ortolog uman clar.

Clasa 3: Gene cu paralogi numai umani.

Clasa 3: Gene cu paralogi numai umani.

Procesul a identificat 68 de cazuri de gene umane presupuse care au unul sau mai mulți paralogi în genomul uman, dar în care niciunul dintre acești paralogi nu are ortolog în șoarece sau câine. O inspecție atentă a eliminat 17 cazuri ca fiind retroposoni suplimentari sau alte artefacte (a se vedea apendicele SI ). Cele 51 de cazuri rămase par a fi gene valide, 15 dintre acestea aparținând la trei familii cunoscute de gene specifice primatelor (familiile DUF1220, NPIP și CDRT15), iar celelalte apar în grupuri paralogice mai mici (de la doi la opt membri) care pot reprezenta, de asemenea, familii specifice primatelor.

Clasa 4: Gene cu domenii Pfam.

Procesul a identificat 97 de cazuri de gene putative cu homologie cu un domeniu proteic cunoscut din colecția Pfam (10). O inspecție atentă a eliminat 21 de cazuri ca fiind retroposoni suplimentari sau alte artefacte (a se vedea apendicele SI ) și 40 de cazuri în care o mică modificare a adnotării umane a permis identificarea unui ortolog uman clar. Cele 36 de gene rămase par a fi gene valide, 10 dintre acestea conținând domenii cunoscute specifice primatelor și 26 conținând domenii comune mai multor specii.

Clasa 5: Orfani.

A rămas un total de 1 285 de gene putative după procedura de mai sus. O inspecție atentă a identificat 40 de cazuri care erau artefacte clare (repetări lungi în tandem care se întâmplă să nu aibă un codon de oprire) și 68 de cazuri în care un ortolog interspecii a putut fi atribuit după o corecție a unei mici modificări la adnotarea genei umane. Cele 1.177 de cazuri rămase au fost declarate orfane, deoarece nu au ortologie, paralogie sau homologie cu gene cunoscute și nu sunt artefacte evidente. Menționăm că revizuirea atentă a genelor a fost esențială pentru a obține un set „curat” de orfani pentru analiza ulterioară.

Caracterizarea orfanilor.

Am caracterizat proprietățile orfanilor pentru a vedea dacă acestea seamănă cu cele observate pentru genele care codifică proteine sau așteptate pentru ORF-uri întâmplătoare care apar în transcripții necodificatoare.

Lungimile ORF.

Orfanii au un conținut de GC de 55%, care este mult mai mare decât media genomului uman (39%) și similar cu cel observat în genele codificatoare de proteine cu omologii trans-specii (53%). Conținutul ridicat de GC reflectă tendința orfanilor de a apărea în regiuni bogate în gene.

Am examinat lungimile ORF ale orfanilor, în raport cu conținutul lor de GC. Orfanii au ORF-uri relativ mici (mediana = 393 bp), iar distribuția lungimilor ORF-urilor se aseamănă foarte mult cu așteptările matematice pentru cel mai lung ORF care ar apărea din întâmplare într-un transcript derivat din ADN genomic uman cu conținutul GC observat (SI Fig. 4).

Proprietăți de conservare.

Ne-am concentrat apoi asupra proprietăților de conservare între specii. Pentru a evalua sensibilitatea diferitelor măsuri, am examinat un set de 5.985 de gene „bine studiate” definite prin criteriul că sunt discutate în mai mult de cinci articole publicate. Pentru fiecare genă bine studiată, am selectat o secvență de control aleatorie corespunzătoare din genomul uman, având un număr similar de „exoni” cu lungimi similare, o proporție similară de secvențe repetate și o proporție similară de aliniere interspecii, dar care nu se suprapune cu nicio genă putativă.

Genele bine studiate și controalele aleatorii corespunzătoare diferă în ceea ce privește toate proprietățile de conservare studiate (SI Fig. 5 și SI Tabelul 1). Identitatea nucleotidelor și raportul Ka/Ks diferă în mod clar, dar distribuțiile sunt largi și au o suprapunere substanțială. Densitatea indelurilor are o distribuție mai strânsă: 97,3 % din genele bine studiate, dar numai 2,8 % din controalele aleatorii, au o densitate de indeluri de <10 pe kb. Cu toate acestea, cele mai clare distincții au fost găsite pentru două măsuri care reflectă evoluția distinctă a genelor care codifică proteine: scorul de conservare a cadrului de citire (RFC) și scorul frecvenței de substituție a codonilor (CSF).

Conservarea cadrului de citire.

Scorul RFC reflectă procentul de nucleotide (variind de la 0% la 100%) al căror cadru de citire este conservat între specii (SI Fig. 6). Scorul RFC este determinat prin alinierea secvenței umane la ortologul său interspecii și calcularea procentului maxim de nucleotide cu cadru de citire conservat, între cele trei cadre de citire posibile pentru ortolog. Rezultatele sunt mediate pe ferestre glisante de 100 de baze pentru a limita propagarea efectelor locale datorate erorilor de aliniere a secvențelor și de adnotare a limitelor genice. Am calculat scoruri RFC separate atât pentru genomul de șoarece, cât și pentru cel de câine și ne-am concentrat pe un scor RFC comun, definit ca fiind cel mai mare dintre cele două scoruri. Scorul RFC a fost descris inițial în lucrările noastre asupra drojdiei, dar a fost adaptat pentru a ține seama de prezența frecventă a intronilor în secvența umană (a se vedea apendicele SI ).

Scorul RFC nu arată practic nicio suprapunere între genele bine studiate și controalele aleatorii (SI Fig. 5). Doar 1% din controalele aleatorii depășesc pragul RFC >90, în timp ce 98,2% din genele bine studiate depășesc acest prag. Situația este similară pentru întregul set de 18 752 de gene cu omologii interspecii, 97% dintre acestea depășind pragul (Fig. 2 a). Scorul RFC este ușor mai mic pentru genele cu evoluție mai rapidă, dar distribuția RFC chiar și pentru primele 1% din genele cu evoluție rapidă este puternic separată de controalele aleatorii (SI Fig. 5).

Fig. 2.

Distribuțiile cumulative ale scorului RFC. (Stânga) Gene umane cu ortologi interspecii (albastru) față de controalele aleatorii potrivite (negru). (Dreapta) Orfani umani (roșu) față de controale aleatorii potrivite (negru). Scorurile RFC sunt calculate în raport cu șoarecele și câinele împreună (sus), macacul (mijloc) și cimpanzeul (jos). În toate cazurile, ortologii sunt izbitor de diferiți față de controalele lor aleatorii potrivite, în timp ce orfanii sunt practic imposibil de distins față de controalele lor aleatorii potrivite.

În schimb, orfanii prezintă o imagine complet diferită. Aceștia sunt în esență imposibil de distins față de martorii aleatori potriviți (Fig. 2 b) și nu seamănă nici măcar cu cel mai rapid subansamblu de gene care evoluează cel mai rapid din cele 18.572 de gene cu omologi trans-specii. Pe scurt, setul de orfani nu prezintă nici un fel de tendință de conservare a cadrului de citire.

Frecvența de substituție a codonilor.

Scorul CSF oferă un test complementar de pentru modelul evolutiv al genelor care codifică proteine. În timp ce scorul RFC se bazează pe indels, scorul CSF se bazează pe modelele diferite de substituție nucleotidică observate în ADN codificator de proteine față de ADN aleatoriu. Dezvoltată recent pentru analiza genomică comparativă a speciilor de Drosophila (11), metoda calculează un scor al frecvenței de substituție a codonilor (CSF) pe baza alinierilor între mai multe specii. Am aplicat abordarea CSF la alinieri ale omului cu nouă specii de mamifere, constând în secvențe cu acoperire mare (≈7×) de la șoarece, câine, șobolan, vacă și oposum și secvențe cu acoperire mică (≈2×) de la iepure, armadillo, elefant și tenrec.

Rezultatele au arătat din nou o diferențiere puternică între genele cu omologi interspecii și cele orfane. Dintre cele 16.210 gene cu ortologie simplă, 99,2% au dat scoruri CSF în concordanță cu evoluția așteptată a genelor codificatoare de proteine. În schimb, cei 1.177 de orfani includ doar două cazuri al căror model de evoluție a codonilor indica o genă validă. La inspecție, aceste două cazuri au fost erori clare în adnotarea genei umane; prin traducerea secvenței într-un cadru diferit, poate fi identificat un ortolog trans-specie clar.

Orfanii nu reprezintă gene codificatoare de proteine.

Rezultatele de mai sus sunt în concordanță cu faptul că orfanii sunt pur și simplu ORF-uri aleatorii, mai degrabă decât gene umane valide codificatoare de proteine. Cu toate acestea, consistența nu constituie o dovadă. Mai degrabă, trebuie să respingem în mod riguros ipoteza alternativă.

Să presupunem că orfanii reprezintă gene umane valide codificatoare de proteine care nu au ORF-uri corespunzătoare la șoarece și câine. Orfanii s-ar încadra în două clase: (i) unele pot fi anterioare divergenței de la șoarece și câine – adică sunt gene ancestrale care au fost pierdute atât la șoarece cât și la câine, și (ii) unele pot fi ulterioare divergenței – adică sunt gene noi care au apărut în descendența care a dus la om. Cum putem exclude aceste posibilități? Soluția noastră a fost să studiem două rude primate: macacul și cimpanzeul. Luăm în considerare alternativele pe rând.

  1. Să presupunem că orfanii sunt gene ancestrale ale mamiferelor care au fost pierdute la câine și șoarece, dar care sunt păstrate în descendența care duce la om. Dacă este așa, ele ar fi încă prezente și funcționale la macac și cimpanzeu, cu excepția cazului puțin probabil în care ar fi suferit pierderi independente în ambele linii genetice de macac și cimpanzeu.

  2. Să presupunem că orfanii sunt gene noi care au apărut în linia genetică ce duce la om, după divergența de la câine și șoarece . Presupunând că generarea de noi gene este un proces constant, datele de naștere ar trebui să fie distribuite de-a lungul acestei perioade. Dacă este așa, majoritatea datelor de naștere vor fi anterioare divergenței față de macac (≈30 Mya) și aproape toate vor fi anterioare divergenței față de cimpanzeu (≈6 Mya) (12).

În oricare dintre scenariile de mai sus, marea majoritate a orfanilor trebuie să corespundă unor gene funcționale codificatoare de proteine din macac sau cimpanzeu.

Am testat, prin urmare, dacă orfanii prezintă vreo dovadă de conservare a codificării proteinelor în raport cu macacul sau cimpanzeul, folosind scorul RFC. În mod surprinzător, distribuția scorurilor RFC pentru orfani este în esență identică cu cea pentru controalele aleatorii (Fig. 2 d și f). Distribuția pentru orfani nu se aseamănă cu cea observată nici măcar pentru primele 1% din genele cu cea mai rapidă evoluție cu omologii interspecii (SI Fig. 7-9).

Setul de orfani nu prezintă astfel nicio dovadă de conservare a cadrului de citire chiar și la cele mai apropiate rude ale noastre primate. (Este, desigur, posibil ca orfanii să includă câteva gene valide codificatoare de proteine, dar proporția trebuie să fie suficient de mică pentru a nu avea un efect perceptibil asupra distribuției generale a RFC). Concluzionăm că marea majoritate a orfanilor nu corespund unor gene funcționale codificatoare de proteine la macac și cimpanzeu și, prin urmare, nu sunt nici gene ancestrale, nici gene nou apărute.

Dacă orfanii reprezintă gene codificatoare de proteine umane valide, ar trebui să concluzionăm că marea majoritate a orfanilor s-au născut după divergența față de cimpanzeu. Un astfel de model ar necesita o rată prodigioasă de naștere a genelor în liniile mamiferelor și o rată feroce de moarte a genelor care să șteargă numărul uriaș de gene născute înainte de divergența de la cimpanzeu. Respingem un astfel de model ca fiind total neplauzibil. Astfel, concluzionăm că marea majoritate a orfanilor sunt pur și simplu ORF-uri care apar la întâmplare și care nu reprezintă gene codificatoare de proteine.

În cele din urmă, observăm că filtrarea atentă a catalogului de gene umane de mai sus a fost esențială pentru analiza de mai sus, deoarece a eliminat pseudogene și artefacte care ar fi împiedicat o analiză precisă a proprietăților orfanilor.

Probe experimentale ale proteinelor codificate.

Ca o verificare independentă a concluziei noastre, am analizat literatura științifică pentru articolele publicate care menționează orfanii pentru a determina dacă există dovezi experimentale pentru proteinele codificate. În timp ce marea majoritate a genelor bine studiate s-a demonstrat în mod direct că codifică o proteină, am găsit articole care raportează dovezi experimentale ale unei proteine codificate in vivo doar pentru 12 din cele 1.177 de orfani, iar unele dintre aceste rapoarte sunt echivoce (SI Tabelul 2). Dovezile experimentale sunt astfel în concordanță cu concluzia noastră că marea majoritate a ORF-urilor neconservate nu sunt codificatoare de proteine. În puținele cazuri în care există sau se vor găsi în viitor dovezi experimentale, genele pot fi reintroduse în catalog, de la caz la caz.

Revizuirea cataloagelor de gene umane.

Cu dovezi solide că marea majoritate a orfanilor nu sunt gene care codifică proteine, este posibilă revizuirea cataloagelor de gene umane într-o manieră bazată pe principii.

Catalogul Ensembl.

Analiza noastră a catalogului Ensembl (v35) indică faptul că acesta conține 19.108 gene valide care codifică proteine pe cromozomii 1-22 și X în cadrul ansamblului actual al genomului. Restul de 15% din intrări sunt eliminate ca retropoziții, artefacte sau orfane. Împreună cu cromozomul mitocondrial și cromozomul Y , totalul ajunge la 19.199.

Am extins analiza la catalogul Ensembl (v38), în care au fost adăugate 2.212 gene putative și multe intrări anterioare au fost revizuite sau eliminate. Pipeline-ul nostru computațional a găsit 598 de gene suplimentare valide codificatoare de proteine, bazate pe omologii interspecii, 1.135 de retropozoni și 479 de orfani. Curbele RFC pentru orfani au corespuns din nou îndeaproape așteptărilor pentru ADN aleatoriu.

Alte cataloage.

Am aplicat aceeași abordare la catalogul Vega (v34) și RefSeq (martie 2007). Ambele cataloage conțin o proporție substanțială de intrări care par să nu fie gene valide codificatoare de proteine (16 % și, respectiv, 10 %), pe baza lipsei unui corespondent interspecii (a se vedea SI Fig. 10 și SI Appendix ). Dacă restrângem intrările RefSeq la cele cu cea mai mare încredere (cu mențiunea că acest set conține mult mai puține gene), doar 1 % par a fi invalide. Împreună, aceste două cataloage adaugă încă 673 de gene codificatoare de proteine.

Analiză combinată.

Combinând analiza celor trei cataloage majore de gene, constatăm că doar 20.470 din cele 24.551 de intrări par a fi gene codificatoare de proteine valide.

Limitări ale analizei.

Analiza noastră a cataloagelor actuale de gene are anumite limitări care trebuie remarcate.

În primul rând, am eliminat toate pseudogenele și orfanii. Am găsit șase cazuri raportate în care o pseudogena sau un transpozon procesat a suferit o exaptare pentru a produce o genă funcțională (tabelele SI 1 și 3) și 12 cazuri raportate de orfani cu dovezi experimentale pentru o proteină codificată. Aceste 18 cazuri pot fi ușor reintroduse în catalog (ridicând numărul la 20 488). Există cazuri suplimentare de retropoziții potențial funcționale care nu sunt prezente în cataloagele actuale de gene (15). Dacă se constată că vreunul dintre acestea produce proteine, ar trebui, de asemenea, să fie inclus.

În al doilea rând, nu am luat în considerare cele 197 de gene putative care se află în „contigurile nemarcate”. Aceste regiuni sunt secvențe care au fost omise din ansamblul finit al genomului uman. Ele constau în mare parte din duplicări segmentare, iar cele mai multe dintre gene sunt foarte asemănătoare cu altele din ansamblu. Multe dintre secvențe pot reprezenta alele alternative sau asamblări greșite ale genomului. Cu toate acestea, regiunile de duplicare segmentară sunt cunoscute ca fiind pepiniere de inovație evolutivă (16) și pot conține unele gene valide. Acestea merită o atenție concentrată.

În al treilea rând și cel mai important, ORF-urile neconservate studiate aici au fost de obicei incluse în cataloagele actuale de gene deoarece au potențialul de a codifica cel puțin 100 de aminoacizi. Prin urmare, nu știm dacă concluziile noastre s-ar aplica la ORF-uri mult mai scurte. În principiu, există multe alte gene codificatoare de proteine care codifică proteine scurte, cum ar fi hormonii peptidici, care sunt de obicei traduși din precursori mult mai mari și care pot evolua rapid. Ar trebui să fie posibil să se investigheze proprietățile ORF-urilor mai mici prin utilizarea altor specii de mamifere în afară de șoarece și câine.

Îmbunătățirea adnotărilor genelor.

În cursul activității noastre, am generat „buletine” grafice detaliate pentru fiecare dintre cele 22.218 gene putative din Ensembl (v35). Fișele de raport prezintă structura genei, alinierile de secvențe, măsurile de conservare evolutivă și clasificarea noastră finală (Fig. 3).

Fig. 3.

Un exemplu de fișă de raport de genă pentru o genă mică, HAMP, pe cromozomul 19. Fișele de raport pentru toate cele 22.218 gene putative din Ensembl v35 sunt disponibile la www.broad.mit.edu/mammals/alpheus. Fișele de raport oferă un cadru vizual pentru studierea conservării între specii și pentru depistarea posibilelor probleme în adnotarea genelor umane. Informațiile din partea de sus arată localizarea cromozomială, identificatorii alternativi și informații sumare, cum ar fi lungimea, numărul de exoni și conținutul de repetiții. Diversele panouri de mai jos oferă vizualizări grafice ale alinierii genei umane la genomurile de șoarece și câine. „Synteny” arată alinierea la scară largă a secvenței genomice, indicând atât segmentele aliniate, cât și cele nealiniate. Secvența umană este adnotată cu exonii în alb și secvența repetitivă în gri închis. „Alignment detail” arată alinierea completă a secvenței de ADN și alinierea proteinelor. În alinierea ADN, secvența umană este dată în partea de sus, bazele din celelalte specii sunt marcate ca fiind potrivite (gri deschis) sau nepotrivite (gri închis), limitele exonilor sunt marcate prin linii verticale, indelurile sunt marcate prin triunghiuri mici deasupra secvenței (cu vârful în jos pentru inserții, cu vârful în sus pentru eliminări, numărul indicând lungimea în baze), codonul de început adnotat este în verde, iar codonul de oprire adnotat este în mov. În alinierea proteinelor, secvența de aminoacizi umani este dată în partea de sus, iar secvențele din celelalte specii sunt marcate ca fiind potrivite (gri deschis), similare (roz) sau nepotrivite (roșu). „Frame alignment” arată distribuția nepotrivirilor de nucleotide găsite în fiecare poziție de codon, cu excesul de mutații așteptat în a treia poziție. Potrivirile sunt afișate în gri deschis, iar neconcordanțele sunt afișate în gri închis. „Indels, starts and stops” oferă o prezentare generală a evenimentelor cheie. Indelurile sunt indicate prin triunghiuri (vertexul în jos pentru inserții, vertexul în sus pentru ștergeri) și sunt marcate ca fiind de tip „frameshifting” (roșu) sau „frame-preserving” (gri). Codonii de început sunt marcați cu verde, iar codonii de oprire cu violet. „Splice sites” arată conservarea secvenței în jurul situsurilor de îmbinare, cu situsurile donatoare și acceptoare de două baze evidențiate în gri și bazele nepotrivite indicate cu roșu. „Date rezumative” enumeră diverse statistici de conservare în raport cu șoarecele și câinele, inclusiv scorul RFC, identitatea nucleotidelor, numărul de situsuri de îmbinare conservate, densitatea indelurilor cu și fără deplasare de cadre/kb și vecinătatea genelor. Vecinătatea genei arată un punct pentru cele trei gene din amonte și din aval, care este colorat în gri dacă sintenia este păstrată și roșu în caz contrar.

Cartetele de raportare sunt valoroase pentru studierea evoluției genelor și pentru rafinarea adnotării genelor. Examinând anomaliile locale prin comparație între specii, am identificat 23 de erori clare în adnotarea genelor (inclusiv cazurile în care modificarea cadrului de citire sau a șirului de codificare dezvăluie ortologii trans-specii lipsite de ambiguitate) și 332 de cazuri în care conservarea între specii sugerează modificarea codonului de început sau de oprire, eliminarea unui exon intern sau mutarea unui situs de îmbinare. Dintre aceste din urmă cazuri, cele mai multe sunt susceptibile de a fi erori în adnotarea genei umane, deși unele pot reprezenta adevărate diferențe între specii. Fișele de raport, împreună cu instrumentele de căutare și tabelele de sinteză, sunt disponibile la www.broad.mit.edu/mammals/alpheus.

.

Similar Posts

Lasă un răspuns

Adresa ta de email nu va fi publicată.