Distinguere i geni codificanti e non codificanti nel genoma umano

author
16 minutes, 26 seconds Read

Risultati

Identificazione degli orfani.

La nostra analisi richiede lo studio delle proprietà degli ORF umani che mancano di controparti cross-specie, che noi chiamiamo “orfani”. Tale studio richiede un attento filtraggio dei cataloghi di geni umani, per identificare i geni con controparti e per eliminare una vasta gamma di artefatti che interferirebbero con l’analisi degli orfani. Per questo motivo, abbiamo intrapreso una rianalisi approfondita dei cataloghi di geni umani.

Ci siamo concentrati sul catalogo Ensembl (versione 35), che elenca 22.218 geni codificanti proteine con un totale di 239.250 esoni. La nostra analisi ha considerato solo i 21.895 geni sulla sequenza di riferimento del genoma umano dei cromosomi 1-22 e X. (Abbiamo quindi omesso il cromosoma mitocondriale, il cromosoma Y, e “contigs non collocati”, che comportano considerazioni speciali; vedi sotto.)

Abbiamo sviluppato un protocollo computazionale con cui i geni putativi sono classificati in base al confronto con i genomi umano, del topo e del cane (Fig. 1; vedi Materiali e metodi). I genomi del topo e del cane sono stati utilizzati, perché la sequenza genomica di alta qualità è disponibile (7, 8), e l’estensione della divergenza di sequenza è adatto per l’identificazione del gene. Il tasso di sostituzione nucleotidica rispetto all’uomo è ≈0,50 per base per il topo e ≈0,35 per il cane, con eventi di inserzione e delezione (indel) che si verificano con una frequenza che è ≈10 volte inferiore (8, 9). Questi tassi sono abbastanza bassi da permettere un allineamento affidabile delle sequenze, ma abbastanza alti da rivelare i modelli di mutazione differenziali previsti nelle regioni codificanti e non codificanti.

Classe 2: geni con paraloghi cross-specie.

La pipeline ha quindi identificato 155 casi di geni umani putativi che hanno un paraloga all’interno del genoma umano, che, a sua volta, ha un ortologo nel topo o nel cane. Questi geni rappresentano in gran parte duplicazioni non locali nel lignaggio umano (tre quarti si trovano in duplicazioni segmentali) o forse perdite di geni negli altri lignaggi. Tra questi geni, l’ispezione ravvicinata ha rivelato otto casi in cui un piccolo cambiamento all’annotazione umana ha permesso l’identificazione di un chiaro ortologo umano.

Classe 3: Geni con paraloghi solo umani.

La pipeline ha identificato 68 casi di geni umani putativi che hanno uno o più paraloghi all’interno del genoma umano, ma con nessuno di questi paraloghi che hanno ortologi nel topo o nel cane. Un’attenta ispezione ha eliminato 17 casi come retroposoni aggiuntivi o altri artefatti (vedi appendice SI). I restanti 51 casi sembrano essere geni validi, con 15 appartenenti a tre famiglie note di geni specifici dei primati (DUF1220, NPIP e famiglie CDRT15) e gli altri che si verificano in gruppi paraloghi più piccoli (da due a otto membri) che possono anche rappresentare famiglie specifiche dei primati.

Classe 4: Geni con domini Pfam.

La pipeline ha identificato 97 casi di geni putativi con omologia a un dominio proteico noto nella collezione Pfam (10). Un’attenta ispezione ha eliminato 21 casi come retroposoni aggiuntivi o altri artefatti (vedi appendice SI) e 40 casi in cui una piccola modifica all’annotazione umana ha permesso l’identificazione di un chiaro ortologo umano. I restanti 36 geni sembrano essere geni validi, con 10 che contengono domini noti specifici dei primati e 26 che contengono domini comuni a molte specie.

Classe 5: Orfani.

Un totale di 1.285 geni putativi è rimasto dopo la procedura di cui sopra. Un’ispezione ravvicinata ha identificato 40 casi che erano chiari artefatti (lunghe ripetizioni tandem che mancano di un codone di stop) e 68 casi in cui un ortologo cross-specie potrebbe essere assegnato dopo una piccola correzione di cambiamento all’annotazione del gene umano. I rimanenti 1.177 casi sono stati dichiarati orfani, perché mancano di ortologia, paralogia o omologia a geni noti e non sono artefatti evidenti. Notiamo che l’attenta revisione dei geni è stata essenziale per ottenere un set “pulito” di orfani per l’analisi successiva.

Caratterizzazione degli orfani.

Abbiamo caratterizzato le proprietà degli orfani per vedere se assomigliano a quelle viste per i geni codificanti le proteine o previste per gli ORF randomi che nascono in trascrizioni non codificanti.

Lunghezze ORF.

Gli orfani hanno un contenuto di GC del 55%, che è molto più alto della media per il genoma umano (39%) e simile a quello visto nei geni codificanti proteine con controparti cross-specie (53%). L’alto contenuto di GC riflette la tendenza degli orfani a verificarsi in regioni ricche di geni.

Abbiamo esaminato le lunghezze ORF degli orfani, relative al loro contenuto di GC. Gli orfani hanno ORF relativamente piccole (mediana = 393 bp), e la distribuzione delle lunghezze ORF assomiglia molto all’aspettativa matematica per la più lunga ORF che sorgerebbe per caso in una forma di trascrizione derivata dal DNA genomico umano con il contenuto GC osservato (SI Fig. 4).

Proprietà di conservazione.

Ci siamo poi concentrati sulle proprietà di conservazione tra specie. Per valutare la sensibilità delle varie misure, abbiamo esaminato un insieme di 5.985 geni “ben studiati” definiti dal criterio che sono discussi in più di cinque articoli pubblicati. Per ogni gene ben studiato, abbiamo selezionato una sequenza di controllo casuale corrispondente dal genoma umano, con un numero simile di “esoni” di lunghezza simile, una proporzione simile di sequenze ripetute e una proporzione simile di allineamento interspecie, ma che non si sovrappone a nessun gene putativo.

I geni ben studiati e i controlli casuali corrispondenti differiscono rispetto a tutte le proprietà di conservazione studiate (SI Fig. 5 e SI Tabella 1). L’identità nucleotidica e il rapporto Ka/Ks differiscono chiaramente, ma le distribuzioni sono ampie e hanno una sostanziale sovrapposizione. La densità indel ha una distribuzione più stretta: il 97,3% dei geni ben studiati, ma solo il 2,8% dei controlli casuali, hanno una densità indel <10 per kb. Le distinzioni più nette, tuttavia, sono state trovate per due misure che riflettono l’evoluzione distintiva dei geni codificanti le proteine: il punteggio di conservazione del frame di lettura (RFC) e il punteggio di frequenza di sostituzione del codone (CSF).

Conservazione del frame di lettura.

Il punteggio RFC riflette la percentuale di nucleotidi (che vanno dallo 0% al 100%) il cui frame di lettura è conservato tra le specie (SI Fig. 6). Il punteggio RFC è determinato allineando la sequenza umana al suo ortologo interspecie e calcolando la percentuale massima di nucleotidi con reading frame conservato, attraverso i tre possibili reading frame per l’ortologo. I risultati sono mediati su finestre scorrevoli di 100 basi per limitare la propagazione degli effetti locali dovuti a errori nell’allineamento della sequenza e nell’annotazione dei confini dei geni. Abbiamo calcolato punteggi RFC separati relativi ai genomi del topo e del cane e ci siamo concentrati su un punteggio RFC congiunto, definito come il più grande dei due punteggi. Il punteggio RFC è stato originariamente descritto nel nostro lavoro sul lievito, ma è stato adattato per accogliere la frequente presenza di introni nella sequenza umana (vedi appendice SI).

Il punteggio RFC mostra virtualmente nessuna sovrapposizione tra i geni ben studiati e i controlli casuali (SI Fig. 5). Solo l’1% dei controlli casuali supera la soglia di RFC >90, mentre il 98,2% dei geni ben studiati supera questa soglia. La situazione è simile per il set completo di 18.752 geni con controparti cross-specie, con il 97% che supera la soglia (Fig. 2 a). Il punteggio RFC è leggermente inferiore per i geni che si evolvono più rapidamente, ma la distribuzione RFC anche per il primo 1% dei geni che si evolvono rapidamente è nettamente separata dai controlli casuali (SI Fig. 5).

Fig. 2.

Distribuzioni cumulative del punteggio RFC. (Sinistra) Geni umani con ortologhi cross-specie (blu) rispetto a controlli casuali abbinati (nero). (Destra) Orfani umani (rosso) contro controlli casuali abbinati (nero). I punteggi RFC sono calcolati rispetto a topo e cane insieme (in alto), macaco (in mezzo) e scimpanzé (in basso). In tutti i casi, gli ortologhi sono sorprendentemente diversi dai loro controlli casuali abbinati, mentre gli orfani sono essenzialmente indistinguibili dai loro controlli casuali abbinati.

Al contrario, gli orfani mostrano un quadro completamente diverso. Essi sono essenzialmente indistinguibili dai controlli casuali abbinati (Fig. 2 b) e non assomigliano nemmeno al sottoinsieme più rapidamente evolutivo dei 18.572 geni con controparti cross-specie. In breve, l’insieme degli orfani non mostra alcuna tendenza a conservare la struttura di lettura.

Frequenza di sostituzione dei codoni.

Il punteggio CSF fornisce un test complementare del modello evolutivo dei geni codificanti le proteine. Mentre il punteggio RFC si basa sugli indel, il punteggio CSF si basa sui diversi modelli di sostituzione nucleotidica visti nel DNA codificante le proteine rispetto a quello casuale. Recentemente sviluppato per l’analisi genomica comparativa delle specie di Drosophila (11), il metodo calcola un punteggio di frequenza di sostituzione del codone (CSF) basato su allineamenti attraverso molte specie. Abbiamo applicato l’approccio CSF agli allineamenti tra l’uomo e nove specie di mammiferi, costituiti da sequenze ad alta copertura (≈7×) di topo, cane, ratto, mucca e opossum e sequenze a bassa copertura (≈2×) di coniglio, armadillo, elefante e tenrec.

I risultati hanno mostrato nuovamente una forte differenziazione tra geni con controparti cross-specie e orfani. Tra 16.210 geni con ortologia semplice, il 99,2% ha prodotto punteggi CSF coerenti con l’evoluzione prevista dei geni codificanti le proteine. Al contrario, i 1.177 orfani includono solo due casi il cui modello di evoluzione del codone indicava un gene valido. All’ispezione, questi due casi erano chiari errori nell’annotazione dei geni umani; traducendo la sequenza in una cornice diversa, è possibile identificare un chiaro ortologo cross-specie.

Geni orfani non rappresentano geni codificanti proteine.

I risultati di cui sopra sono coerenti con gli orfani che sono semplicemente ORF casuali, piuttosto che validi geni codificanti proteine umane. Tuttavia, la coerenza non costituisce una prova. Piuttosto, dobbiamo rigettare rigorosamente l’ipotesi alternativa.

Supponiamo che gli orfani rappresentino validi geni codificanti proteine umane che mancano di ORF corrispondenti nel topo e nel cane. Gli orfani rientrerebbero in due classi: (i) alcuni possono precedere la divergenza dal topo e dal cane – cioè, sono geni ancestrali che sono stati persi sia nel topo che nel cane, e (ii) alcuni possono postdatare la divergenza – cioè, sono geni nuovi che sono sorti nel lignaggio che porta all’uomo. Come possiamo escludere queste possibilità? La nostra soluzione è stata quella di studiare due parenti primati: il macaco e lo scimpanzé. Consideriamo le alternative a turno.

  1. Supponiamo che gli orfani siano geni ancestrali dei mammiferi che sono stati persi nel cane e nel topo ma sono conservati nel lignaggio che porta all’uomo. Se così fosse, essi sarebbero ancora presenti e funzionali nel macaco e nello scimpanzé, tranne nel caso improbabile che essi abbiano subito eventi di perdita indipendenti in entrambi i lignaggi del macaco e dello scimpanzé.

  2. Supponiamo che gli orfani siano nuovi geni sorti nel lignaggio che porta all’uomo, dopo la divergenza dal cane e dal topo. Supponendo che la generazione di nuovi geni sia un processo costante, le date di nascita dovrebbero essere distribuite in questo periodo. Se è così, la maggior parte delle date di nascita sarà precedente alla divergenza dal macaco (≈30 Mya) e quasi tutti saranno precedenti alla divergenza dallo scimpanzé (≈6 Mya) (12).

In entrambi gli scenari di cui sopra, la grande maggioranza degli orfani deve corrispondere a geni codificanti proteine funzionali nel macaco o nello scimpanzé.

Abbiamo quindi testato se gli orfani mostrano qualche evidenza di conservazione delle proteine codificanti rispetto al macaco o allo scimpanzé, utilizzando il punteggio RFC. Sorprendentemente, la distribuzione dei punteggi RFC per gli orfani è essenzialmente identica a quella dei controlli casuali (Fig. 2 d e f). La distribuzione per gli orfani non assomiglia a quella vista anche per il top 1% dei geni più rapidamente evoluti con controparti cross-specie (SI Figg. 7-9).

L’insieme degli orfani non mostra quindi alcuna prova di conservazione del reading-frame anche nei nostri parenti primati più vicini. (È naturalmente possibile che gli orfani includano alcuni geni codificanti proteine valide, ma la proporzione deve essere abbastanza piccola da non avere un effetto percettibile sulla distribuzione complessiva di RFC). Concludiamo che la stragrande maggioranza degli orfani non corrisponde a geni codificanti proteine funzionali nel macaco e nello scimpanzé, e quindi non sono né geni ancestrali né geni di nuova generazione.

Se gli orfani rappresentano geni codificanti proteine umane valide, dovremmo concludere che la grande maggioranza degli orfani sono nati dopo la divergenza dallo scimpanzé. Un tale modello richiederebbe un prodigioso tasso di nascita di geni nei lignaggi dei mammiferi e un feroce tasso di morte genica che cancella l’enorme numero di geni nati prima della divergenza dallo scimpanzé. Noi rifiutiamo un tale modello come del tutto implausibile. Concludiamo quindi che la stragrande maggioranza degli orfani sono semplicemente ORF casuali che non rappresentano geni codificanti proteine.

Infine, notiamo che l’attento filtraggio del catalogo dei geni umani di cui sopra era essenziale per l’analisi di cui sopra, perché ha eliminato pseudogeni e artefatti che avrebbero impedito un’analisi accurata delle proprietà degli orfani.

Prove sperimentali di proteine codificate.

Come controllo indipendente sulla nostra conclusione, abbiamo esaminato la letteratura scientifica per gli articoli pubblicati che menzionano gli orfani per determinare se c’erano prove sperimentali di proteine codificate. Mentre la stragrande maggioranza dei geni ben studiati è stato direttamente dimostrato di codificare una proteina, abbiamo trovato articoli che riportano prove sperimentali di una proteina codificata in vivo solo per 12 dei 1.177 orfani, e alcuni di questi rapporti sono equivoci (SI Tabella 2). L’evidenza sperimentale è quindi coerente con la nostra conclusione che la stragrande maggioranza delle ORF non conservate non sono codificanti le proteine. Nella manciata di casi in cui l’evidenza sperimentale esiste o si trova in futuro, i geni possono essere ripristinati al catalogo su una base caso per caso.

Rivedere i cataloghi dei geni umani.

Con una forte evidenza che la stragrande maggioranza degli orfani non sono geni che codificano proteine, è possibile rivedere i cataloghi dei geni umani in un modo di principio.

Catalogo Ensembl.

La nostra analisi del catalogo Ensembl (v35) indica che contiene 19.108 geni codificanti proteine validi sui cromosomi 1-22 e X nell’attuale assemblaggio del genoma. Il restante 15% delle voci viene eliminato come retroposoni, artefatti o orfani. Insieme al cromosoma mitocondriale e al cromosoma Y, il totale raggiunge 19.199.

Abbiamo esteso l’analisi al catalogo Ensembl (v38), in cui sono stati aggiunti 2.212 geni putativi e molte voci precedenti sono state riviste o eliminate. La nostra pipeline computazionale ha trovato 598 geni codificanti proteine valide aggiuntive basate su controparti cross-specie, 1.135 retroposoni e 479 orfani. Le curve RFC per gli orfani ancora una volta corrispondeva strettamente l’aspettativa per il DNA casuale.

Altri cataloghi.

Abbiamo applicato lo stesso approccio al catalogo Vega (v34) e RefSeq (marzo 2007). Entrambi i cataloghi contengono una proporzione sostanziale di voci che non sembrano essere validi geni codificanti proteine (16% e 10%, rispettivamente), sulla base della mancanza di una controparte cross-specie (vedi SI Fig. 10 e SI Appendice). Se restringiamo le voci RefSeq a quelle con la massima fiducia (con l’avvertenza che questo set contiene molti meno geni), solo l’1% appare non valido. Insieme, questi due cataloghi aggiungono altri 673 geni codificanti proteine.

Analisi combinata.

Combinando l’analisi dei tre principali cataloghi di geni, troviamo che solo 20.470 delle 24.551 voci sembrano essere geni codificanti proteine valide.

Limitazioni dell’analisi.

La nostra analisi degli attuali cataloghi di geni ha alcune limitazioni che devono essere notate.

In primo luogo, abbiamo eliminato tutti gli pseudogeni e gli orfani. Abbiamo trovato sei casi riportati in cui uno pseudogene o un trasposone elaborato ha subito l’exaptation per produrre un gene funzionale (tabelle SI 1 e 3) e 12 casi riportati di orfani con prove sperimentali per una proteina codificata. Questi 18 casi possono essere prontamente ripristinati nel catalogo (portando il conteggio a 20.488). Ci sono ulteriori casi di retroposoni potenzialmente funzionali che non sono presenti negli attuali cataloghi di geni (15). Se si scopre che producono proteine, dovrebbero essere inclusi.

In secondo luogo, non abbiamo considerato i 197 geni putativi che si trovano nei “contigs non mappati”. Queste regioni sono sequenze che sono state omesse dall’assemblaggio finito del genoma umano. Consistono in gran parte di duplicazioni segmentali, e la maggior parte dei geni sono molto simili ad altri nell’assemblaggio. Molte delle sequenze possono rappresentare alleli alternativi o assemblaggi errati del genoma. Tuttavia, le regioni di duplicazione segmentale sono note per essere vivai di innovazione evolutiva (16) e possono contenere alcuni geni validi. Meritano un’attenzione mirata.

In terzo luogo e più importante, le ORF non conservate studiate qui sono state tipicamente incluse negli attuali cataloghi di geni perché hanno il potenziale di codificare almeno 100 aminoacidi. Non sappiamo quindi se le nostre conclusioni si applicherebbero a ORF molto più brevi. In linea di principio, esistono molti altri geni codificanti proteine che codificano proteine corte, come gli ormoni peptidici, che sono solitamente tradotti da precursori molto più grandi e possono evolvere rapidamente. Dovrebbe essere possibile indagare le proprietà delle ORF più piccole utilizzando ulteriori specie di mammiferi oltre al topo e al cane.

Migliorare le annotazioni dei geni.

Nel corso del nostro lavoro, abbiamo generato dettagliate “pagelle” grafiche per ciascuno dei 22.218 geni putativi in Ensembl (v35). Le schede mostrano la struttura del gene, gli allineamenti di sequenza, le misure di conservazione evolutiva e la nostra classificazione finale (Fig. 3).

Fig. 3.

Un esempio di pagella genica per un piccolo gene, HAMP, sul cromosoma 19. Le pagelle per tutti i 22.218 geni putativi in Ensembl v35 sono disponibili su www.broad.mit.edu/mammals/alpheus. Le pagelle forniscono un quadro visivo per studiare la conservazione tra le specie e per individuare possibili problemi nell’annotazione dei geni umani. Le informazioni in alto mostrano la posizione cromosomica, gli identificatori alternativi e le informazioni riassuntive, come la lunghezza, il numero di esoni e il contenuto di ripetizioni. Vari pannelli in basso forniscono viste grafiche dell’allineamento del gene umano ai genomi del topo e del cane. “Synteny” mostra l’allineamento su larga scala della sequenza genomica, indicando sia i segmenti allineati che quelli non allineati. La sequenza umana è annotata con gli esoni in bianco e la sequenza ripetitiva in grigio scuro. “Allineamento dettagliato” mostra l’allineamento completo della sequenza del DNA e l’allineamento delle proteine. Nell’allineamento del DNA, la sequenza umana è data in alto, le basi nelle altre specie sono segnate come corrispondenti (grigio chiaro) o non corrispondenti (grigio scuro), i confini degli esoni sono segnati da linee verticali, gli indel sono segnati da piccoli triangoli sopra la sequenza (vertice in basso per le inserzioni, vertice in alto per le cancellazioni, il numero indica la lunghezza in basi), il codone iniziale annotato è in verde, e il codone di stop annotato è in viola. Nell’allineamento delle proteine, la sequenza di aminoacidi umana è data in alto, e le sequenze nelle altre specie sono contrassegnate come corrispondenti (grigio chiaro), simili (rosa), o non corrispondenti (rosso). “Frame alignment” mostra la distribuzione dei mismatch nucleotidici trovati in ogni posizione di codone, con un eccesso di mutazioni previste nella terza posizione. Le corrispondenze sono mostrate in grigio chiaro e i mismatch sono mostrati in grigio scuro. “Indelezioni, inizi e arresti” fornisce una panoramica degli eventi chiave. Gli indel sono indicati da triangoli (vertice in basso per le inserzioni, vertice in alto per le cancellazioni) e contrassegnati come frameshifting (rosso) o frame-preserving (grigio). I codoni di inizio sono segnati in verde e quelli di fine in viola. “Siti di giunzione” mostra la conservazione della sequenza intorno ai siti di giunzione, con i siti donatori e accettatori di due basi evidenziati in grigio e le basi non corrispondenti indicate in rosso. “Dati riassuntivi” elenca varie statistiche di conservazione relative al topo e al cane, compreso il punteggio RFC, l’identità nucleotidica, il numero di siti di splice conservati, la densità di indel frameshifting e nonframeshifting/kb, e il vicinato del gene. Il vicinato del gene mostra un punto per i tre geni a monte e a valle, che è colorato di grigio se la sintenia è conservata e di rosso altrimenti.

Le pagelle sono preziose per studiare l’evoluzione genica e per raffinare l’annotazione dei geni. Esaminando le anomalie locali per confronto tra specie incrociate, abbiamo identificato 23 chiari errori nell’annotazione dei geni (compresi i casi in cui la modifica della struttura di lettura o del filamento codificante rivela inequivocabili ortologhi cross-specie) e 332 casi in cui la conservazione cross-specie suggerisce l’alterazione del codone di inizio o di fine, l’eliminazione di un esone interno o lo spostamento di un sito di giuntura. Di questi ultimi casi, la maggior parte sono probabilmente errori nell’annotazione del gene umano, anche se alcuni possono rappresentare vere differenze interspecie. Le pagelle, insieme a strumenti di ricerca e tabelle riassuntive, sono disponibili su www.broad.mit.edu/mammals/alpheus.

.

Similar Posts

Lascia un commento

Il tuo indirizzo email non sarà pubblicato.