Distinguindo genes codificadores e não codificadores de proteínas no genoma humano

Resultados
Identificando Órfãos.
Classe 2: Genes com parálogos entre espécies.
Classe 3: Genes com parólogos humanos.
Classe 4: Genes com domínios Pfam.
Classe 5: Órfãos.
Caracterizando os Órfãos.
OURA.
Propriedades de conservação.
Conservação do quadro de leitura.
Frequência de substituição do Codão.
Os órfãos não representam genes codificadores de proteína.
Experimental Evidence of Encoded Proteins.
Revising the Human Gene Catalogs.
Ensembl catalog.
Outros catálogos.
Análise combinada.
Limitações na Análise.
Improving Gene Annotations.

Resultados

Identificando Órfãos.

Nossa análise requer o estudo das propriedades dos ORFs humanos que carecem de contrapartidas entre espécies, que denominamos “órfãos”. Tal estudo requer uma filtragem cuidadosa dos catálogos de genes humanos, para identificar genes com contrapartes e eliminar uma grande variedade de artefatos que interfeririam na análise dos órfãos. Por esta razão, fizemos uma reanálise profunda dos catálogos de genes humanos.

Concentramo-nos no catálogo Ensembl (versão 35), que lista 22.218 genes codificadores de proteínas com um total de 239.250 exões. Nossa análise considerou apenas os 21.895 genes na seqüência de referência do genoma humano dos cromossomos 1-22 e X. (Assim omitimos os cromossomos mitocondriais, o cromossomo Y e “contigs não-colocados”, que envolvem considerações especiais; ver abaixo.)

Desenvolvemos um protocolo computacional pelo qual os genes putativos são classificados com base na comparação com os genomas humano, do rato e do cão (Fig. 1; ver Materiais e Métodos). Os genomas do rato e do cão foram usados, porque a sequência genómica de alta qualidade está disponível (7, 8), e a extensão da divergência de sequência é bem adequada para a identificação dos genes. A taxa de substituição de nucleotídeos por humanos é ≈0,50 por base para o rato e ≈0,35 para o cão, com os eventos de inserção e deleção (indel) ocorrendo em uma frequência que é ≈10 – mais baixa (8, 9). Essas taxas são baixas o suficiente para permitir um alinhamento de sequência confiável, mas altas o suficiente para revelar os padrões de mutação diferencial esperados em regiões codificadas e não codificadas.

Classe 2: Genes com parálogos entre espécies.

O pipeline então identificou 155 casos de supostos genes humanos que têm um parálogo dentro do genoma humano, que, por sua vez, tem um ortograma em rato ou cão. Estes genes representam largamente duplicações não locais na linhagem humana (três quartos encontram-se em duplicações segmentares) ou possivelmente perdas de genes nas outras linhagens. Entre estes genes, uma inspeção próxima revelou oito casos em que uma pequena mudança na anotação humana permitiu a identificação de um ortograma humano claro.

Classe 3: Genes com parólogos humanos.

O pipeline identificou 68 casos de supostos genes humanos que têm um ou mais parólogos dentro do genoma humano, mas com nenhum destes parólogos tendo ortologs em camundongos ou cães. A inspeção próxima eliminou 17 casos como retroposições adicionais ou outros artefatos (ver Apêndice SI ). Os 51 casos restantes parecem ser genes válidos, com 15 pertencentes a três famílias conhecidas de genes específicos de primatas (famílias DUF1220, NPIP, e CDRT15) e os outros ocorrendo em grupos parálogos menores (dois a oito membros) que também podem representar famílias específicas de primatas.

Classe 4: Genes com domínios Pfam.

O pipeline identificou 97 casos de genes putativos com homologia a um domínio proteico conhecido na coleção Pfam (10). A inspeção próxima eliminou 21 casos como retroposições adicionais ou outros artefatos (ver Anexo SI ) e 40 casos em que uma pequena alteração na anotação humana permitiu a identificação de um ortolog humano claro. Os 36 genes restantes parecem ser genes válidos, com 10 contendo domínios específicos conhecidos de primatas e 26 contendo domínios comuns a muitas espécies.

Classe 5: Órfãos.

Reserva-se um total de 1.285 genes putativos após o procedimento acima. Uma inspeção próxima identificou 40 casos que eram artefatos claros (repetições longas em tandem que não possuem um códão de parada) e 68 casos em que um ortograma cruzado da espécie poderia ser atribuído após uma pequena correção da anotação do gene humano. Os restantes 1.177 casos foram declarados como órfãos, porque não possuem ortologia, paralogia ou homologia a genes conhecidos e não são artefatos óbvios. Observamos que a revisão cuidadosa dos genes foi essencial para obter um conjunto “limpo” de órfãos para análise posterior.

Caracterizando os Órfãos.

Caracterizamos as propriedades dos órfãos para ver se eles se assemelham àquelas vistas para genes codificadores de proteínas ou esperadas para ORFs que surgem em transcrições não-codificadoras.

OURA.

Os órfãos têm um conteúdo de GC de 55%, que é muito superior à média do genoma humano (39%) e semelhante ao observado nos genes codificadores de proteínas com contrapartes de espécies cruzadas (53%). O alto conteúdo de GC reflete a tendência dos órfãos a ocorrer em regiões ricas em genes.

Examinamos os comprimentos ORF dos órfãos, em relação ao seu conteúdo de GC. Os órfãos têm ORFs relativamente pequenos (mediana = 393 bp), e a distribuição dos comprimentos ORFs assemelha-se muito à expectativa matemática para o ORF mais longo que surgiria por acaso em uma forma transcript-derived DNA genômico humano com o conteúdo de GC observado (SI Fig. 4).

Propriedades de conservação.

Nos focamos então nas propriedades de conservação de espécies cruzadas. Para avaliar a sensibilidade de várias medidas, examinamos um conjunto de 5.985 genes “bem estudados” definidos pelo critério de que eles são discutidos em mais de cinco artigos publicados. Para cada gene bem estudado, selecionamos uma seqüência de controle aleatório correspondente do genoma humano, tendo um número semelhante de “exons” com comprimentos semelhantes, uma proporção semelhante de repetição de seqüência e uma proporção semelhante de alinhamento entre espécies, mas sem sobreposição com nenhum gene putativo.

Os genes bem estudados e os controles aleatórios correspondentes diferem em relação a todas as propriedades de conservação estudadas (SI Fig. 5 e SI Tabela 1). A identidade nucleotídica e a relação Ka/Ks diferem claramente, mas as distribuições são amplas e têm uma sobreposição substancial. A densidade de indel tem uma distribuição mais apertada: 97,3% dos genes bem estudados, mas apenas 2,8% dos controlos aleatórios, têm uma densidade de indel de <10 por kb. As distinções mais acentuadas, entretanto, foram encontradas para duas medidas que refletem a evolução distinta dos genes codificadores de proteínas: o escore de conservação do quadro de leitura (RFC) e o escore de frequência de substituição do códão (CSF).

Conservação do quadro de leitura.

O escore do RFC reflete a porcentagem de nucleotídeos (variando de 0% a 100%) cujo quadro de leitura é conservado entre as espécies (SI Fig. 6). O escore da RFC é determinado alinhando a seqüência humana ao seu ortolog de espécies cruzadas e calculando a porcentagem máxima de nucleotídeos com o quadro de leitura conservado, através dos três quadros de leitura possíveis para o ortolog. Os resultados são calculados através de janelas deslizantes de 100 bases para limitar a propagação dos efeitos locais devido a erros no alinhamento da sequência e na anotação dos limites do gene. Nós calculamos escores RFC separados em relação aos genomas do mouse e do cão e nos concentramos em um escore RFC conjunto, definido como o maior de dois escores. O escore RFC foi originalmente descrito em nosso trabalho sobre levedura, mas foi adaptado para acomodar a presença freqüente de introns na seqüência humana (ver SI Apêndice ).

O escore RFC mostra praticamente nenhuma sobreposição entre os genes bem estudados e os controles aleatórios (SI Fig. 5). Apenas 1% dos controles aleatórios excedem o limiar da RFC >90, enquanto 98,2% dos genes bem estudados excedem este limiar. A situação é semelhante para o conjunto completo de 18.752 genes com contrapartes de espécies cruzadas, com 97% excedendo o limiar (Fig. 2 a). O escore RFC é ligeiramente menor para genes de evolução mais rápida, mas a distribuição RFC para mesmo o 1% superior dos genes de evolução rápida é nitidamente separada dos controles aleatórios (SI Fig. 5).

Fig. 2.

Distribuições acumulativas do escore RFC. (Esquerda) Genes humanos com ortologs de espécies cruzadas (azul) versus controles aleatórios pareados (preto). (Direita) Órfãos humanos (vermelho) versus controles aleatórios combinados (preto). As pontuações da RFC são calculadas em relação ao rato e ao cão juntos (superior), macacos (médio) e chimpanzés (inferior). Em todos os casos, os ortologs são surpreendentemente diferentes de seus controles aleatórios combinados, enquanto os órfãos são essencialmente indistinguíveis de seus controles aleatórios combinados.

Por contraste, os órfãos mostram uma imagem completamente diferente. Eles são essencialmente indistinguíveis de seus controles aleatórios combinados (Fig. 2 b) e não se assemelham nem mesmo ao subconjunto mais rápido de evolução dos 18.572 genes com contrapartidas de espécies cruzadas. Em resumo, o conjunto de órfãos não mostra qualquer tendência a conservar o quadro de leitura.

Frequência de substituição do Codão.

O escore do LCR fornece um teste complementar para o padrão evolutivo dos genes codificadores de proteínas. Enquanto o escore RFC é baseado em indels, o escore do LCR é baseado nos diferentes padrões de substituição de nucleotídeos observados no DNA codificador de proteínas versus DNA aleatório. Recentemente desenvolvido para análise genómica comparativa das espécies de Drosophila (11), o método calcula uma pontuação de frequência de substituição do códão (CSF) com base em alinhamentos entre muitas espécies. Aplicamos a abordagem CSF para alinhamentos de humanos a nove espécies de mamíferos, consistindo em sequência de alta cobertura (≈7×) de rato, cão, rato, vaca, e gambá e sequência de baixa cobertura (≈2×) de coelho, tatu, elefante e tenrec.

Os resultados mais uma vez mostraram uma forte diferenciação entre genes com contrapartes de espécies cruzadas e órfãos. Entre 16.210 genes com ortologia simples, 99,2% produziram escores do LCR consistentes com a evolução esperada dos genes codificadores de proteínas. Em contrapartida, os 1.177 órfãos incluem apenas dois casos cujo padrão de evolução do códon indicava um gene válido. Na inspeção, esses dois casos foram erros claros na anotação do gene humano; ao traduzir a seqüência em um quadro diferente, um ortograma claro de espécies cruzadas pode ser identificado.

Os órfãos não representam genes codificadores de proteína.

Os resultados acima são consistentes com os órfãos serem simplesmente ORFs aleatórios, ao invés de genes codificadores de proteína humanos válidos. No entanto, a consistência não constitui prova. Pelo contrário, devemos rejeitar rigorosamente a hipótese alternativa.

Se os órfãos representam genes codificadores de proteína humanos válidos que não possuem ORFs correspondentes no rato e no cão. Os órfãos cairiam em duas classes: (i) alguns podem ser anteriores à divergência do rato e do cão – isto é, são genes ancestrais que se perderam tanto no rato como no cão, e (ii) alguns podem ser posteriores à divergência – isto é, são genes novos que surgiram na linhagem que conduziu ao humano. Como podemos excluir estas possibilidades? Nossa solução foi estudar dois parentes primatas: macaque e chimpanzé. Consideramos as alternativas, por sua vez.

Ponhamos que os órfãos são genes ancestrais de mamíferos que foram perdidos em cães e ratos, mas que estão retidos na linhagem que leva ao humano. Se assim for, eles ainda estariam presentes e funcionais no macaco e no chimpanzé, exceto no improvável evento de que eles também tenham sido submetidos a eventos de perda independentes tanto na linhagem do macaco quanto na do chimpanzé.
Suponha que os órfãos são genes novos que surgiram na linhagem que leva ao humano, após a divergência do cão e do rato . Assumindo que a geração de novos genes é um processo constante, as datas de nascimento devem ser distribuídas ao longo deste período. Se assim for, a maioria das datas de nascimento serão anteriores à divergência do macaque (≈30 Mya) e quase todas serão anteriores à divergência do chimpanzé (≈6 Mya) (12).

Em qualquer um dos cenários acima, a grande maioria dos órfãos deve corresponder a genes codificadores de proteínas funcionais em macaque ou chimpanzé.

Por isso testamos se os órfãos mostram alguma evidência de conservação codificadora de proteína em relação ao macaco ou ao chimpanzé, usando o escore RFC. Surpreendentemente, a distribuição das pontuações da RFC para os órfãos é essencialmente idêntica à dos controles aleatórios (Fig. 2 d e f). A distribuição para os órfãos não se assemelha àquela observada mesmo para o 1% superior dos genes de evolução mais rápida com contrapartidas entre espécies (SI Figs. 7-9).

O conjunto de órfãos assim não mostra nenhuma evidência de conservação do quadro de leitura, mesmo em nossos parentes primatas mais próximos. (É possível que os órfãos incluam alguns genes codificadores de proteínas válidos, mas a proporção deve ser pequena o suficiente para não ter nenhum efeito discernível na distribuição geral da RFC). Concluímos que a grande maioria dos órfãos não correspondem a genes codificadores de proteínas funcionais em macacos e chimpanzés, e portanto não são genes ancestrais nem genes recém surgidos.

Se os órfãos representam genes codificadores de proteína humana válidos, teríamos de concluir que a grande maioria dos órfãos nasceu após a divergência do chimpanzé. Tal modelo exigiria uma taxa prodigiosa de nascimento de genes em linhagens de mamíferos e uma taxa feroz de morte de genes, apagando o enorme número de genes nascidos antes da divergência do chimpanzé. Nós rejeitamos tal modelo por ser totalmente implausível. Assim concluímos que a grande maioria dos órfãos são simplesmente ORFs que ocorrem aleatoriamente e não representam genes codificadores de proteínas.

Finalmente, notamos que a filtragem cuidadosa do catálogo de genes humanos acima foi essencial para a análise acima, pois eliminou pseudogenes e artefatos que teriam impedido a análise precisa das propriedades dos órfãos.

Experimental Evidence of Encoded Proteins.

Como uma verificação independente de nossa conclusão, revisamos a literatura científica para artigos publicados mencionando os órfãos para determinar se havia evidência experimental para proteínas codificadas. Enquanto que a grande maioria dos genes bem estudados mostraram diretamente codificar uma proteína, encontramos artigos relatando evidência experimental de uma proteína codificada in vivo para apenas 12 dos 1.177 órfãos, e alguns desses relatos são equívocos (Tabela SI 2). A evidência experimental é assim consistente com a nossa conclusão de que a grande maioria dos ORFs não-codificados não são codificadores de proteínas. Nos poucos casos onde a evidência experimental existe ou é encontrada no futuro, os genes podem ser restaurados ao catálogo caso a caso.

Revising the Human Gene Catalogs.

Com forte evidência de que a grande maioria dos órfãos não são genes codificadores de proteínas, é possível rever os catálogos de genes humanos de uma maneira baseada em princípios.

Ensembl catalog.

A nossa análise do catálogo Ensembl (v35) indica que ele contém 19.108 genes codificadores de proteína válidos nos cromossomos 1-22 e X dentro do conjunto do genoma atual. Os restantes 15% das entradas são eliminados como retroposições, artefatos ou órfãos. Juntamente com o cromossomo mitocondrial e o cromossomo Y , o total chega a 19.199,

Estendemos a análise para o catálogo Ensembl (v38), no qual foram adicionados 2.212 genes putativos e muitas entradas anteriores foram revisadas ou excluídas. Nosso pipeline computacional encontrou 598 genes codificadores de proteínas válidos adicionais baseados em contrapartes de espécies cruzadas, 1.135 retroposições e 479 órfãos. As curvas RFC para os órfãos novamente corresponderam de perto à expectativa de DNA aleatório.

Outros catálogos.

Aplicamos a mesma abordagem ao catálogo Vega (v34) e RefSeq (Março 2007). Ambos os catálogos contêm uma proporção substancial de entradas que parecem não ser genes codificadores de proteínas válidos (16% e 10%, respectivamente), com base na falta de uma contraparte multi-espécies (ver SI Fig. 10 e SI Apêndice ). Se restringirmos as entradas RefSeq àqueles com maior confiança (com a ressalva de que este conjunto contém muito menos genes), apenas 1% parece inválido. Juntos, estes dois catálogos adicionam mais 673 genes codificadores de proteínas.

Análise combinada.

Combinando a análise dos três principais catálogos de genes, descobrimos que apenas 20.470 das 24.551 entradas parecem ser genes codificadores de proteínas válidos.

Limitações na Análise.

A nossa análise dos catálogos de genes atuais tem certas limitações que devem ser observadas.

Primeiro, eliminamos todos os pseudogenes e órfãos. Encontramos seis casos relatados em que um pseudogene processado ou transposão foi submetido a exaptação para produzir um gene funcional (Tabelas SI 1 e 3) e 12 casos relatados de órfãos com evidência experimental para uma proteína codificada. Estes 18 casos podem ser prontamente restaurados no catálogo (elevando a contagem para 20.488). Há casos adicionais de retroposições potencialmente funcionais que não estão presentes nos catálogos de genes atuais (15). Se forem encontrados para produzir proteína, eles também devem ser incluídos.

Segundo, não consideramos os 197 genes putativos que se encontram nos “contíguos não mapeados”. Estas regiões são sequências que foram omitidas da montagem final do genoma humano. Elas consistem em grande parte de duplicações segmentares, e a maioria dos genes são altamente similares a outros na montagem. Muitas das sequências podem representar alelos alternativos ou conjuntos errados do genoma. No entanto, regiões de duplicação segmentar são conhecidas como berçários da inovação evolutiva (16) e podem conter alguns genes válidos. Elas merecem atenção focada.

Terceiro e mais importante, os ORFs não-conservados estudados aqui foram tipicamente incluídos nos catálogos de genes atuais porque eles têm o potencial de codificar pelo menos 100 aminoácidos. Assim, não sabemos se as nossas conclusões se aplicariam a ORFs muito mais curtas. Em princípio, existem muitos genes codificadores de proteínas adicionais que codificam proteínas curtas, tais como hormônios peptídeos, que são geralmente traduzidos de precursores muito maiores e podem evoluir rapidamente. Deve ser possível investigar as propriedades de ORFs menores usando espécies adicionais de mamíferos além do rato e do cão.

Improving Gene Annotations.

No curso do nosso trabalho, nós geramos “fichas de relatório” gráficas detalhadas para cada um dos 22.218 genes putativos em Ensembl (v35). As fichas mostram a estrutura do gene, alinhamentos de seqüência, medidas de conservação evolutiva e nossa classificação final (Fig. 3).

Fig. 3.

Um exemplo de ficha de um gene pequeno, HAMP, no cromossoma 19. Boletins para todos os 22.218 genes putativos no Ensembl v35 estão disponíveis em www.broad.mit.edu/mammals/alpheus. Os boletins fornecem uma estrutura visual para o estudo da conservação entre espécies e para a detecção de possíveis problemas na anotação de genes humanos. As informações no topo mostram a localização cromossômica; identificadores alternativos; e informações resumidas, tais como comprimento, número de exons e conteúdo de repetição. Vários painéis abaixo fornecem vistas gráficas do alinhamento do gene humano com os genomas do rato e do cão. O “Synteny” mostra o alinhamento em larga escala da sequência genómica, indicando segmentos alinhados e não alinhados. A sequência humana é anotada com os exões em branco e a sequência repetitiva em cinza escuro. “Detalhe de alinhamento” mostra o alinhamento completo da sequência de DNA e o alinhamento das proteínas. No alinhamento do DNA, a sequência humana é dada no topo, as bases nas outras espécies são marcadas como coincidentes (cinza claro) ou não coincidentes (cinza escuro), os limites do exon são marcados por linhas verticais, os indels são marcados por pequenos triângulos acima da sequência (vértice para baixo para inserções, vértice para cima para deleções, número indicando comprimento nas bases), o códon inicial anotado está em verde, e o códon final anotado está em roxo. No alinhamento das proteínas, a sequência de aminoácidos humanos é dada no topo, e as sequências nas outras espécies são marcadas como coincidentes (cinza claro), semelhantes (rosa), ou não coincidentes (vermelho). O “Frame alignment” mostra a distribuição dos desajustes de nucleotídeos encontrados em cada posição do códão, sendo que o excesso de mutações é esperado na terceira posição. A correspondência é mostrada em cinza claro, e as inadequações são mostradas em cinza escuro. “Indels, starts and stops” fornece uma visão geral dos principais eventos. Os indels são indicados por triângulos (vértice para baixo para inserções, vértice para cima para exclusões) e marcados como frameshifting (vermelho) ou frame-preserving (cinza). Os códons iniciais são marcados em verde e os códons parados em roxo. “Splice sites” mostra a conservação da sequência em torno dos splice sites, com duas bases doadoras e aceitantes destacados em cinza e bases não correspondentes indicadas em vermelho. “Dados resumidos” lista várias estatísticas de conservação relativas ao rato e ao cão, incluindo pontuação RFC, identidade nucleotídica, número de sítios de emenda conservados, mudança de estrutura e não mudança de estrutura densidade de indel/kb, e vizinhança genética. A vizinhança do gene mostra um ponto para os três genes a montante e a jusante, que é cinza se o synteny é preservado e vermelho se não for assim.

Os boletins são valiosos para estudar a evolução dos genes e para refinar a anotação do gene. Ao examinar as anomalias locais por comparação entre espécies, identificamos 23 erros claros na anotação gênica (incluindo casos em que a mudança do quadro de leitura ou da fita de codificação revela ortologs de espécies cruzadas inequívocos) e 332 casos em que a conservação entre espécies sugere a alteração do códon de início ou fim, eliminando um exon interno, ou movendo um local de emenda. Destes últimos casos, a maioria provavelmente são erros na anotação do gene humano, embora alguns possam representar verdadeiras diferenças entre espécies. As fichas de relatório, juntamente com as ferramentas de pesquisa e tabelas de resumo, estão disponíveis em www.broad.mit.edu/mammals/alpheus.