Distinguir los genes codificadores de proteínas y los no codificadores en el genoma humano

Resultados
Identificar los huérfanos.
Clase 2: Genes con paralogos entre especies.
Clase 3: Genes con paralogos sólo humanos.
Clase 4: Genes con dominios Pfam.
Clase 5: Huérfanos.
Caracterización de los huérfanos.
Longitudes de los ORFs.
Propiedades de conservación.
Conservación del marco de lectura.
Frecuencia de sustitución de codones.
Los huérfanos no representan genes codificadores de proteínas.
Pruebas experimentales de proteínas codificadas.
Revisión de los catálogos de genes humanos.
Catálogo Ensembl.
Otros catálogos.
Análisis combinado.
Limitaciones del análisis.
Mejorando las anotaciones de los genes.

Resultados

Identificar los huérfanos.

Nuestro análisis requiere estudiar las propiedades de los ORFs humanos que carecen de homólogos entre especies, a los que denominamos «huérfanos». Dicho estudio requiere filtrar cuidadosamente los catálogos de genes humanos, para identificar los genes con homólogos y eliminar una amplia gama de artefactos que interferirían con el análisis de los huérfanos. Por esta razón, emprendimos un nuevo análisis exhaustivo de los catálogos de genes humanos.

Nos centramos en el catálogo de Ensembl (versión 35), que enumera 22.218 genes codificadores de proteínas con un total de 239.250 exones. Nuestro análisis tuvo en cuenta sólo los 21.895 genes de la secuencia de referencia del genoma humano de los cromosomas 1-22 y X. (Por lo tanto, omitimos el cromosoma mitocondrial, el cromosoma Y y los «contigs no colocados», que implican consideraciones especiales; véase más adelante.)

Desarrollamos un protocolo computacional mediante el cual los genes putativos se clasifican basándose en la comparación con los genomas humano, del ratón y del perro (Fig. 1; véase Materiales y Métodos). Se utilizaron los genomas del ratón y del perro, porque se dispone de una secuencia genómica de alta calidad (7, 8), y el grado de divergencia de la secuencia es muy adecuado para la identificación de genes. La tasa de sustitución de nucleótidos en relación con el ser humano es de ≈0,50 por base en el caso del ratón y de ≈0,35 en el del perro, y los eventos de inserción y deleción (indel) se producen con una frecuencia que es ≈10 veces menor (8, 9). Estas tasas son lo suficientemente bajas como para permitir una alineación de secuencias fiable, pero lo suficientemente altas como para revelar los patrones de mutación diferenciales esperados en las regiones codificantes y no codificantes.

Clase 2: Genes con paralogos entre especies.

La línea de producción identificó entonces 155 casos de genes humanos putativos que tienen un paralog en el genoma humano que, a su vez, tiene un ortólogo en el ratón o el perro. Estos genes representan en gran medida duplicaciones no locales en el linaje humano (tres cuartas partes se encuentran en duplicaciones segmentarias) o posiblemente pérdidas de genes en los otros linajes. Entre estos genes, una inspección minuciosa reveló ocho casos en los que un pequeño cambio en la anotación humana permitió la identificación de un claro ortólogo humano.

Clase 3: Genes con paralogos sólo humanos.

El pipeline identificó 68 casos de genes humanos putativos que tienen uno o más paralogos dentro del genoma humano, pero sin que ninguno de estos paralogos tenga ortólogos en el ratón o el perro. Una inspección minuciosa eliminó 17 casos como retroposones adicionales u otros artefactos (véase el Apéndice SI). Los 51 casos restantes parecen ser genes válidos, de los cuales 15 pertenecen a tres familias conocidas de genes específicos de primates (las familias DUF1220, NPIP y CDRT15) y los demás ocurren en grupos paralógicos más pequeños (de dos a ocho miembros) que también pueden representar familias específicas de primates.

Clase 4: Genes con dominios Pfam.

La línea de producción identificó 97 casos de genes putativos con homología a un dominio proteico conocido en la colección Pfam (10). Una inspección minuciosa eliminó 21 casos como retroposones adicionales u otros artefactos (ver Apéndice SI ) y 40 casos en los que un pequeño cambio en la anotación humana permitió la identificación de un claro ortólogo humano. Los 36 genes restantes parecen ser genes válidos, con 10 que contienen dominios específicos de primates conocidos y 26 que contienen dominios comunes a muchas especies.

Clase 5: Huérfanos.

Después del procedimiento anterior quedaron un total de 1.285 genes putativos. Una inspección minuciosa identificó 40 casos que eran claros artefactos (repeticiones largas en tándem que casualmente carecen de un codón de parada) y 68 casos en los que se pudo asignar un ortólogo entre especies tras una corrección de pequeños cambios en la anotación del gen humano. Los 1.177 casos restantes se declararon huérfanos, porque carecen de ortología, paralogía u homología con genes conocidos y no son artefactos evidentes. Observamos que la revisión cuidadosa de los genes fue esencial para obtener un conjunto «limpio» de huérfanos para el análisis posterior.

Caracterización de los huérfanos.

Caracterizamos las propiedades de los huérfanos para ver si se asemejan a las observadas para los genes codificantes de proteínas o a las esperadas para los ORFs aleatorios que surgen en los transcritos no codificantes.

Longitudes de los ORFs.

Los huérfanos tienen un contenido de GC del 55%, que es muy superior a la media del genoma humano (39%) y similar al observado en los genes codificadores de proteínas con homólogos entre especies (53%). El alto contenido de GC refleja la tendencia de los huérfanos a aparecer en regiones ricas en genes.

Examinamos las longitudes de los ORF de los huérfanos, en relación con su contenido de GC. Los huérfanos tienen ORFs relativamente pequeños (mediana = 393 pb), y la distribución de las longitudes de los ORFs se asemeja mucho a la expectativa matemática para el ORF más largo que surgiría por casualidad en un ADN genómico humano derivado de la transcripción con el contenido de GC observado (SI Fig. 4).

Propiedades de conservación.

A continuación nos centramos en las propiedades de conservación entre especies. Para evaluar la sensibilidad de varias medidas, examinamos un conjunto de 5.985 genes «bien estudiados» definidos por el criterio de que se discuten en más de cinco artículos publicados. Para cada gen bien estudiado, seleccionamos una secuencia de control aleatoria emparejada del genoma humano, que tenía un número similar de «exones» con longitudes similares, una proporción similar de secuencia repetida y una proporción similar de alineación entre especies, pero que no se solapaba con ningún gen putativo.

Los genes bien estudiados y los controles aleatorios emparejados difieren con respecto a todas las propiedades de conservación estudiadas (SI Fig. 5 y SI Tabla 1). La identidad nucleotídica y la relación Ka/Ks difieren claramente, pero las distribuciones son amplias y tienen un solapamiento sustancial. La densidad de indels tiene una distribución más ajustada: el 97,3% de los genes bien estudiados, pero sólo el 2,8% de los controles aleatorios, tienen una densidad de indels de <10 por kb. Sin embargo, las distinciones más marcadas se encontraron para dos medidas que reflejan la evolución distintiva de los genes que codifican proteínas: la puntuación de conservación del marco de lectura (RFC) y la puntuación de la frecuencia de sustitución de codones (CSF).

Conservación del marco de lectura.

La puntuación RFC refleja el porcentaje de nucleótidos (que oscila entre el 0% y el 100%) cuyo marco de lectura se conserva entre especies (SI Fig. 6). La puntuación RFC se determina alineando la secuencia humana con su ortólogo entre especies y calculando el porcentaje máximo de nucleótidos con marco de lectura conservado, entre los tres marcos de lectura posibles para el ortólogo. Los resultados se promedian a través de ventanas deslizantes de 100 bases para limitar la propagación de los efectos locales debidos a errores en la alineación de la secuencia y la anotación de los límites del gen. Calculamos por separado las puntuaciones RFC relativas a los genomas del ratón y del perro y nos centramos en una puntuación RFC conjunta, definida como la mayor de las dos puntuaciones. La puntuación RFC se describió originalmente en nuestro trabajo sobre la levadura, pero se ha adaptado para acomodar la frecuente presencia de intrones en la secuencia humana (véase el Apéndice SI ).

La puntuación RFC no muestra prácticamente ningún solapamiento entre los genes bien estudiados y los controles aleatorios (SI Fig. 5). Sólo el 1% de los controles aleatorios superan el umbral de RFC >90, mientras que el 98,2% de los genes bien estudiados superan este umbral. La situación es similar para el conjunto completo de 18.752 genes con homólogos entre especies, con un 97% que supera el umbral (Fig. 2 a). La puntuación RFC es ligeramente inferior para los genes que evolucionan más rápidamente, pero la distribución RFC incluso para el 1% superior de los genes que evolucionan rápidamente está muy separada de los controles aleatorios (SI Fig. 5).

Fig. 2.

Distribuciones acumulativas de la puntuación RFC. (Izquierda) Genes humanos con ortólogos entre especies (azul) frente a controles aleatorios emparejados (negro). (Derecha) Huérfanos humanos (rojo) frente a controles aleatorios emparejados (negro). Las puntuaciones RFC se calculan en relación con el ratón y el perro juntos (arriba), el macaco (centro) y el chimpancé (abajo). En todos los casos, los ortólogos son sorprendentemente diferentes de sus controles aleatorios emparejados, mientras que los huérfanos son esencialmente indistinguibles de sus controles aleatorios emparejados.

Por el contrario, los huérfanos muestran una imagen completamente diferente. Son esencialmente indistinguibles de los controles aleatorios emparejados (Fig. 2 b) y no se parecen ni siquiera al subconjunto de más rápida evolución de los 18.572 genes con homólogos entre especies. En resumen, el conjunto de huérfanos no muestra tendencia alguna a conservar el marco de lectura.

Frecuencia de sustitución de codones.

La puntuación RFC proporciona una prueba complementaria del patrón evolutivo de los genes que codifican proteínas. Mientras que la puntuación RFC se basa en los indels, la puntuación CSF se basa en los diferentes patrones de sustitución de nucleótidos que se observan en el ADN codificador de proteínas frente al ADN aleatorio. Desarrollado recientemente para el análisis genómico comparativo de las especies de Drosophila (11), el método calcula una puntuación de frecuencia de sustitución de codones (CSF) basada en los alineamientos de muchas especies. Aplicamos el enfoque CSF a los alineamientos del ser humano con nueve especies de mamíferos, consistentes en la secuencia de alta cobertura (≈7×) del ratón, el perro, la rata, la vaca y la zarigüeya y la secuencia de baja cobertura (≈2×) del conejo, el armadillo, el elefante y el tenrec.

Los resultados mostraron de nuevo una fuerte diferenciación entre los genes con homólogos entre especies y los huérfanos. Entre los 16.210 genes con ortología simple, el 99,2% arrojó puntuaciones de LCR consistentes con la evolución esperada de los genes codificadores de proteínas. Por el contrario, los 1.177 huérfanos incluyen sólo dos casos cuyo patrón de evolución de codones indicaba un gen válido. Tras una inspección, estos dos casos eran claros errores en la anotación del gen humano; traduciendo la secuencia en un marco diferente, se puede identificar un claro ortólogo entre especies.

Los huérfanos no representan genes codificadores de proteínas.

Los resultados anteriores son consistentes con que los huérfanos sean simplemente ORFs al azar, en lugar de genes codificadores de proteínas humanos válidos. Sin embargo, la consistencia no constituye una prueba. Más bien, debemos rechazar rigurosamente la hipótesis alternativa.

Supongamos que los huérfanos representan genes humanos válidos que codifican proteínas y que carecen de los ORF correspondientes en el ratón y el perro. Los huérfanos se clasificarían en dos clases: (i) algunos pueden ser anteriores a la divergencia del ratón y el perro, es decir, son genes ancestrales que se perdieron tanto en el ratón como en el perro, y (ii) algunos pueden ser posteriores a la divergencia, es decir, son genes nuevos que surgieron en el linaje que lleva al humano. ¿Cómo podemos excluir estas posibilidades? Nuestra solución fue estudiar dos parientes primates: el macaco y el chimpancé. Consideramos las alternativas sucesivamente.

Supongamos que los huérfanos son genes ancestrales de mamíferos que se perdieron en el perro y el ratón pero que se conservan en el linaje que conduce al humano. Si es así, seguirían estando presentes y siendo funcionales en el macaco y el chimpancé, excepto en el caso poco probable de que también sufrieran eventos de pérdida independientes en los linajes del macaco y el chimpancé.
Supongamos que los huérfanos son genes nuevos que surgieron en el linaje que conduce al humano, después de la divergencia del perro y el ratón . Asumiendo que la generación de nuevos genes es un proceso constante, las fechas de nacimiento deberían estar distribuidas a lo largo de este periodo. Si es así, la mayoría de las fechas de nacimiento serán anteriores a la divergencia del macaco (≈30 Mya) y casi todas serán anteriores a la divergencia del chimpancé (≈6 Mya) (12).

En cualquiera de los escenarios anteriores, la gran mayoría de los huérfanos deben corresponder a genes funcionales codificadores de proteínas en el macaco o el chimpancé.

Por lo tanto, comprobamos si los huérfanos muestran alguna evidencia de conservación de la codificación de proteínas en relación con el macaco o el chimpancé, utilizando la puntuación RFC. Sorprendentemente, la distribución de las puntuaciones RFC para los huérfanos es esencialmente idéntica a la de los controles aleatorios (Fig. 2 d y f). La distribución de los huérfanos no se asemeja a la observada incluso para el 1% de los genes de más rápida evolución con homólogos entre especies (SI Figs. 7-9).

El conjunto de huérfanos, por tanto, no muestra evidencia alguna de conservación del marco de lectura incluso en nuestros parientes primates más cercanos. (Por supuesto, es posible que los huérfanos incluyan unos pocos genes válidos que codifican proteínas, pero la proporción debe ser lo suficientemente pequeña como para no tener un efecto discernible en la distribución general de RFC). Llegamos a la conclusión de que la gran mayoría de los huérfanos no corresponden a genes funcionales codificadores de proteínas en el macaco y el chimpancé, y por lo tanto no son ni genes ancestrales ni de reciente aparición.

Si los huérfanos representan genes humanos válidos que codifican proteínas, tendríamos que concluir que la gran mayoría de los huérfanos nacieron después de la divergencia del chimpancé. Este modelo requeriría una tasa prodigiosa de nacimiento de genes en los linajes de mamíferos y una tasa feroz de muerte de genes que borrara el enorme número de genes nacidos antes de la divergencia con el chimpancé. Rechazamos tal modelo por considerarlo totalmente inverosímil. Por lo tanto, concluimos que la gran mayoría de los huérfanos son simplemente ORFs que se producen al azar y que no representan genes codificadores de proteínas.

Por último, observamos que el cuidadoso filtrado del catálogo de genes humanos antes mencionado fue esencial para el análisis anterior, porque eliminó pseudogenes y artefactos que habrían impedido un análisis preciso de las propiedades de los huérfanos.

Pruebas experimentales de proteínas codificadas.

Como comprobación independiente de nuestra conclusión, revisamos la literatura científica en busca de artículos publicados que mencionaran a los huérfanos para determinar si había pruebas experimentales de proteínas codificadas. Mientras que la gran mayoría de los genes bien estudiados han demostrado directamente que codifican una proteína, encontramos artículos que informan de la evidencia experimental de una proteína codificada in vivo para sólo 12 de los 1.177 huérfanos, y algunos de estos informes son equívocos (SI Tabla 2). La evidencia experimental es por tanto consistente con nuestra conclusión de que la gran mayoría de los ORFs no conservados no codifican proteínas. En el puñado de casos en los que la evidencia experimental existe o se encuentra en el futuro, los genes pueden ser restaurados en el catálogo sobre una base de caso por caso.

Revisión de los catálogos de genes humanos.

Con la fuerte evidencia de que la gran mayoría de los huérfanos no son genes codificadores de proteínas, es posible revisar los catálogos de genes humanos de una manera de principio.

Catálogo Ensembl.

Nuestro análisis del catálogo Ensembl (v35) indica que contiene 19.108 genes válidos codificadores de proteínas en los cromosomas 1-22 y X dentro del ensamblaje actual del genoma. El 15% restante de las entradas se eliminan como retroposones, artefactos o huérfanos. Junto con el cromosoma mitocondrial y el cromosoma Y , el total llega a 19.199.

Ampliamos el análisis al catálogo Ensembl (v38), en el que se añadieron 2.212 genes putativos y se revisaron o eliminaron muchas entradas anteriores. Nuestra línea de cálculo encontró 598 genes codificadores de proteínas adicionales basados en homólogos de otras especies, 1.135 retroposones y 479 huérfanos. Las curvas RFC de los huérfanos volvieron a coincidir con las expectativas del ADN aleatorio.

Otros catálogos.

Aplicamos el mismo enfoque al catálogo Vega (v34) y RefSeq (marzo de 2007). Ambos catálogos contienen una proporción sustancial de entradas que parecen no ser genes codificadores de proteínas válidos (16% y 10%, respectivamente), basándose en la falta de una contraparte entre especies (ver SI Fig. 10 y SI Apéndice ). Si restringimos las entradas de RefSeq a las de mayor confianza (con la advertencia de que este conjunto contiene muchos menos genes), sólo el 1% parece inválido. Juntos, estos dos catálogos añaden 673 genes codificadores de proteínas adicionales.

Análisis combinado.

Combinando el análisis de los tres principales catálogos de genes, encontramos que sólo 20.470 de las 24.551 entradas parecen ser genes codificadores de proteínas válidos.

Limitaciones del análisis.

Nuestro análisis de los catálogos de genes actuales tiene ciertas limitaciones que deben señalarse.

En primer lugar, eliminamos todos los pseudogenes y huérfanos. Encontramos seis casos reportados en los que un pseudogén o transposón procesado sufrió una exaptación para producir un gen funcional (SI Tablas 1 y 3) y 12 casos reportados de huérfanos con evidencia experimental de una proteína codificada. Estos 18 casos pueden restablecerse fácilmente en el catálogo (elevando el recuento a 20.488). Hay casos adicionales de retroposones potencialmente funcionales que no están presentes en los catálogos de genes actuales (15). Si se encuentra alguno que produzca proteínas, también debería incluirse.

En segundo lugar, no hemos considerado los 197 genes putativos que se encuentran en los «contigs no mapeados». Estas regiones son secuencias que se omitieron en el montaje final del genoma humano. Consisten en gran parte en duplicaciones segmentarias, y la mayoría de los genes son muy similares a otros en el ensamblaje. Muchas de las secuencias pueden representar alelos alternativos o montajes erróneos del genoma. Sin embargo, se sabe que las regiones de duplicación segmentaria son viveros de innovación evolutiva (16) y pueden contener algunos genes válidos. Merecen una atención especial.

En tercer lugar, y más importante, los ORFs no conservados estudiados aquí se incluyeron normalmente en los catálogos de genes actuales porque tienen el potencial de codificar al menos 100 aminoácidos. Por tanto, no sabemos si nuestras conclusiones se aplicarían a ORFs mucho más cortos. En principio, existen muchos genes adicionales que codifican proteínas cortas, como las hormonas peptídicas, que suelen traducirse a partir de precursores mucho más grandes y pueden evolucionar rápidamente. Debería ser posible investigar las propiedades de los ORF más pequeños utilizando otras especies de mamíferos además del ratón y el perro.

Mejorando las anotaciones de los genes.

En el curso de nuestro trabajo, generamos «tarjetas de informe» gráficas detalladas para cada uno de los 22.218 genes putativos de Ensembl (v35). Los informes muestran la estructura del gen, las alineaciones de la secuencia, las medidas de conservación evolutiva y nuestra clasificación final (Fig. 3).

Fig. 3.

Un ejemplo de tarjeta de informe de un gen pequeño, HAMP, en el cromosoma 19. Las fichas de los 22.218 genes putativos de Ensembl v35 están disponibles en www.broad.mit.edu/mammals/alpheus. Las fichas proporcionan un marco visual para estudiar la conservación entre especies y para detectar posibles problemas en la anotación de genes humanos. La información de la parte superior muestra la localización cromosómica, los identificadores alternativos y la información resumida, como la longitud, el número de exones y el contenido de repeticiones. Los distintos paneles que aparecen a continuación ofrecen vistas gráficas de la alineación del gen humano con los genomas del ratón y del perro. «Synteny» muestra la alineación a gran escala de la secuencia genómica, indicando tanto los segmentos alineados como los no alineados. La secuencia humana está anotada con los exones en blanco y la secuencia repetitiva en gris oscuro. «Detalle de la alineación» muestra la alineación completa de la secuencia de ADN y la alineación de las proteínas. En el alineamiento del ADN, la secuencia humana aparece en la parte superior, las bases de las otras especies están marcadas como coincidentes (gris claro) o no coincidentes (gris oscuro), los límites de los exones están marcados con líneas verticales, las indels están marcadas con pequeños triángulos sobre la secuencia (vértice hacia abajo para las inserciones, vértice hacia arriba para las deleciones, el número indica la longitud en bases), el codón de inicio anotado está en verde y el codón de parada anotado está en púrpura. En la alineación de proteínas, la secuencia de aminoácidos humana aparece en la parte superior, y las secuencias de las otras especies se marcan como coincidentes (gris claro), similares (rosa) o no coincidentes (rojo). El «Frame alignment» muestra la distribución de los desajustes de nucleótidos encontrados en cada posición del codón, con un exceso de mutaciones esperado en la tercera posición. Las coincidencias se muestran en gris claro y los desajustes en gris oscuro. «Indels, starts and stops» proporciona una visión general de los eventos clave. Los indeles se indican con triángulos (vértice hacia abajo para las inserciones, vértice hacia arriba para las deleciones) y se marcan como desplazamientos del marco (rojo) o preservación del marco (gris). Los codones de inicio están marcados en verde y los de parada en morado. «Sitios de empalme» muestra la conservación de la secuencia alrededor de los sitios de empalme, con los sitios donantes y aceptores de dos bases resaltados en gris y las bases no coincidentes indicadas en rojo. Los «datos de resumen» enumeran varias estadísticas de conservación en relación con el ratón y el perro, incluyendo la puntuación RFC, la identidad de los nucleótidos, el número de sitios de empalme conservados, la densidad de indels con y sin cambio de marco/kb, y la vecindad de los genes. La vecindad de los genes muestra un punto para los tres genes aguas arriba y aguas abajo, que se colorea de gris si se conserva la sintenia y de rojo en caso contrario.

Los boletines de notas son valiosos para estudiar la evolución de los genes y para refinar la anotación de los mismos. Al examinar las anomalías locales por comparación entre especies, hemos identificado 23 errores claros en la anotación de genes (incluyendo casos en los que el cambio del marco de lectura o de la cadena de codificación revela ortólogos inequívocos entre especies) y 332 casos en los que la conservación entre especies sugiere la alteración del codón de inicio o de parada, la eliminación de un exón interno o el desplazamiento de un sitio de empalme. De estos últimos casos, la mayoría son probablemente errores en la anotación del gen humano, aunque algunos pueden representar verdaderas diferencias entre especies. Las fichas, junto con las herramientas de búsqueda y las tablas de resumen, están disponibles en www.broad.mit.edu/mammals/alpheus.