Texto principal
La morfología del cabello es una de las características más conspicuas de la variación humana y es particularmente diversa entre las personas de ascendencia europea, para las que alrededor del 45% de los individuos tienen el pelo liso, el 40% tienen el pelo ondulado y el 15% tienen el pelo rizado.1 El grado de rizado está relacionado con la distribución de las queratinas capilares y el tipo de células dentro de la fibra capilar, y el número de células mesocorticales disminuye a medida que se intensifica el rizado.2 Estudios recientes han identificado alelos específicos de Asia de los genes EDAR y FGFR2 que se asocian con el pelo grueso y liso, lo que sugiere que estas variantes surgieron después de la divergencia entre asiáticos y europeos.3,4 Sin embargo, se desconocen las variantes genéticas que influyen en la ondulación del cabello en los europeos (que se ha demostrado que es altamente heredable5).
Realizamos análisis de asociación de todo el genoma en tres muestras familiares australianas: una muestra de gemelos adolescentes y sus hermanos (1.649 individuos de 837 familias) y dos muestras de parejas de gemelos adultos (S1, 1.945 individuos de 1.210 familias; S2, 1.251 individuos de 845 familias) obtenidas de la población general (Tabla 1).5 En la muestra de adolescentes, la ondulación del cabello se valoró en una escala de tres puntos (liso, ondulado o rizado). En las muestras de adultos, los participantes indicaron si su cabello era liso o rizado (S1) o liso, ondulado o rizado (S2). Para tener en cuenta las diferencias en la recogida de fenotipos y en la edad de las muestras, cada muestra se analizó de forma independiente y se utilizó el meta-análisis para combinar los tres conjuntos de resultados. Estos estudios se llevaron a cabo con la aprobación de los comités éticos correspondientes y el consentimiento informado de todos los participantes.
Los datos genotípicos utilizados en el presente estudio proceden de un proyecto de genotipado más amplio que incluyó siete oleadas de genotipado que extrajeron participantes de nuestros estudios de salud y estilo de vida en adultos de 1988 y 19906 y del estudio de factores de riesgo de melanoma en adolescentes.7,8 Los datos genotípicos de cada proyecto se describen en la Tabla 2. Se aplicaron filtros de control de calidad estándar a los genotipos de cada proyecto, restringiendo la imputación a las muestras y los SNP con datos de alta calidad (Tabla 2). Se examinó a los individuos para determinar su ascendencia no europea, lo que dio como resultado una muestra de 16.140 individuos genotipados (Figura S2, disponible en línea). Para que no se introdujera un sesgo en los datos imputados, se utilizó un conjunto de SNP comunes a las siete submuestras para la imputación (n = 274.604). La imputación se llevó a cabo con el uso de los datos escalonados de las muestras HapMap de ascendencia europea (CEU; build 36, release 22) y MACH.9
Tabla 2
Información resumida de las siete oleadas de genotipado y del control de calidad realizado
Proyecto 1: ALCO CIDR | Proyecto 2: ALCO deCODE | Proyecto 3: MIG deCODE | Proyecto 4: EUTWIN | Proyecto 5: ADOL deCODE | Proyecto 6: GL_CIDR | Proyecto 7: WH deCODE | |
---|---|---|---|---|---|---|---|
Fenotipo primario | Consumo de alcohol (muestra poblacional) | Consumo de alcohol (muestra poblacional) | Migraña (muestra de casos/control) | Niveles de lípidos (muestra poblacional) | Factores de riesgo de melanoma (muestra poblacional) | Glaucoma (muestra poblacional) | Salud femenina (muestra de casos/control) |
Laboratorio de genotipado | CIDR | deCODE | deCODE | Universidad de Helsinki | deCODE | CIDR | deCODE |
Plataforma SNP Illuminia | HumanCNV370-Quadv3 | HumanCNV370-Quadv3 | Human610-Quad | Human 317K | Human610-Quad | Human610-Quad | Human610-Quad |
Nº. de muestras genotipadas | 4241 | 2611 | 999 | 462 | 4391 | 657 | 2360 |
No. de SNPs | 343,955 | 344,962 | 592,385 | 318,210 | 592,392 | 589,296 | 562,193 |
Puntuación GenCall de LeadStudio < 0.7 | 24,494 | 27,459 | 46,931 | NAa | 47,418 | 36,877 | 57,589 |
SNPs con tasa de llamada < 0.95 | 11,584 | 7537 | 8038 | 5021 | 8447 | 12,455 | 33,459 |
SNPs con fallo de HWE p < 10-6 | 4318 | 1194 | 1221 | 67 | 2841 | 15,474 | 1763 |
SNPs con MAF < 0.01/ sólo 1 alelo observado | 7874 | 8976 | 33,347 | 264 | 33,347 | 28,607 | 24,509 |
No. de SNPs después de QC | 323093 | 321,267 | 530,922 | 312,937 | 529,379 | 531,042 | 518,948 |
Porcentaje de SNPs genotipados | 93.93% | 93,13% | 89,62% | 98,34% | 89,36% | 90,11% | 92,31% |
Para cada proyecto, el ADN se extrajo de acuerdo con los protocolos estándar. En todos los proyectos, los participantes fueron genotipados en las plataformas de SNP 317K, 370K o 610K de Illumina, y los genotipos fueron llamados con el software BeadStudio de Illumina. Tras el control de calidad (QC) de los proyectos individuales, se integraron los datos de las siete oleadas de genotipado. Como se muestra en la Figura S1, varias muestras se duplicaron entre los distintos proyectos de genotipado, lo que permitió un control de calidad cruzado de los proyectos. Tras la integración de los conjuntos de datos, se examinaron los datos para detectar la falta de datos dentro de los individuos (>5%, teniendo en cuenta el número de SNP que se genotipificaron para cada individuo), los errores de pedigrí y de sexo, y los errores mendelianos (se eliminaron los genotipos de todos los miembros de la familia para un SNP determinado tras la detección de errores). Tras el control de calidad, en los casos en los que se había genotipado un individuo de una pareja de gemelos monocigóticos, se asignaron genotipos duplicados al gemelo no genotipado, lo que dio como resultado una muestra de 16.507 individuos. Tras el cribado de la ascendencia no europea (Figura S2), se obtuvo una muestra final de 16.140 individuos. HWE significa equilibrio de Hardy-Weinburg.
Para poder aprovechar al máximo la información disponible en la escala ordinal, los datos se analizaron mediante un modelo de umbral multifactorial que describe los rasgos discretos como reflejo de una distribución normal subyacente de responsabilidad (o predisposición). La responsabilidad, que representa la suma de todos los efectos multifactoriales, se supone que refleja los efectos aditivos combinados de un gran número de genes y factores ambientales, cada uno de ellos de pequeño efecto, y se caracteriza por discontinuidades fenotípicas que se producen cuando la responsabilidad alcanza un umbral determinado.10 Se utilizó una prueba total de asociación, en la que los datos de dosis (MACH mldose) para cada SNP a su vez se incluyeron dentro del modelo de umbral, lo que resultó en una prueba aditiva de asociación. Además, se incluyeron efectos fijos de sexo y edad (tanto efectos lineales como cuadráticos) e interacciones de edad por sexo con los modelos de umbral en todos los análisis de datos, de manera que el valor del rasgo para el individuo j de la familia i se parametrizó como xij = βdose + βage + βage2 + βsex + βsex-age + μ. El parentesco entre los participantes se modeló explícitamente, teniendo en cuenta el sexo de los pares relativos, y las varianzas fenotípicas se restringieron a la unidad. La estadística de la prueba de asociación se calculó comparando el ajuste (menos dos veces la log-verosimilitud) del modelo completo, que incluía el efecto del SNP dado, con el de un modelo anidado, en el que el efecto del SNP se había eliminado del modelo. La diferencia en las probabilidades logarítmicas sigue una distribución asintótica chi-cuadrado con los grados de libertad iguales a la diferencia en los parámetros estimados entre los dos modelos (en este caso uno). Los factores de inflación genómica de las tres muestras oscilaron entre 0,98 y 1,02 (Figura S3), lo que indica que la prueba controló correctamente el parentesco de los participantes y que los posibles artefactos técnicos y de estratificación tuvieron un impacto insignificante en los resultados.
Cuatro polimorfismos de un solo nucleótido (SNP) altamente correlacionados (rs17646946, rs11803731, rs4845418, rs12130862; r2 > 0,8, D′ > 0,95 dentro de la muestra HapMap CEU) en el cromosoma 1q21.3 (Figura 1B) alcanzó nuestro umbral de significación en todo el genoma de 5 × 10-8, que corrige para ∼1 millón de variantes comunes independientes en el genoma11 (Tabla 3, Figura S4). La asociación se encontró en las tres muestras, lo que sugiere que el efecto es robusto a las diferencias de edad entre las muestras y que el modelo de umbral de responsabilidad tuvo en cuenta las diferencias en la definición fenotípica entre las muestras. El meta-análisis de las tres muestras utilizando un análisis ponderado de N (individuos) en Metal (ver Recursos Web) dio como resultado valores p altamente significativos para los SNPs que están dentro de esta región y caen en un haplotipo marcado por el SNP rs17646946 directamente genotipado (p = 1,5 × 10-31) (Figuras 1A y 1B, Tabla 3). La asociación en la región 1q21.3 se centra en el gen de la tricohialina TCHH y representó ∼6% de la varianza (Figura 1E, Tabla 3). Los análisis posteriores mostraron que la asociación a nivel de haplotipos no ofrecía un poder predictivo adicional. La inclusión de los mejores SNP como covariables en los análisis no aportó más pruebas de asociación, explicando completamente la señal en este locus (Figura S5). No encontramos evidencia de epistasis entre estos SNPs y cualquier otro SNP a través del genoma ni ninguna heterogeneidad entre sexos (Figuras S5 y S6). Por último, aunque el análisis de la variación del número de copias (VNC) en toda la región en la muestra de adolescentes encontró evidencia de VNC en 18 individuos, fue demasiado infrecuente para explicar el efecto observado (Tabla S2). La tabla S3 enumera todos los SNP con un valor p combinado inferior a 1 × 10-5 para el metaanálisis. Se observó una segunda región de asociación sugestiva en el cromosoma 4q21.21 (rs1268789; p = 6,58 × 10-8), centrada en el gen del síndrome de Fraser 1 FRAS1. También examinamos la evidencia de asociación dentro del meta-análisis para la lista de 170 genes candidatos publicada por Fujimoto et al.4 (Tabla S4). Además de la asociación observada en la región TCHH, se observaron fuertes señales de asociación en WNT10A, asociado a la displasia odonto-oncodérmica, que se caracteriza por la sequedad del cabello y una amplia gama de fenotipos ectodérmicos12 (2q35; rs7349332; p = 1.36 × 10-6).
Resultados de la asociación de todo el genoma
(A) Diagrama de Manhattan que muestra los resultados del metaanálisis de todo el genoma de la morfología del cabello en tres muestras independientes. Los SNPs con una p < 10-5 están resaltados en verde.
(B) Cariotipo del cromosoma 1 resaltando la región 1q21.
(C) Gráfico de asociación regional y desequilibrio de enlaces para la región 1q21. El SNP genotípico más asociado se muestra en azul, y el color de los marcadores restantes refleja el desequilibrio de enlace (r2) con el SNP superior en cada panel (el aumento del tono rojo se asocia con el aumento de r2). La tasa de recombinación (eje y de la derecha) se representa en azul claro y se basa en la población del HapMap del CEU. Los exones de cada gen están representados por barras verticales, basadas en todas las isoformas disponibles en el ensamblaje del Navegador del Genoma de la UCSC de marzo de 2006.
(D) Frecuencia de alelos menores para el SNP rs11803731 de TCHH, basada en el Proyecto de Diversidad del Genoma Humano.29
(E) Frecuencia de pelo liso (barras naranjas), ondulado (barras verdes) y rizado (barras azules) en función del genotipo rs11803731 en una muestra de individuos no emparentados (n = 43; n = 493; n = 1132). Con más alelos T, la proporción de pelo liso aumenta. Las barras verticales corresponden a los intervalos de confianza del 95% sobre la prevalencia.
Tabla 3
Detalles de los SNP significativos para todo el genoma en la región 1q21.3 en las tres muestras
rs17646946 | rs11803731 | rs4845418 | rs12130862 | |
---|---|---|---|---|
Posición (pb) | 150,329,391 | 150,349,949 | 150,402,854 | 150,293,639 |
Genotipado o imputado | Genotipado | Imputado | Imputado | Imputado |
Alelo menor (de referencia) | A | T | C | T |
Alelo mayor | G | A | G | A |
Frecuencia del alelo menor | 18.3% | 18,4% | 17,3% | 18,1% |
Equilibrio de Hardy-Weinburg valor p | 0.73 | 0,75 | 0,70 | 0,79 |
Rsq (métrica de precisión de la imputación) | – | 0.92 | 0,96 | 0,98 |
Muestra de adolescentes (n = 1649) | ||||
Efecto alélico (β)a | 0.41 | 0,42 | 0,42 | 0,39 |
Valor P | 1,24 × 10-11 | 1,76 × 10-11 | 3,68 × 10-11 | 7.59 × 10-11 |
Adulto S1 (n = 1945) | ||||
Efecto alélico (β)a | 0.50 | 0,50 | 0,49 | 0,45 |
Valor P | 8,18 × 10-13 | 2,51 × 10-12 | 2,22 × 10-11 | 9.69 × 10-11 |
Adultos S2 (n = 1251) | ||||
Efecto alélico (β)a | 0.44 | 0,44 | 0,43 | 0,42 |
Valor P | 7,91 × 10-11 | 1,37 × 10-10 | 1,15 × 10-9 | 8.16 × 10-10 |
Cálculos entre muestras | ||||
Varianza explicadab promediada entre muestras | 6.11% | 6,11% | 5,79% | 5,22% |
Análisis meta (valor p) | 1,50 × 10-31 | 3,18 × 10-31 | 4,43 × 10-29 | 3.12 × 10-28 |
De los cuatro SNP más asociados en la región 1q21, nos centramos en el rs11803731 (p = 3,2 × 10-31), porque se trata de una variante codificante y no sinónima situada en el tercer exón de TCHH (aunque se requiere más trabajo para confirmar que se trata de la variante causal). El alelo T del rs11803731 es el estado derivado y muestra una llamativa especificidad geográfica para Europa y Asia centro-occidental, alcanzando su mayor frecuencia en los europeos del norte (Figura 1E), lo que sugiere que la variante surgió en algún lugar de esta amplia región. La frecuencia y distribución modernas de las mutaciones de novo suelen estar determinadas por la deriva genética aleatoria y la migración. Sin embargo, dado que el rs11803731 influye en un fenotipo muy visible, es un objetivo intuitivamente obvio para la selección natural o sexual.13 El gen EDAR, que controla el grosor del pelo, muestra una de las firmas más convincentes de selección positiva en el genoma de Asia oriental.4 El rs11803731 se encuentra entre el 2,5% de los SNP más diferenciados del genoma entre los europeos y otras poblaciones del Hapmap II (medido por la prueba de longitud de rama específica del locus basada en FST14). Aunque un análisis previo de los patrones de homocigosidad de los haplotipos extendidos en la cohorte del Proyecto de Diversidad del Genoma Humano (HGDP) también muestra evidencia tentativa de autostopismo genético para la región 1q21.3 en algunas poblaciones europeas (ref. 15 y Figura S7), la evidencia general de selección es ambigua. Sin embargo, las firmas genéticas de la selección positiva en loci individuales, tal y como se detectan con las pruebas actuales, variarán dependiendo del momento, la fuerza del evento selectivo, la característica genómica de la región y la arquitectura genética (número, frecuencia y tamaño del efecto de los loci causales) del fenotipo en cuestión16 y, por lo tanto, pueden no ser tan obvias como las asociadas a otros rasgos superficiales. Por ejemplo, la región del gen OCA2 es un objetivo de selección bien establecido17 y se sabe que influye en los rasgos de pigmentación humana, especialmente en el color de los ojos.18,19
El efecto de la variante rs11803731, la sustitución de una leucina por una metionina en la posición 790 de la proteína TCHH, se predijo mediante análisis in silico con los programas PolyPhen20 y PMut.21 PolyPhen predijo que el cambio L790M era «benigno», mientras que PMut predijo que este cambio era «neutral». No se obtuvieron resultados para otros programas de predicción, incluyendo SIFT22 (ver Recursos Web) (con el ID del SNP o la secuencia de la proteína utilizada) y SNPs3D23 (ver Recursos Web) que no contenía ningún registro del SNP rs11803731. Tales predicciones no excluyen un papel funcional, dado que el efecto del SNP puede ser regulatorio más que estructural, en particular porque la sustitución de aminoácidos cae fuera de las regiones α-helicoidales.23 Las metioninas expuestas a la superficie pueden ser oxidadas por especies reactivas de oxígeno postraduccionales, lo que si no se repara puede dar lugar a cambios en la estructura y la actividad de la proteína y puede llevar a una regulación alterada de la misma.24
Alternativamente, el rs11803731 puede estar asociado con una variación estructural. La TCHH es una proteína α-helicoidal de una sola hebra con dos o tres regiones altamente repetitivas, dependiendo de la especie (Figura S8). En las ovejas, la proteína de referencia (CAA79165.1) tiene una longitud de 1.549 aminoácidos, pero se observan variaciones en el número de repeticiones completas y parciales en la región de repetición C-terminal en diferentes cepas.25,26 En la proteína TCHH humana, las longitudes de las repeticiones oscilan entre aproximadamente 6 y 30 aminoácidos, lo que corresponde a entre 18 y 90 pb de secuencia de ADN. Hay varios SNP y polimorfismos de inserción o deleción, en particular en la primera y tercera regiones de repetición (dbSNP; ver Recursos Web), y este gen podría albergar variantes de longitud alélica, como se ha visto en ovejas y en otro gen altamente repetitivo en la región del cromosoma 1p21 humano, la involucrina (IVL), donde los alelos difieren entre las poblaciones humanas en el número de repeticiones cortas en tándem y en los cambios de una sola base dentro de la secuencia repetida.27,28 Tal variación de longitud no ha sido reportada para TCHH, y queda por determinar experimentalmente si tal variación es común, afecta a la estructura o longitud de la proteína, y/o está marcada por SNPs que flanquean las regiones repetidas.
En conclusión, reportamos un locus de rasgo cuantitativo que afecta a la forma del cabello en los europeos. La asociación representa ∼6% de la varianza en la morfología del cabello en este grupo y cae dentro del gen Trichohyalin, que tiene un papel conocido en la formación del cabello. Los patrones de frecuencias alélicas son sorprendentes, y la mayor frecuencia de estas variantes se observa en los europeos del norte (figura 1), en paralelo a la observación de la variante EDAR de pelo liso en las poblaciones asiáticas (figura S9).