PMC

author
14 minutes, 40 seconds Read

Texto Principal

A morfologia do cabelo é uma das características mais evidentes da variação humana e é particularmente diversificada entre as pessoas de ascendência europeia, para as quais cerca de 45% dos indivíduos têm cabelo liso, 40% têm cabelo ondulado e 15% têm cabelo encaracolado.1 O grau de encaracolamento está correlacionado com a distribuição das queratinas capilares e do tipo celular dentro da fibra capilar, com o número de células mesocórticas diminuindo à medida que o encaracolamento se intensifica.2 Estudos recentes identificaram alelos específicos asiáticos dos genes EDAR e FGFR2 que estão associados a cabelos espessos e lisos, sugerindo que estas variantes surgiram após a divergência entre asiáticos e europeus.3,4 No entanto, as variantes genéticas que influenciam a encaracolação do cabelo nos europeus (que se tem demonstrado ser altamente hereditária5) são desconhecidas.

Realizamos análises de associação de todo o genoma em três amostras de famílias australianas: uma amostra de gêmeos adolescentes e seus irmãos (1649 indivíduos de 837 famílias) e duas amostras de pares de gêmeos adultos (S1, 1945 indivíduos de 1210 famílias; S2, 1251 indivíduos de 845 famílias), a partir da população em geral (Tabela 1).5 Na amostra de adolescentes, a cachadura do cabelo foi avaliada em uma escala de três pontos (Liso, Ondulado ou Encaracolado). Nas amostras de adultos, os participantes relataram se o cabelo era Liso ou encaracolado (S1) ou Liso, Ondulado ou Encaracolado (S2). Para contabilizar as diferenças na coleta do fenótipo e idade entre as amostras, cada amostra foi analisada independentemente e a meta-análise foi utilizada para combinar os três conjuntos de resultados. Estes estudos foram realizados com a aprovação dos comitês de ética apropriados e o consentimento informado de todos os participantes.

Os dados genotípicos utilizados no presente estudo derivam de um projeto de genotipagem maior envolvendo sete ondas de genotipagem que atraíram os participantes de nossos estudos de saúde e estilo de vida de 1988 e 1990 em adultos6 e estudo de fatores de risco de melanoma adolescente.7,8 Os dados genotípicos de cada projeto estão descritos na Tabela 2. Os filtros de controle de qualidade padrão foram aplicados à genotipagem de cada projeto, restringindo a imputação a amostras e SNPs com alta qualidade de dados (Tabela 2). Os indivíduos foram rastreados para ancestrais não europeus, resultando numa amostra de 16.140 indivíduos genotipados (Figura S2, disponível online). Para que não fosse introduzido viés nos dados imputados, um conjunto de SNPs comuns às sete subamostras foi utilizado para imputação (n = 274.604). A imputação foi feita com o uso dos dados faseados das amostras HapMap de ascendência europeia (CEU; build 36, release 22) e MACH.9

Tabela 2

Informação sumária para as Sete Ondas de Genotipagem e o Controlo de Qualidade Realizado

>

>

>

>

>

Projecto 1: ALCO CIDR Projeto 2: ALCO deCODE Projeto 3: MIG deCODE Projeto 4: EUTWIN Projeto 5: ADOL deCODE Projeto 6: GL_CIDR Projeto 7: WH deCODE
Fenótipo primário Fenótipo primário Fenótipo primário (amostra populacional) Fenótipo primário (amostra populacional) Fenótipo primário (amostra populacional) Fenótipo primário (amostra populacional) Fenótipo primário (amostra populacional) Fenótipo primário (amostra populacional) Glaucoma (amostra populacional) Saúde das mulheres (amostra de caso/controle)
Laboratório de genotipagem CIDR deCODE deCODE Universidade de Helsinque deCODE CIDR deCODE
PlataformaIlluminia SNP HumanCNV370-Quadv3 HumanCNV370-Quadv3 Human610-Quad Human 317K Human610-Quad Human610-Quad Human610-Quad Human610-Quad
Não. de amostras genotipadas 4241 2611 462 4391 657 2360
No. de SNPs genotipados 343,955 344,962 592,385 318,210 592,392 589,296 562,193
BeadStudio GenCall score < 0.7 24,494 27,459 46,931 NAa 47,418 36,877 57,589
SNPs com taxa de chamada < 0.95 11,584 7537 8038 5021 8447 12,455 33,459
SNPs com falha HWE p < 10-6 4318 1194 1221 67 2841 15,474 1763
SNPs com MAF < 0.01/ apenas 1 alelo observado 7874 8976 33,347 264 33,347 28,607 24,509
No. de SNPs após QC 323093 321,267 530,922 312,937 529,379 531.042 518.948
Percentagem de SNPs genotipados 93.93% 93,13% 89,62% 98,34% 89,36% 90,11% 92,31%

Para cada projeto, o DNA foi extraído de acordo com os protocolos padrão. Em todos os projetos, os participantes foram genotipados nas plataformas Illumina 317K, 370K ou 610K SNP, e os genótipos foram chamados com o software Illumina BeadStudio. Após o controle de qualidade (QC) dos projetos individuais, os dados das sete ondas de genotipagem foram integrados. Como mostrado na Figura S1, um número de amostras foi duplicado entre os vários projetos de genotipagem, permitindo o CQ cruzado de projetos. Após a integração dos conjuntos de dados, os dados foram rastreados para detecção de falhas nos indivíduos (>5%, levando em conta o número de SNPs que foram genotipados para cada indivíduo), erros de pedigree e sexo, e erros Mendelianos (os genótipos de todos os membros da família para um determinado SNP foram removidos após a detecção de erros). Após o CQ, nos casos em que um indivíduo de um par de gêmeos monozigóticos havia sido genotipado, genótipos duplicados foram atribuídos ao cotwin não genotipado, resultando em uma amostra de 16.507 indivíduos. Após a triagem para ancestralidade não-europeia (Figura S2), isto resultou em uma amostra final de 16.140 indivíduos. HWE denota equilíbrio de Hardy-Weinburg.

aGenCall dados não estavam disponíveis para esta amostra.

Para que pudéssemos aproveitar ao máximo as informações disponíveis na escala ordinal, os dados foram analisados através de um modelo de limiar multifatorial que descreve traços discretos como refletindo uma distribuição normal subjacente de responsabilidade (ou predisposição). O passivo, que representa a soma de todos os efeitos multifatorial, é assumido como refletindo os efeitos aditivos combinados de um grande número de genes e fatores ambientais, cada um de pequeno efeito, e é caracterizado por descontinuidades fenotípicas que ocorrem quando o passivo atinge um determinado limiar.10 Um teste total de associação foi utilizado, no qual os dados de dosagem (MACH mldose) para cada SNP foram incluídos dentro do modelo de limiar, resultando em um teste aditivo de associação. Além disso, foram incluídos efeitos fixos de sexo e idade (efeitos lineares e quadráticos) e interações idade por sexo com os modelos de limiar em todas as análises de dados, de modo que o valor do traço para o indivíduo j da família i foi parametrizado como: xij = βdose + βage + βage2 + βsex + βsex-age + μ. A relação entre os participantes foi modelada explicitamente, levando em conta o sexo dos pares relativos, e as variações fenotípicas foram limitadas à unidade. A estatística do teste de associação foi calculada comparando o ajuste (menos duas vezes a probabilidade logarítmica) do modelo completo, que incluía o efeito do SNP dado, com o de um modelo aninhado, no qual o efeito do SNP tinha sido eliminado do modelo. A diferença na probabilidade logarítmica segue uma distribuição qui-quadrada assimptótica com graus de liberdade iguais à diferença nos parâmetros estimados entre os dois modelos (neste caso um). Os fatores de inflação genômica das três amostras variaram de 0,98 a 1,02 (Figura S3), indicando que o teste foi corretamente controlado para o relacionamento dos participantes e que os artefatos técnicos e de estratificação potenciais tiveram um impacto insignificante nos resultados.

Quatro polimorfismos de nucleotídeos simples (SNPs) altamente correlacionados (rs17646946, rs11803731, rs4845418, rs12130862; r2 > 0,8, D′ > 0,95 dentro da amostra HapMap CEU) no cromossomo 1q21.3 (Figura 1B) atingiu nosso limiar de significância em todo o genoma de 5 × 10-8, o que corrige para ∼1 milhões de variantes comuns independentes no genoma11 (Tabela 3, Figura S4). A associação foi encontrada em todas as três amostras, sugerindo que o efeito é robusto às diferenças de idade entre as amostras e que o modelo de limiar de significância contabilizou as diferenças na definição fenotípica entre as amostras. A meta-análise das três amostras utilizando uma análise ponderada por N (indivíduos) em Metal (ver Web Resources) resultou em valores de p altamente significativos para SNPs que estão dentro desta região e caem sobre um haplótipo marcado pelo SNP rs17646946 diretamente genotípico (p = 1,5 × 10-31) (Figuras 1A e 1B, Tabela 3). A associação na região 1q21.3 está centrada no gene Trichohyalin TCHH e é responsável por ∼6% da variância (Figura 1E, Tabela 3). Análises posteriores mostraram que a associação ao nível do haplótipo não ofereceu poder preditivo adicional. A inclusão dos melhores SNPs como covariáveis nas análises não produziu mais evidências de associação, contabilizando completamente o sinal neste locus (Figura S5). Não encontramos evidências de epistasia entre estes SNPs e qualquer outro SNP em todo o genoma nem qualquer heterogeneidade entre os sexos (Figuras S5 e S6). Finalmente, embora a análise da variação do número de cópias (VCN) na região da amostra de adolescentes tenha encontrado evidências de VCN em 18 indivíduos, foi muito rara para explicar o efeito observado (Tabela S2). A Tabela S3 lista todos os SNPs com um valor de p combinado inferior a 1 × 10-5 para a meta-análise. Uma segunda região de associação sugestiva foi observada no cromossomo 4q21,21 (rs1268789; p = 6,58 × 10-8), centrada na síndrome de Fraser 1 gene FRAS1. Também examinamos evidências de associação dentro da meta-análise para a lista de 170 genes candidatos publicada por Fujimoto et al.4 (Tabela S4). Além da associação observada na região TCHH, foram observados fortes sinais de associação na WNT10A, associados à displasia odonto-onycho-dérmica, que se caracteriza por cabelos secos e uma ampla gama de fenótipos ectodérmicos12 (2q35; rs7349332; p = 1.36 × 10-6).

Resultados da Associação em todo o genoma

(A) Traçado de Manhattan mostrando os resultados da meta-análise da morfologia capilar em todo o genoma em três amostras independentes. SNPs com um p < 10-5 são destacados em verde.

(B) Kariótipo do cromossomo 1 destacando a região 1q21.

(C) Gráfico de associação regional e de ligação de desequilíbrio para a região 1q21. O genótipo mais associado ao SNP é mostrado em azul, e a cor dos restantes marcadores reflete o desequilíbrio de ligação (r2) com o SNP superior em cada painel (aumento da tonalidade vermelha associada ao aumento do r2). A taxa de recombinação (eixo y da direita) é traçada em azul claro e é baseada na população do HapMap da CEU. Exões para cada gene são representados por barras verticais, baseadas em todas as isoformas disponíveis no conjunto do Navegador de Genoma UCSC de março de 2006.

(D) Frequência de alelos menores para o TCHH SNP rs11803731, baseado no Projeto de Diversidade do Genoma Humano.29

(E) Frequência de cabelos lisos (barras laranja), ondulados (barras verdes) e encaracolados (barras azuis) em função do genótipo rs11803731 numa amostra de indivíduos não relacionados (n = 43; n = 493; n = 1132). Com mais alelos T, a proporção de cabelos lisos aumenta. As barras verticais correspondem aos intervalos de confiança de 95% na prevalência.

Tabela 3

Detalhes dos SNPs Significativos de todo o Genoma no 1q21.3 Região através das Três Amostras

rs17646946 rs11803731 rs4845418 rs12130862
Posição (bp) 150,329,391 150,349,949 150,402,854 150,293,639
Genótipo ou imputado genótipo imputado imputado imputado
Alélio (referência) A T C T
Alélio menor G A G A A
Frequência menor do alelo 18.3% 18,4% 17,3% 18,1%
Hardy-Weinburg equilibrium p value 0.73 0,75 0,70 0,79
Rsq (métrica de precisão de imputação) 0.92 0,96 0,98
Amostra de adolescentes (n = 1649)
Efeito alélico (β)a 0.41 0,42 0,42 0,39
Valor P 1,24 × 10-11 1,76 × 10-11 3,68 × 10-11 7.59 × 10-11
Adult S1 (n = 1945)
Efeito alélico (β)a 0.50 0,50 0,49 0,45
Valor P 8,18 × 10-13 2,51 × 10-12 2,22 × 10-11 9.69 × 10-11
Adult S2 (n = 1251)
Efeito alélico (β)a 0.44 0,44 0,43 0,42
Valor P 7,91 × 10-11 1,37 × 10-10 1,15 × 10-9 8.16 × 10-10
Cálculos de amostra cruzada
Explicar a média da variânciab entre amostras 6.11% 6,11% 5,79% 5,22%
Análise Meta (valor p) 1,50 × 10-31 3,18 × 10-31 4,43 × 10-29 3.12 × 10-28
aO alélico β aqui relatado deve ser interpretado com referência ao modelo de limiar de responsabilidade, que mapeia os dados para uma distribuição normal padrão na qual os pontos de corte entre categorias são mapeados em relação à distribuição z. Por exemplo, um β de .41 indica que o limiar que divide a reta das categorias onduladas é movido 0,41 z unidades para a direita para cada alelo de risco que um indivíduo possui.
bCalculado como β2, no qual p é a freqüência do alelo menor e β é o efeito alélico aditivo.

Dos quatro SNPs mais associados na região 1q21, focalizamos rs11803731 (p = 3,2 × 10-31), porque esta é uma variante codificadora, não sinônima, localizada na terceira exon de TCHH (embora seja necessário mais trabalho para confirmar que esta é a variante causal). O alelo T em rs11803731 é o estado derivado e mostra uma especificidade geográfica marcante para a Europa e Ásia ocidental-central, atingindo sua maior freqüência no norte da Europa (Figura 1E), sugerindo que a variante surgiu em algum lugar nesta ampla região. A frequência e distribuição moderna das mutações de novo será geralmente determinada pela deriva genética aleatória e pela migração. Entretanto, como rs11803731 influencia um fenótipo altamente visível, ele é um alvo intuitivamente óbvio para a seleção natural ou sexual.13 O gene EDAR que controla a espessura do cabelo mostra uma das assinaturas mais convincentes de seleção positiva no genoma do leste asiático.4 rs11803731 está entre os 2,5% mais diferenciados de SNPs no genoma entre europeus e outras populações do Hapmap II (medido pelo teste de comprimento de ramo específico do loco baseado em FST14). Embora a análise anterior dos padrões de homozigocidade haplóide estendida na coorte do Projeto de Diversidade do Genoma Humano (HGDP) também mostre evidências provisórias de carona genética para a região 1q21,3 em algumas populações européias (ref. 15 e Figura S7), a evidência geral de seleção é ambígua. Entretanto, as assinaturas genéticas de seleção positiva em loci individuais, conforme detectadas com testes atuais, variarão dependendo do momento, da força do evento seletivo, da característica genômica da região e da arquitetura genética (número, freqüência e tamanho do efeito dos loci causais) do fenótipo em questão16 e, portanto, podem não ser tão óbvias quanto aquelas associadas a outros traços superficiais. Por exemplo, a região do gene OCA2 é um alvo bem estabelecido de seleção17 e é conhecida por influenciar os traços de pigmentação humana, especialmente a cor dos olhos.18,19

O efeito da variante rs11803731, substituição de uma leucina por uma metionina na posição 790 da proteína TCHH, foi previsto em análises de silico com os programas PolyPhen20 e PMut.21 PolyPhen previu que a mudança L790M fosse “benigna”, enquanto PMut previu que essa mudança fosse “neutra”. Não foram retornados resultados para outros programas de previsão, incluindo o SIFT22 (ver Recursos da Web) (com o SNP ID ou a seqüência de proteínas utilizada) e o SNPs3D23 (ver Recursos da Web) que não continha nenhum registro do SNP rs11803731. Tais previsões não excluem um papel funcional, dado que o efeito do SNP pode ser regulatório e não estrutural, particularmente porque a reposição de aminoácidos cai fora das regiões cíclicas α.23 As metioninas expostas à superfície podem ser oxidadas por espécies reativas de oxigênio pós-tradução, que se não forem reparadas podem resultar em mudanças na estrutura e atividade protéica e podem levar a uma regulação proteica alterada.24

Alternativamente, o rs11803731 pode estar associado à variação estrutural. TCHH é uma proteína de cadeia única α-helical com duas ou três regiões altamente repetitivas, dependendo da espécie (Figura S8). Em ovinos, a proteína de referência (CAA79165.1) é de 1549 aminoácidos de comprimento, mas a variação no número de repetições completas e parciais na região de repetição terminal C é observada em diferentes estirpes.25,26 Na proteína TCHH humana, os comprimentos de repetição variam de aproximadamente 6 a 30 aminoácidos, correspondendo a 18 a 90 bp de sequência de DNA. Vários SNPs e polimorfismos de inserção ou deleção estão presentes, particularmente na primeira e terceira regiões de repetição (dbSNP; ver Web Resources), e este gene pode abrigar variantes de comprimento alélico, como visto em ovelhas e em outro gene altamente repetitivo na região do cromossomo humano 1p21, involucrina (IVL), onde os alelos diferem entre as populações humanas tanto no número de repetições curtas em tandem quanto nas mudanças de base única dentro da seqüência repetida.27,28 Tal variação de comprimento não foi relatada para a TCHH, e ainda falta determinar experimentalmente se tal variação é comum, afeta a estrutura ou comprimento da proteína, e/ou é marcada por SNPs flanqueando as regiões repetidas.

Em conclusão, relatamos um locus traço quantitativo que afeta a forma do cabelo em europeus. A associação é responsável por ∼6% da variação da morfologia do cabelo neste grupo e está dentro do gene Trichohyalin, que tem um papel conhecido na formação do cabelo. Os padrões de frequências alélicas são impressionantes, sendo a maior frequência destas variantes observada no Norte da Europa (Figura 1), em paralelo com a observação da variante EDAR de cabelo liso em populações asiáticas (Figura S9).

Similar Posts

Deixe uma resposta

O seu endereço de email não será publicado.