Testo principale
La morfologia dei capelli è una delle caratteristiche più evidenti della variazione umana ed è particolarmente diversificata tra le persone di origine europea, per le quali circa il 45% degli individui ha capelli lisci, il 40% ha capelli ondulati e il 15% ha capelli ricci.1 Il grado di arricciatura è correlato alla distribuzione delle cheratine dei capelli e al tipo di cellule all’interno della fibra capillare, con il numero di cellule mesocorticali che diminuisce con l’intensificarsi dell’arricciatura.2 Studi recenti hanno identificato alleli asiatici specifici dei geni EDAR e FGFR2 che sono associati a capelli spessi e lisci, suggerendo che queste varianti sono sorte dopo la divergenza tra asiatici ed europei.3,4 Tuttavia, le varianti genetiche che influenzano la curvatura dei capelli negli europei (che ha dimostrato di essere altamente ereditabile5) sono sconosciute.
Abbiamo condotto analisi di associazione genome-wide in tre campioni familiari australiani: un campione di gemelli adolescenti e i loro fratelli (1649 individui di 837 famiglie) e due campioni di coppie di gemelli adulti (S1, 1945 individui di 1210 famiglie; S2, 1251 individui di 845 famiglie) accertati nella popolazione generale (Tabella 1).5 Nel campione di adolescenti, i capelli ricci venivano valutati su una scala a tre punti (lisci, mossi o ricci). Nei campioni adulti, i partecipanti hanno riferito se i loro capelli erano lisci o ricci (S1) o lisci, mossi o ricci (S2). Per tenere conto delle differenze nella raccolta dei fenotipi e nell’età tra i campioni, ogni campione è stato analizzato indipendentemente e la meta-analisi è stata utilizzata per combinare i tre gruppi di risultati. Questi studi sono stati eseguiti con l’approvazione dei comitati etici appropriati e il consenso informato di tutti i partecipanti.
I dati genotipici utilizzati nello studio attuale derivano da un progetto di genotipizzazione più ampio che coinvolge sette ondate di genotipizzazione che hanno attinto i partecipanti dai nostri studi sulla salute e lo stile di vita degli adulti del 1988 e 19906 e dallo studio sui fattori di rischio del melanoma adolescenziale.7,8 I dati genotipici di ciascun progetto sono descritti nella tabella 2. I filtri standard per il controllo della qualità sono stati applicati alla genotipizzazione di ciascun progetto, limitando l’imputazione ai campioni e agli SNPs con un’alta qualità dei dati (Tabella 2). Gli individui sono stati controllati per l’ascendenza non europea, ottenendo un campione di 16.140 individui genotipizzati (Figura S2, disponibile online). Per non introdurre bias nei dati imputati, un set di SNPs comuni ai sette sottocampioni è stato utilizzato per l’imputazione (n = 274.604). L’imputazione è stata effettuata con l’uso dei dati fasati dei campioni HapMap di ascendenza europea (CEU; build 36, release 22) e MACH.9
Tabella 2
Informazioni sintetiche per le sette ondate di genotipizzazione e il controllo di qualità effettuato
Progetto 1: ALCO CIDR | Progetto 2: ALCO deCODE | Progetto 3: MIG deCODE | Progetto 4: EUTWIN | Progetto 5: ADOL deCODE | Progetto 6: GL_CIDR | Progetto 7: WH deCODE | |
---|---|---|---|---|---|---|---|
Fenotipo primario | Uso di alcol (campione di popolazione) | Uso di alcol (campione di popolazione) | Migranina (campione di caso/controllo) | Livelli lipidici (campione di popolazione) | Fattori di rischio del melanoma (campione di popolazione) | Glaucoma (campione di popolazione) | Salute della donna (campione caso/controllo) |
Laboratorio di genotipizzazione | CIDR | deCODE | deCODE | Università di Helsinki | deCODE | CIDR | deCODE |
Piattaforma SNP Illumina | HumanCNV370-Quadv3 | HumanCNV370-Quadv3 | Human610-Quad | Human 317K | Human610-Quad | Human610-Quad | Human610-Quad |
No. di campioni genotipizzati | 4241 | 2611 | 999 | 462 | 4391 | 657 | 2360 |
No. di SNPs genotipizzati | 343,955 | 344,962 | 592,385 | 318,210 | 592,392 | 589,296 | 562,193 |
BeadStudio GenCall score < 0.7 | 24,494 | 27,459 | 46,931 | NAa | 47,418 | 36,877 | 57,589 |
SNPs con call rate < 0.95 | 11,584 | 7537 | 8038 | 5021 | 8447 | 12,455 | 33,459 |
SNPs con fallimento HWE p < 10-6 | 4318 | 1194 | 1221 | 67 | 2841 | 15,474 | 1763 |
SNPs con MAF < 0.01/ solo 1 allele osservato | 7874 | 8976 | 33,347 | 264 | 33,347 | 28,607 | 24,509 |
No. di SNPs dopo QC | 323093 | 321,267 | 530,922 | 312,937 | 529,379 | 531,042 | 518,948 |
Percentuale di SNPs genotipizzati | 93.93% | 93.13% | 89.62% | 98.34% | 89.36% | 90.11% | 92.31% |
Per ogni progetto il DNA è stato estratto secondo i protocolli standard. In tutti i progetti, i partecipanti sono stati genotipizzati sulle piattaforme Illumina 317K, 370K o 610K SNP e i genotipi sono stati chiamati con il software Illumina BeadStudio. Dopo il controllo di qualità (QC) dei singoli progetti, i dati delle sette ondate di genotipizzazione sono stati integrati. Come mostrato nella Figura S1, un certo numero di campioni sono stati duplicati tra i vari progetti di genotipizzazione, permettendo di cross-progetto QC. Dopo l’integrazione dei set di dati, i dati sono stati controllati per la mancanza di dati all’interno degli individui (>5%, tenendo conto del numero di SNPs che sono stati genotipizzati per ogni individuo), errori di pedigree e di sesso, ed errori mendeliani (i genotipi per tutti i membri della famiglia per un dato SNP sono stati rimossi al rilevamento di errori). Dopo il QC, nei casi in cui un individuo di una coppia di gemelli monozigoti era stato genotipizzato, i genotipi duplicati sono stati assegnati al cotwin non genotipizzato, ottenendo un campione di 16.507 individui. Dopo lo screening per l’ascendenza non europea (Figura S2), il risultato è stato un campione finale di 16.140 individui. HWE denota l’equilibrio di Hardy-Weinburg.
Per poter trarre il massimo vantaggio dalle informazioni disponibili nella scala ordinale, i dati sono stati analizzati tramite un modello di soglia multifattoriale che descrive i tratti discreti come riflesso di una sottostante distribuzione normale di responsabilità (o predisposizione). La responsabilità, che rappresenta la somma di tutti gli effetti multifattoriali, si presume rifletta gli effetti additivi combinati di un gran numero di geni e fattori ambientali, ciascuno di piccolo effetto, ed è caratterizzata da discontinuità fenotipiche che si verificano quando la responsabilità raggiunge una determinata soglia.10 È stato utilizzato un test di associazione totale, in cui i dati di dosaggio (MACH mldose) per ogni SNP a turno sono stati inclusi nel modello di soglia, con un conseguente test di associazione additivo. Inoltre, gli effetti fissi di sesso ed età (sia effetti lineari che quadratici) e le interazioni età-sesso sono stati inclusi con i modelli di soglia in tutte le analisi dei dati, in modo che il valore del tratto per l’individuo j dalla famiglia i è stato parametrizzato come: xij = βdose + βage + βage2 + βsex + βsex-age + μ. La parentela tra i partecipanti è stata esplicitamente modellata, tenendo conto del sesso delle coppie relative, e le varianze fenotipiche sono state vincolate all’unità. La statistica del test di associazione è stata calcolata confrontando l’adattamento (meno due volte la log-likelihood) del modello completo, che includeva l’effetto del dato SNP, a quello di un modello annidato, in cui l’effetto SNP era stato eliminato dal modello. La differenza di log-likelihoods segue una distribuzione asintotica chi-quadro con i gradi di libertà pari alla differenza di parametri stimati tra i due modelli (in questo caso uno). I fattori di inflazione genomica dei tre campioni variavano da 0,98 a 1,02 (Figura S3), indicando che il test ha controllato correttamente la parentela dei partecipanti e che i potenziali artefatti tecnici e di stratificazione hanno avuto un impatto trascurabile sui risultati.
Quattro polimorfismi a singolo nucleotide (SNPs) altamente correlati (rs17646946, rs11803731, rs4845418, rs12130862; r2 > 0,8, D′ > 0,95 nel campione HapMap CEU) sul cromosoma 1q21.3 (Figura 1B) ha raggiunto la nostra soglia di significatività genome-wide di 5 × 10-8, che corregge per ∼1 milione di varianti comuni indipendenti nel genoma11 (Tabella 3, Figura S4). L’associazione è stata trovata in tutti e tre i campioni, suggerendo che l’effetto è robusto alle differenze di età tra i campioni e che il modello di soglia di responsabilità ha tenuto conto delle differenze nella definizione fenotipica tra i campioni. La meta-analisi dei tre campioni utilizzando un’analisi ponderata N (individui) in metallo (vedi risorse web) ha portato a valori p altamente significativi per gli SNP che si trovano all’interno di questa regione e cadono su un aplotipo etichettato dallo SNP direttamente genotipizzato rs17646946 (p = 1.5 × 10-31) (figure 1A e 1B, tabella 3). L’associazione nella regione 1q21.3 è centrata sul gene Trichohyalin TCHH e rappresentava ∼6% della varianza (Figura 1E, Tabella 3). Ulteriori analisi hanno mostrato che l’associazione a livello di aplotipo non ha offerto ulteriore potere predittivo. L’inclusione dei migliori SNP come covariate nelle analisi non ha prodotto ulteriori prove di associazione, rendendo completamente conto del segnale in questo locus (Figura S5). Non abbiamo trovato alcuna prova di epistasi tra questi SNP e qualsiasi altro SNP attraverso il genoma, né alcuna eterogeneità tra i sessi (Figure S5 e S6). Infine, anche se l’analisi della variazione del numero di copie (CNV) in tutta la regione nel campione adolescenziale ha trovato prove di CNV in 18 individui, era troppo poco frequente per spiegare l’effetto osservato (Tabella S2). La tabella S3 elenca tutti gli SNPs con un valore di p combinato inferiore a 1 × 10-5 per la meta-analisi. Una seconda regione di associazione suggestiva è stata osservata sul cromosoma 4q21.21 (rs1268789; p = 6.58 × 10-8), centrata sul gene della sindrome di Fraser 1 FRAS1. Abbiamo anche esaminato le prove di associazione all’interno della meta-analisi per la lista di 170 geni candidati pubblicati da Fujimoto et al.4 (Tabella S4). Oltre all’associazione osservata nella regione TCHH, forti segnali di associazione sono stati osservati in WNT10A, associato con displasia odonto-onycho-dermica, che è caratterizzata da capelli secchi e una vasta gamma di fenotipi ectodermici12 (2q35; rs7349332; p = 1.36 × 10-6).
Genome-wide Association Results
(A) Manhattan plot che mostra i risultati per il genome-wide meta-analisi della morfologia dei capelli attraverso tre campioni indipendenti. SNPs con un p < 10-5 sono evidenziati in verde.
(B) Cariotipo del cromosoma 1 evidenziando la regione 1q21.
(C) Associazione regionale e linkage disequilibrium plot per la regione 1q21. Lo SNP genotipizzato più associato è mostrato in blu, e il colore dei marcatori rimanenti riflette il disequilibrio di associazione (r2) con lo SNP superiore in ogni pannello (tonalità rossa crescente associata a r2 crescente). Il tasso di ricombinazione (asse y a destra) è tracciato in azzurro ed è basato sulla popolazione CEU HapMap. Gli esoni per ogni gene sono rappresentati da barre verticali, sulla base di tutte le isoforme disponibili dal marzo 2006 UCSC Genome Browser assembly.
(D) frequenza degli alleli minori per il TCHH SNP rs11803731, sulla base del progetto Human Genome Diversity.29
(E) Frequenza di capelli lisci (barre arancioni), ondulati (barre verdi) e ricci (barre blu) in funzione del genotipo rs11803731 in un campione di individui non imparentati (n = 43; n = 493; n = 1132). Con più alleli T, la proporzione di capelli lisci aumenta. Le barre verticali corrispondono agli intervalli di confidenza al 95% sulla prevalenza.
Tabella 3
Dettagli degli SNPs significativi a livello genomico nella regione 1q21.3 in tutti e tre i campioni
rs17646946 | rs11803731 | rs4845418 | rs12130862 | |
---|---|---|---|---|
Posizione (bp) | 150,329,391 | 150,349,949 | 150,402,854 | 150,293,639 |
Genotipizzato o imputato | Genotipizzato | imputato | imputato | |
Allele minore (di riferimento) | A | T | C | T |
Allele maggiore | G | A | G | A |
Frequenza allele minore | 18.3% | 18,4% | 17,3% | 18,1% |
Valore di equilibrio di Hardy-Weinburg | 0.73 | 0,75 | 0,70 | 0,79 |
Rsq (metrica di precisione di imputazione) | – | 0.92 | 0.96 | 0.98 |
Campione adolescenti (n = 1649) | ||||
Effetto allelico (β)a | 0.41 | 0,42 | 0,42 | 0,39 |
P-value | 1,24 × 10-11 | 1,76 × 10-11 | 3,68 × 10-11 | 7.59 × 10-11 |
Adulto S1 (n = 1945) | ||||
Effetto allelico (β)a | 0.50 | 0,50 | 0,49 | 0,45 |
Valore P | 2,18 × 10-13 | 2,51 × 10-12 | 2,22 × 10-11 | 9.69 × 10-11 |
Adulto S2 (n = 1251) | ||||
Effetto allelico (β)a | 0.44 | 0,44 | 0,43 | 0,42 |
Valore P | 7,91 × 10-11 | 1,37 × 10-10 | 1,15 × 10-9 | 8.16 × 10-10 |
Calcoli incrociati dei campioni | ||||
Varianza spiegatab media dei campioni | 6.11% | 6,11% | 5,79% | 5,22% |
Meta analisi (valore p) | 1,50 × 10-31 | 3,18 × 10-31 | 4,43 × 10-29 | 3.12 × 10-28 |
Dei quattro SNPs più associati nella regione 1q21, ci siamo concentrati su rs11803731 (p = 3.2 × 10-31), perché questa è una variante codificante, non sinonima situata nel terzo esone di TCHH (anche se è necessario altro lavoro per confermare che questa è la variante causale). L’allele T a rs11803731 è lo stato derivato e mostra una sorprendente specificità geografica per l’Europa e l’Asia centro-occidentale, raggiungendo la sua massima frequenza negli europei del Nord (Figura 1E), suggerendo che la variante è nato da qualche parte in questa vasta regione. La frequenza moderna e la distribuzione delle mutazioni de novo saranno generalmente determinate dalla deriva genetica casuale e dalla migrazione. Tuttavia, poiché rs11803731 influenza un fenotipo altamente visibile, è un obiettivo intuitivamente ovvio per la selezione naturale o sessuale.13 Il gene EDAR che controlla lo spessore dei capelli mostra una delle firme più convincenti di selezione positiva nel genoma dell’Asia orientale.4 rs11803731 è tra i primi 2,5% SNP più differenziati attraverso il genoma tra gli europei e altre popolazioni Hapmap II (misurato dal test FST-based locus-specific branch length14). Anche se l’analisi precedente dei modelli di omozigosi dell’aplotipo esteso nella coorte Human Genome Diversity Project (HGDP) mostra anche prove provvisorie di autostop genetico per la regione 1q21.3 in alcune popolazioni europee (rif. 15 e Figura S7), l’evidenza complessiva della selezione è ambigua. Tuttavia, le firme genetiche della selezione positiva a singoli loci, come rilevato con i test attuali, variano a seconda dei tempi, della forza dell’evento selettivo, della caratteristica genomica della regione e dell’architettura genetica (numero, frequenza e dimensione dell’effetto dei loci causali) del fenotipo in questione16 e quindi potrebbero non essere così evidenti come quelle associate ad altri tratti superficiali. Per esempio, la regione del gene OCA2 è un bersaglio di selezione ben noto17 ed è nota per influenzare i tratti della pigmentazione umana, in particolare il colore degli occhi.18,19
L’effetto della variante rs11803731, la sostituzione di una leucina con una metionina in posizione 790 della proteina TCHH, è stato previsto da analisi in silico con i programmi PolyPhen20 e PMut.21 PolyPhen ha previsto che la modifica L790M fosse “benigna”, mentre PMut ha previsto che questa modifica fosse “neutra”. Nessun risultato è stato restituito per altri programmi di predizione, tra cui SIFT22 (vedi risorse web) (con l’ID SNP o la sequenza proteica utilizzata) e SNPs3D23 (vedi risorse web) che non conteneva alcuna registrazione dello SNP rs11803731. Tali previsioni non precludono un ruolo funzionale, dato che l’effetto dello SNP può essere regolatorio piuttosto che strutturale, in particolare perché la sostituzione aminoacidica cade al di fuori delle regioni α-eliche.23 Le metionine esposte in superficie possono essere ossidate da specie reattive dell’ossigeno a livello post-traslazionale, che se non riparate possono provocare cambiamenti nella struttura e nell’attività della proteina e possono portare a una regolazione alterata della proteina.24
In alternativa, rs11803731 può essere associato a variazioni strutturali. TCHH è una proteina α-elica a singolo filamento con due o tre regioni altamente ripetitive, a seconda della specie (Figura S8). Nelle pecore, la proteina di riferimento (CAA79165.1) è lunga 1549 aminoacidi, ma la variazione nel numero di ripetizioni complete e parziali nella regione di ripetizione C-terminale si osserva in diversi ceppi.25,26 Nella proteina TCHH umana, la lunghezza delle ripetizioni varia da circa 6 a 30 aminoacidi, corrispondenti a 18-90 bp di sequenza di DNA. Un certo numero di SNP e polimorfismi di inserzione o delezione sono presenti, in particolare nella prima e nella terza regione di ripetizione (dbSNP; vedi risorse web), e questo gene potrebbe ospitare varianti alleliche di lunghezza, come si è visto nelle pecore e in un altro gene altamente ripetitivo nella regione del cromosoma umano 1p21, l’involucrina (IVL), dove gli alleli differiscono nelle popolazioni umane sia per il numero di ripetizioni tandem brevi che per i cambiamenti di basi singole all’interno della sequenza ripetuta.27,28 Tale variazione di lunghezza non è stata riportata per TCHH, e rimane da determinare sperimentalmente se tale variazione è comune, influenza la struttura o la lunghezza della proteina, e/o è contrassegnata da SNPs che fiancheggiano le regioni ripetute.
In conclusione, riportiamo un locus di tratto quantitativo che influenza la forma dei capelli negli europei. L’associazione rappresenta il ∼6% della varianza nella morfologia dei capelli in questo gruppo e rientra nel gene Trichohyalin, che ha un ruolo noto nella formazione dei capelli. I modelli delle frequenze alleliche sono sorprendenti, con la più alta frequenza di queste varianti osservata negli europei del Nord (Figura 1), in parallelo con l’osservazione della variante EDAR dei capelli lisci nelle popolazioni asiatiche (Figura S9).