Huvudtext
Hårets morfologi är ett av de mer iögonfallande dragen i den mänskliga variationen och är särskilt varierande bland människor av europeisk härstamning, där cirka 45 % av individerna har rakt hår, 40 % har vågigt hår och 15 % har lockigt hår.1 Graden av lockighet korrelerar med fördelningen av hårkeratiner och celltypen i hårfibrerna, där antalet mesokortikala celler minskar när lockigheten intensifieras.2 Nyligen genomförda studier har identifierat asiatspecifika alleler av EDAR- och FGFR2-genen som är associerade med tjockt, rakt hår, vilket tyder på att dessa varianter har uppstått efter divergensen mellan asiater och européer.3,4 De genetiska varianter som påverkar hårets lockighet hos européer (som har visat sig vara mycket ärftlig5) är dock okända.
Vi genomförde genomövergripande associationsanalyser i tre australiska familjeprov: ett prov av tonårstvillingar och deras syskon (1649 individer från 837 familjer) och två prov av vuxna tvillingpar (S1, 1945 individer från 1210 familjer; S2, 1251 individer från 845 familjer) som fastställts från den allmänna befolkningen (tabell 1).5 I tonårsprovet bedömdes hårets lockighet på en trepunktsskala (rak, vågig eller lockig). I vuxenproven rapporterade deltagarna om deras hår var rakt eller lockigt (S1) eller rakt, vågigt eller lockigt (S2). För att ta hänsyn till skillnaderna i insamling av fenotyper och ålder i proverna analyserades varje prov oberoende av varandra och metaanalys användes för att kombinera de tre uppsättningarna resultat. Dessa studier genomfördes med godkännande av lämpliga etikkommittéer och med informerat samtycke från alla deltagare.
De genotypiska data som används i den aktuella studien härrör från ett större genotypningsprojekt med sju genotypningsvågor som drog deltagare från våra 1988 och 1990 års vuxenhälso- och livsstilsstudier för vuxna6 och vår studie om melanomriskfaktorer för ungdomar.7,8 De genotypiska data som används från varje projekt beskrivs i tabell 2. Standardfilter för kvalitetskontroll tillämpades på genotypningen från varje projekt, vilket begränsade imputeringen till prover och SNP:er med hög datakvalitet (tabell 2). Individer screenades för utomeuropeisk härstamning, vilket resulterade i ett urval av 16 140 genotypade individer (figur S2, tillgänglig online). För att inte bias skulle införas i de imputerade uppgifterna användes en uppsättning SNP som var gemensam för de sju delproven för imputering (n = 274 604). Imputeringen genomfördes med hjälp av de fasade uppgifterna från HapMap-proverna av europeisk härstamning (CEU; build 36, release 22) och MACH.9
Tabell 2
Sammanfattad information om de sju genotypningsomgångarna och den genomförda kvalitetskontrollen
Projekt 1: ALCO CIDR | Projekt 2: ALCO deCODE | Projekt 3: MIG deCODE | Projekt 4: EUTWIN | Projekt 5: ADOL deCODE | Projekt 6: GL_CIDR | Projekt 7: WH deCODE | |
---|---|---|---|---|---|---|---|
Primär fenotyp | Alkoholanvändning (befolkningsurval) | Alkoholanvändning (befolkningsurval) | Migrän (fall/kontrollurval) | Lipidnivåer (befolkningsurval) | Riskfaktorer för melanom (befolkningsurval) | Glaukom (befolkningsurval) | Förmåner för kvinnor (fall/kontrollurval) |
Genotypningslaboratorium | CIDR | deCODE | deCODE | Helsingfors universitet | deCODE | CIDR | deCODE |
Illuminia SNP-plattform | HumanCNV370-Quadv3 | HumanCNV370-Quadv3 | Human610-Quad | Human 317K | Human610-Quad | Human610-Quad | Human610-Quad |
No. av genotypade prover | 4241 | 2611 | 999 | 462 | 4391 | 657 | 2360 |
Nr. av genotypade SNP | 343,955 | 344,962 | 592,385 | 318,210 | 592,392 | 589,296 | 562,193 |
BeadStudio GenCall score < 0.7 | 24,494 | 27,459 | 46,931 | NAa | 47,418 | 36,877 | 57,589 |
SNPs med call rate < 0.95 | 11,584 | 7537 | 8038 | 5021 | 8447 | 12,455 | 33,459 |
SNPs med HWE-fel p < 10-6 | 4318 | 1194 | 1221 | 67 | 2841 | 15,474 | 1763 |
SNPs med MAF < 0.01/ endast 1 observerad allel | 7874 | 8976 | 33,347 | 264 | 33,347 | 28,607 | 24,509 |
No. av SNP efter QC | 323093 | 321 267 | 530 922 | 312 937 | 529,379 | 531,042 | 518,948 |
Procentuell andel genotypade SNPs | 93.93% | 93,13% | 89,62% | 98,34% | 89,36% | 90,11% | 92,31% |
För varje projekt extraherades DNA enligt standardprotokoll. I alla projekt genotypades deltagarna på Illumina 317K, 370K eller 610K SNP-plattformarna, och genotyperna kallades med programvaran Illumina BeadStudio. Efter kvalitetskontrollen (QC) av de enskilda projekten integrerades uppgifterna från de sju genotypningsomgångarna. Som framgår av figur S1 var ett antal prover duplicerade bland de olika genotypningsprojekten, vilket möjliggjorde QC över projektgränserna. Efter integreringen av datamängderna granskades data för att upptäcka missar inom individer (>5 %, med hänsyn till antalet SNP:er som genotypades för varje individ), stamboks- och könsfel samt mendelska fel (genotyper för alla familjemedlemmar för en viss SNP togs bort vid upptäckt av fel). Efter QC, i de fall där en individ från ett enäggstvillingspar hade genotypats, tilldelades dubbla genotyper till den icke genotypade tvillingen, vilket resulterade i ett urval på 16 507 individer. Efter screening för utomeuropeisk härstamning (figur S2) resulterade detta i ett slutligt urval på 16 140 individer. HWE betecknar Hardy-Weinburg-jämvikt.
För att vi skulle kunna dra full nytta av den information som finns tillgänglig i den ordinala skalan analyserades datan med hjälp av en multifaktoriell tröskelmodell som beskriver diskreta egenskaper som återspeglande en underliggande normalfördelning av ansvar (eller predisposition). Liability, som representerar summan av alla multifaktoriella effekter, antas återspegla de kombinerade additiva effekterna av ett stort antal gener och miljöfaktorer, var och en med liten effekt, och kännetecknas av fenotypiska diskontinuiteter som inträffar när Liability når ett visst tröskelvärde.10 Ett totalt associationstest användes, där doseringsdata (MACH mldose) för varje SNP i tur och ordning inkluderades i tröskelmodellen, vilket resulterade i ett additivt associationstest. Dessutom inkluderades fasta effekter av kön och ålder (både linjära och kvadratiska effekter) och interaktioner mellan ålder och kön med tröskelmodellerna i alla dataanalyser, så att egenskapsvärdet för individ j från familj i parametrerades som: xij = βdose + βage + βage2 + βsex + βsex-age + μ. Släktskapet mellan deltagarna modellerades explicit, med hänsyn till könet hos släktingpar, och de fenotypiska varianserna begränsades till enhet. Statistiken för associationstestet beräknades genom att jämföra passformen (minus två gånger log-likelihood) för den fullständiga modellen, som inkluderade effekten av den givna SNP:n, med passformen för en inbäddad modell, där SNP:ns effekt hade fallit bort från modellen. Skillnaden i log-likelihoods följer en asymptotisk chi-square-fördelning med frihetsgrader som är lika med skillnaden i uppskattade parametrar mellan de två modellerna (i detta fall en). De genomiska inflationsfaktorerna för de tre proverna varierade från 0,98 till 1,02 (figur S3), vilket tyder på att testet korrekt kontrollerade för deltagarnas släktskap och att potentiella tekniska artefakter och stratifieringsartefakter hade en försumbar inverkan på resultaten.
Fyra högt korrelerade singelnukleotidpolymorfismer (SNP) (rs17646946, rs11803731, rs4845418, rs12130862; r2 > 0,8, D′ > 0,95 inom HapMap CEU-urvalet) på kromosom 1q21.3 (figur 1B) nådde vår genomövergripande signifikanströskel på 5 × 10-8, som korrigerar för ∼1 miljon oberoende gemensamma varianter i genomet11 (tabell 3, figur S4). Sambandet hittades i alla tre proverna, vilket tyder på att effekten är robust mot åldersskillnaderna mellan proverna och att modellen för ansvarströskeln tog hänsyn till skillnaderna i den fenotypiska definitionen mellan proverna. Metaanalys av de tre proverna med hjälp av en N (individer)-viktad analys i Metal (se webbresurser) resulterade i mycket signifikanta p-värden för SNP:er som ligger inom denna region och faller på en haplotyp som är märkt av den direkt genotypade SNP:n rs17646946 (p = 1,5 × 10-31) (figurerna 1A och 1B, tabell 3). Associationen i regionen 1q21.3 är centrerad på trikohyalingenen TCHH och stod för ∼6 % av variansen (figur 1E, tabell 3). Ytterligare analyser visade att associationen på haplotypnivå inte gav någon ytterligare prediktiv kraft. Att inkludera de bästa SNP:erna som kovariater i analyserna gav inga ytterligare bevis för association, vilket helt redovisar signalen på detta locus (figur S5). Vi fann varken bevis för epistas mellan dessa SNPs och någon annan SNP i hela genomet eller någon heterogenitet mellan könen (figurerna S5 och S6). Slutligen, även om analysen av variation av kopianummer (CNV) över hela regionen i ungdomsprovet fann bevis för CNV hos 18 individer, var det för sällsynt för att förklara den observerade effekten (tabell S2). I tabell S3 förtecknas alla SNPs med ett kombinerat p-värde på mindre än 1 × 10-5 för metaanalysen. En andra region med suggestiv association observerades på kromosom 4q21.21 (rs1268789; p = 6,58 × 10-8), centrerad på Fraser syndrom 1 genen FRAS1. Vi undersökte också bevis för association inom metaanalysen för den lista med 170 kandidatgener som publicerades av Fujimoto et al.4 (tabell S4). Förutom den association som observerades i TCHH-regionen observerades starka associationssignaler i WNT10A, som är associerad med odonto-onycho-dermal dysplasi, som kännetecknas av torrt hår och ett brett spektrum av ektodermala fenotyper12 (2q35; rs7349332; p = 1.36 × 10-6).
Genomövergripande associationsresultat
(A) Manhattanplott som visar resultaten för den genomövergripande metaanalysen av hårmorfologi över tre oberoende prover. SNPs med p < 10-5 är markerade i grönt.
(B) Karyotyp för kromosom 1 med markering av 1q21-regionen.
(C) Plott för regional association och kopplingsdifferens för 1q21-regionen. Den mest associerade genotypade SNP:n visas i blått, och färgen på de återstående markörerna återspeglar kopplingsojämlikheten (r2) med den främsta SNP:n i varje panel (ökande röd nyans förknippas med ökande r2). Rekombinationshastigheten (högra y-axeln) visas i ljusblått och baseras på CEU HapMap-populationen. Exoner för varje gen representeras av vertikala staplar, baserat på alla isoformer som är tillgängliga från UCSC Genome Browser-samlingen i mars 2006.
(D) Minor allelfrekvens för TCHH SNP rs11803731, baserat på Human Genome Diversity Project.29
(E) Frekvens av rakt (orange staplar), vågigt (gröna staplar) och lockigt (blå staplar) hår som funktion av genotypen rs11803731 i ett urval av obesläktade individer (n = 43; n = 493; n = 1132). Med fler T-alleler ökar andelen rakt hår. Vertikala staplar motsvarar 95 % konfidensintervall på prevalensen.
Tabell 3
Detaljer om de genomgående signifikanta SNPs i 1q21.3 regionen i de tre proven
rs17646946 | rs11803731 | rs4845418 | rs12130862 | ||
---|---|---|---|---|---|
Position (bp) | 150,329,391 | 150,349,949 | 150,402,854 | 150,293,639 | |
Genotyp eller imputerad | genotypad | imputerad | imputerad | imputerad | imputerad |
Minor (referens)allel | A | T | C | T | |
Major allel | G | A | G | A | A |
Minor allelfrekvens | 18.3% | 18.4% | 17.3% | 18.1% | |
Hardy-Weinburg jämvikt p-värde | 0.73 | 0,75 | 0,70 | 0,79 | |
Rsq (metriskt mått för imputeringsnoggrannhet) | – | 0.92 | 0,96 | 0,98 | |
Ungdomsprov (n = 1649) | |||||
Allelisk effekt (β)a | 0.41 | 0,42 | 0,42 | 0,39 | |
P-värde | 1,24 × 10-11 | 1,76 × 10-11 | 3,68 × 10-11 | 7.59 × 10-11 | |
Vuxen S1 (n = 1945) | |||||
Allelisk effekt (β)a | 0.50 | 0,50 | 0,49 | 0,45 | |
P-värde | 8,18 × 10-13 | 2,51 × 10-12 | 2,22 × 10-11 | 9.69 × 10-11 | |
Vuxen S2 (n = 1251) | |||||
Allelisk effekt (β)a | 0.44 | 0,44 | 0,43 | 0,42 | |
P-värde | 7,91 × 10-11 | 1,37 × 10-10 | 1,15 × 10-9 | 8.16 × 10-10 | |
Beräkningar av tvärprover | |||||
Uppklarad variansb medelvärde över prover | 6.11% | 6,11% | 5,79% | 5,22% | |
Metaanalys (p-värde) | 1,50 × 10-31 | 3,18 × 10-31 | 4,43 × 10-29 | 3.12 × 10-28 |
Av de fyra mest associerade SNP:erna i 1q21-regionen fokuserade vi på rs11803731 (p = 3,2 × 10-31), eftersom detta är en kodande, icke-synonym variant som är belägen i TCHH:s tredje exon (även om mer arbete krävs för att bekräfta att detta är den kausala varianten). T-allelen vid rs11803731 är det härledda tillståndet och visar en slående geografisk specificitet för Europa och västra och centrala Asien och når sin högsta frekvens hos nordeuropéer (figur 1E), vilket tyder på att varianten uppstod någonstans i denna breda region. Den moderna frekvensen och fördelningen av de novo-mutationer kommer i allmänhet att bestämmas av slumpmässig genetisk drift och migration. Eftersom rs11803731 påverkar en mycket synlig fenotyp är den dock ett intuitivt uppenbart mål för naturligt eller sexuellt urval.13 EDAR-genen som styr hårtjockleken visar en av de mest övertygande signaturerna av positivt urval i det östasiatiska genomet.4 rs11803731 är bland de 2,5 % mest differentierade SNP:erna i hela genomet mellan européer och andra Hapmap II-populationer (mätt med FST-baserat lokusspecifikt grenlängtetest14). Även om tidigare analyser av utökade haplotyphomozygositetsmönster i kohorten Human Genome Diversity Project (HGDP) också visar tentativa bevis för genetisk hitchhiking för 1q21.3-regionen i vissa europeiska populationer (ref. 15 och figur S7), är de övergripande bevisen för selektion tvetydiga. De genetiska signaturerna av positivt urval vid enskilda loci, som upptäcks med nuvarande tester, kommer dock att variera beroende på tidpunkten, styrkan hos den selektiva händelsen, regionens genomiska egenskap och den genetiska arkitekturen (antalet, frekvensen och effektstorleken hos orsakande loci) för fenotypen i fråga16 och är därför kanske inte lika uppenbara som de som är förknippade med andra ytliga egenskaper. Till exempel är OCA2-genregionen ett väletablerat mål för selektion17 och är känd för att påverka mänskliga pigmenteringsegenskaper, särskilt ögonfärg.18,19
Effekten av rs11803731-varianten, som ersätter ett leucin med ett metionin vid position 790 i TCHH-proteinet, förutspåddes genom in silico-analyser med programmen PolyPhen20 och PMut.21 PolyPhen förutspådde att L790M-ändringen var ”godartad”, medan PMut förutspådde att denna förändring var ”neutral”. Inga resultat returnerades för andra prediktionsprogram, inklusive SIFT22 (se webbresurser) (med antingen SNP-ID eller den använda proteinsekvensen) och SNPs3D23 (se webbresurser) som inte innehöll någon registrering av rs11803731 SNP. Sådana förutsägelser utesluter inte en funktionell roll, med tanke på att effekten av SNP:n kan vara regulatorisk snarare än strukturell, särskilt eftersom aminosyraersättningen faller utanför α-helikala regioner.23 Ytesexponerade metioniner kan oxideras av reaktiva syrearter posttranslationellt, vilket, om det inte repareras, kan resultera i förändringar i proteinets struktur och aktivitet och kan leda till förändrad proteinreglering.24
Alternativt kan rs11803731 vara associerad med strukturell variation. TCHH är ett enkelsträngat α-helikalt protein med två eller tre mycket repetitiva regioner, beroende på art (figur S8). Hos får är referensproteinet (CAA79165.1) 1549 aminosyror långt, men variation i antalet fullständiga och partiella upprepningar i den C-terminala upprepningsregionen ses hos olika stammar.25,26 I det mänskliga TCHH-proteinet varierar upprepningslängden från cirka 6 till 30 aminosyror, vilket motsvarar 18 till 90 bp DNA-sekvens. Det finns ett antal SNP:er och polymorfismer för insättning eller deletion, särskilt i den första och tredje repetitionsregionen (dbSNP; se webbresurser), och denna gen kan hysa varianter av allellängd, vilket har setts hos får och i en annan mycket repetitiv gen i den mänskliga kromosom 1p21-regionen, involucrin (IVL), där alleler skiljer sig åt mellan olika populationer när det gäller antalet både korta tandemrepetitioner och enstaka basändringar i den upprepade sekvensen.27,28 En sådan längdvariation har inte rapporterats för TCHH, och det återstår att experimentellt fastställa om sådan variation är vanlig, påverkar proteinets struktur eller längd och/eller är taggad av SNPs som flankerar de upprepade regionerna.
Slutsatsen är att vi rapporterar ett kvantitativt egenskapslocus som påverkar hårformen hos européer. Associationen står för ∼6% av variansen i hårmorfologi i denna grupp och faller inom Trichohyalin-genen, som har en känd roll i hårbildningen. Mönstren av allelfrekvenser är slående, med den högsta frekvensen av dessa varianter observerad hos nordeuropéer (figur 1), parallellt med observationen av EDAR-varianten för rakt hår i asiatiska populationer (figur S9).