Hovedtekst
Hårets morfologi er et af de mere iøjnefaldende træk ved menneskelig variation og er særligt forskelligartet blandt mennesker af europæisk afstamning, hvor omkring 45% af individerne har glat hår, 40% har bølget hår og 15% har krøllet hår.1 Graden af krøllethed er korreleret med fordelingen af hårkeratiner og celletypen i hårfibrene, idet antallet af mesokortikale celler falder i takt med, at krøllet intensiveres.2 Nylige undersøgelser har identificeret asiatisk-specifikke alleler af EDAR- og FGFR2-generne, der er forbundet med tykt, glat hår, hvilket tyder på, at disse varianter er opstået efter divergensen mellem asiater og europæere.3,4 De genetiske varianter, der påvirker hårkrøllethed hos europæere (som har vist sig at være meget arveligt5 ), er imidlertid ukendte.
Vi udførte genom-dækkende associationsanalyser i tre australske familieprøver: en prøve af teenage-tvillinger og deres søskende (1649 individer fra 837 familier) og to prøver af voksne tvillingpar (S1, 1945 individer fra 1210 familier; S2, 1251 individer fra 845 familier) konstateret fra den generelle befolkning (Tabel 1).5 I teenageprøven blev hårkrøllethed vurderet på en trepunktsskala (Straight, Wavy eller Curly). I de voksne prøver rapporterede deltagerne, om deres hår var lige eller krøllet (S1) eller lige, bølget eller krøllet (S2). For at tage højde for forskellene i fænotypeindsamling og alder på tværs af prøverne blev hver prøve analyseret uafhængigt, og metaanalyse blev anvendt til at kombinere de tre sæt resultater. Disse undersøgelser blev udført med godkendelse fra de relevante etiske komitéer og med informeret samtykke fra alle deltagere.
De genotypiske data, der anvendes i den aktuelle undersøgelse, stammer fra et større genotypingsprojekt, der omfatter syv bølger af genotyping, som trak deltagere fra vores sundheds- og livsstilsundersøgelser for voksne fra 1988 og 19906 og vores undersøgelse af melanomrisikofaktorer for unge.7,8 De genotypiske data fra hvert projekt er beskrevet i tabel 2. Der blev anvendt standardkvalitetskontrolfiltre på genotypningen fra hvert projekt, hvilket begrænsede imputeringen til prøver og SNP’er med høj datakvalitet (tabel 2). Individer blev screenet for ikke-europæisk afstamning, hvilket resulterede i en prøve på 16.140 genotypede individer (Figur S2, tilgængelig online). For at der ikke blev indført bias i de imputerede data, blev et sæt SNP’er, der var fælles for de syv delprøver, anvendt til imputering (n = 274 604). Imputeringen blev foretaget ved hjælp af de faseopdelte data fra HapMap-prøverne af europæisk afstamning (CEU; build 36, release 22) og MACH.9
Tabel 2
Sammenfattende oplysninger om de syv bølger af genotypebestemmelser og den gennemførte kvalitetskontrol
Projekt 1: ALCO CIDR | Projekt 2: ALCO deCODE | Projekt 3: MIG deCODE | Projekt 4: EUTWIN | Projekt 5: ADOL deCODE | Projekt 6: GL_CIDR | Projekt 7: GL_CIDR | Projekt 7: WH deCODE | |
---|---|---|---|---|---|---|---|---|
Primær fænotype | Alkoholforbrug (populationsprøve) | Alkoholforbrug (populationsprøve) | Migræne (case/kontrolprøve) | Lipidniveauer (populationsprøve) | Melanom risikofaktorer (populationsprøve) | Glaukom (populationsprøve) | Kvindesundhed (case/kontrolprøve) | |
Genotypelaboratorium | CIDR | deCODE | deCODE | deCODE | Universitetet i Helsinki | deCODE | CIDR | deCODE |
Illuminia SNP-platform | HumanCNV370-Quadv3 | HumanCNV370-Quadv3 | Human610-Quad | Human 317K | Human610-Quad | Human610-Quad | Human610-Quad | Human610-Quad |
Nr. af genotypede prøver | 4241 | 2611 | 999 | 462 | 4391 | 657 | 2360 | |
Antal. af genotypede SNP’er | 343,955 | 344,962 | 592,385 | 318,210 | 592,392 | 589,296 | 562,193 | |
BeadStudio GenCall score < 0.7 | 24,494 | 27,459 | 46,931 | NAa | 47,418 | 36,877 | 57,589 | |
SNP’er med call rate < 0.95 | 11,584 | 7537 | 8038 | 5021 | 8447 | 12,455 | 33,459 | |
SNP’er med HWE-svigt p < 10-6 | 4318 | 1194 | 1221 | 67 | 2841 | 15,474 | 1763 | |
SNP’er med MAF < 0.01/ kun 1 observeret allel | 7874 | 8976 | 33,347 | 264 | 33,347 | 28,607 | 24,509 | |
Nej. af SNP’er efter QC | 323093 | 321.267 | 530.922 | 312.937 | 529,379 | 531,042 | 518,948 | |
Procentdel af genotypede SNP’er | 93.93% | 93,13% | 89,62% | 98,34% | 89,36% | 90,11% | 92,31% |
For hvert projekt blev DNA ekstraheret i overensstemmelse med standardprotokoller. På tværs af projekterne blev deltagerne genotypet på Illumina 317K-, 370K- eller 610K-SNP-platforme, og genotyperne blev kaldt med Illumina BeadStudio-softwaren. Efter kvalitetskontrollen (QC) af de enkelte projekter blev dataene fra de syv bølger af genotypebestemmelser integreret. Som vist i figur S1 blev en række prøver duplikeret blandt de forskellige genotypingsprojekter, hvilket gav mulighed for QC på tværs af projekterne. Efter integration af datasættene blev dataene screenet for missingness inden for individer (>5 %, under hensyntagen til antallet af SNP’er, der blev genotypet for hvert individ), stamtræ- og kønsfejl og Mendelske fejl (genotyper for alle familiemedlemmer for en given SNP blev fjernet ved påvisning af fejl). Efter QC blev der i tilfælde, hvor et individ fra et monozygotisk tvillingpar var blevet genotypet, tildelt dobbelte genotyper til den ikke-genotypede cotwin, hvilket resulterede i en prøve på 16 507 individer. Efter screening for ikke-europæisk afstamning (figur S2) resulterede dette i en endelig prøve på 16 140 individer. HWE betegner Hardy-Weinburg-ligevægt.
Så vi kunne drage fuld fordel af de tilgængelige oplysninger i den ordinale skala, blev dataene analyseret via en multifaktoriel tærskelmodel, der beskriver diskrete træk som afspejlende en underliggende normalfordeling af ansvar (eller prædisponering). Liability, som repræsenterer summen af alle multifaktorielle virkninger, antages at afspejle de kombinerede additive virkninger af et stort antal gener og miljøfaktorer, der hver især har en lille effekt, og er karakteriseret ved fænotypiske diskontinuiteter, der opstår, når liability når en given tærskel.10 Der blev anvendt en samlet test af association, hvor doseringsdataene (MACH mldose) for hver SNP på skift blev inkluderet i tærskelmodellen, hvilket resulterede i en additiv test af association. Desuden blev faste effekter af køn og alder (både lineære og kvadratiske effekter) og interaktioner mellem alder og køn inkluderet sammen med tærskelmodellerne i alle dataanalyser, således at egenskabsværdien for individ j fra familie i blev parameteriseret som: xij = βdosis + βalder + βalder2 + βkøn + βkøn-alder + μ. Forholdet mellem deltagerne blev eksplicit modelleret, idet der blev taget hensyn til kønnet på beslægtede par, og de fænotypiske varianser blev begrænset til enhed. Associeringsteststatistikken blev beregnet ved at sammenligne tilpasningen (minus to gange log-likelihood) af den fulde model, som omfattede effekten af den givne SNP, med den af en nested model, hvor SNP-effekten var blevet udeladt af modellen. Forskellen i log-likelihoods følger en asymptotisk chi-square-fordeling med frihedsgrader svarende til forskellen i de estimerede parametre mellem de to modeller (i dette tilfælde én). De genomiske inflationsfaktorer for de tre prøver varierede fra 0,98 til 1,02 (figur S3), hvilket indikerer, at testen kontrollerede korrekt for deltagernes beslægtethed, og at potentielle tekniske og stratificeringsartefakter havde en ubetydelig indvirkning på resultaterne.
Fire stærkt korrelerede enkeltnukleotidpolymorfismer (SNP’er) (rs17646946, rs11803731, rs4845418, rs12130862; r2 > 0,8, D′ > 0,95 inden for HapMap CEU-prøven) på kromosom 1q21.3 (figur 1B) nåede vores genomdækkende signifikanstærskelværdi på 5 × 10-8, som korrigerer for ∼1 million uafhængige fælles varianter i genomet11 (tabel 3, figur S4). Associeringen blev fundet i alle tre prøver, hvilket tyder på, at effekten er robust over for aldersforskellene mellem prøverne, og at ansvarstærskelmodellen tog højde for forskellene i den fænotypiske definition på tværs af prøverne. Meta-analyse af de tre prøver ved hjælp af en N (individer)-vægtet analyse i Metal (se webressourcer) resulterede i meget signifikante p-værdier for SNP’er, der ligger inden for denne region og falder på en haplotype mærket af den direkte genotypede SNP rs17646946 (p = 1.5 × 10-31) (figur 1A og 1B, tabel 3) (Figur 1A og 1B, tabel 3). Foreningen i 1q21.3-regionen er centreret på Trichohyalin-genet TCHH og tegnede sig for ∼6% af variansen (Figur 1E, Tabel 3). Yderligere analyse viste, at association på haplotype-niveau ikke gav yderligere prædiktiv kraft. Inddragelse af de bedste SNP’er som kovariater i analyserne gav ikke yderligere beviser for association, hvilket fuldt ud redegjorde for signalet på dette locus (Figur S5). Vi fandt hverken beviser for epistase mellem disse SNP’er og andre SNP’er på tværs af genomet eller nogen heterogenitet mellem kønnene (figur S5 og S6). Endelig, selv om analyse af kopiantalvariation (CNV) på tværs af regionen i prøven af unge fandt beviser for CNV i 18 individer, var det for sjældent til at forklare den observerede effekt (Tabel S2). Tabel S3 indeholder en liste over alle SNP’er med en kombineret p-værdi på mindre end 1 × 10-5 for metaanalysen. Et andet område med en suggestiv association blev observeret på kromosom 4q21.21 (rs1268789; p = 6,58 × 10-8), centreret på Fraser syndrom 1 genet FRAS1. Vi undersøgte også beviser for association inden for metaanalysen for listen over 170 kandidatgener offentliggjort af Fujimoto et al.4 (Tabel S4). Ud over den association, der blev observeret i TCHH-regionen, blev der observeret stærke associationssignaler i WNT10A, der er forbundet med odonto-onycho-dermal dysplasi, som er karakteriseret ved tørt hår og en bred vifte af ektodermale fænotyper12 (2q35; rs7349332; p = 1.36 × 10-6).
Genome-wide Association Results
(A) Manhattan-plot, der viser resultaterne for den genom-dækkende metaanalyse af hårmorfologi på tværs af tre uafhængige prøver. SNP’er med p < 10-5 er fremhævet med grønt.
(B) Karyotype af kromosom 1 med fremhævelse af 1q21-regionen.
(C) Plot med regional association og linkage disquilibrium for 1q21-regionen. Den mest associerede genotypede SNP er vist med blå farve, og farven på de resterende markører afspejler linkage disquilibrium (r2) med den øverste SNP i hvert panel (stigende rød nuance er forbundet med stigende r2). Rekombinationsraten (højre y-akse) er plottet i lyseblå og er baseret på CEU HapMap-populationen. Exoner for hvert gen er repræsenteret ved lodrette søjler, baseret på alle isoformer, der er tilgængelige fra UCSC Genome Browser-samlingen fra marts 2006.
(D) Minor allelfrekvens for TCHH SNP rs11803731, baseret på Human Genome Diversity Project.29
(E) Hyppighed af lige (orange søjler), bølget (grønne søjler) og krøllet (blå søjler) hår som funktion af genotypen rs11803731 i en prøve af ikke-relaterede personer (n = 43; n = 493; n = 1132). Med flere T-alleler øges andelen af glat hår. Vertikale søjler svarer til 95 % konfidensintervaller på prævalensen.
Tabel 3
Detaljer af de genomdækkende betydningsfulde SNP’er i 1q21.3-regionen på tværs af de tre prøver
rs17646946 | rs11803731 | rs4845418 | rs12130862 | ||
---|---|---|---|---|---|
Position (bp) | 150,329,391 | 150,349,949 | 150,402,854 | 150,293,639 | |
Genotyperet eller imputeret | genotyperet | imputeret | imputeret | imputeret | |
Minor (reference)allel | A | C | T | ||
Major allel | G | A | G | G | A |
Minor allelfrekvens | 18.3% | 18,4% | 17,3% | 18,1% | |
Hardy-Weinburg-ligevægt p-værdi | 0.73 | 0,75 | 0,70 | 0,70 | 0,79 |
Rsq (måleenhed for imputeringsnøjagtighed) | – | 0.92 | 0,96 | 0,98 | |
Ungdomsudsnit (n = 1649) | |||||
Allelisk effekt (β)a | 0.41 | 0,42 | 0,42 | 0,39 | |
P-værdi | 1,24 × 10-11 | 1,76 × 10-11 | 3,68 × 10-11 | 7.59 × 10-11 | |
Voksen S1 (n = 1945) | |||||
Allelisk effekt (β)a | 0.50 | 0,50 | 0,49 | 0,45 | |
P-værdi | 8,18 × 10-13 | 2,51 × 10-12 | 2,22 × 10-11 | 9.69 × 10-11 | |
Voksen S2 (n = 1251) | |||||
Allelisk effekt (β)a | 0.44 | 0,44 | 0,43 | 0,42 | |
P-værdi | 7,91 × 10-11 | 1,37 × 10-10 | 1,15 × 10-9 | 8.16 × 10-10 | |
Beregninger på tværs af stikprøver | |||||
Udviklet variansb gennemsnit på tværs af stikprøver | 6.11% | 6,11% | 5,79% | 5,22% | |
Meta-analyse (p-værdi) | 1,50 × 10-31 | 3,18 × 10-31 | 4,43 × 10-29 | 3.12 × 10-28 |
Af de fire mest associerede SNP’er i 1q21-regionen fokuserede vi på rs11803731 (p = 3,2 × 10-31), fordi dette er en kodende, nonsynonym variant placeret i TCHH’s tredje exon (selv om der kræves mere arbejde for at få bekræftet, at dette er den kausale variant). T-allelen på rs11803731 er den afledte tilstand og viser en slående geografisk specificitet i forhold til Europa og Vest- og Centralasien, idet den når sin højeste frekvens hos nordeuropæere (figur 1E), hvilket tyder på, at varianten opstod et eller andet sted i denne brede region. Den moderne frekvens og fordeling af de novo-mutationer vil generelt blive bestemt af tilfældig genetisk drift og migration. Men fordi rs11803731 påvirker en meget synlig fænotype, er det et intuitivt indlysende mål for naturlig eller seksuel selektion.13 EDAR-genet, der styrer hårtykkelsen, viser en af de mest overbevisende signaturer af positiv selektion i det østasiatiske genom.4 rs11803731 er blandt de øverste 2,5 % mest differentierede SNP’er på tværs af genomet mellem europæere og andre Hapmap II-populationer (målt ved den FST-baserede locus-specifikke grenlængdetest14 ). Selv om tidligere analyser af udvidede haplotypehomozygositetsmønstre i HGDP-kohorten (Human Genome Diversity Project) også viser tentative beviser for genetisk hitchhiking for 1q21.3-regionen i nogle europæiske populationer (ref. 15 og figur S7), er de overordnede beviser for selektion tvetydige. De genetiske signaturer af positiv selektion på individuelle loci, som påvist med de nuværende test, vil imidlertid variere afhængigt af tidspunktet, styrken af den selektive begivenhed, regionens genomiske karakteristika og den genetiske arkitektur (antal, frekvens og effektstørrelse af forårsagende loci) af den pågældende fænotype16 og er derfor måske ikke så tydelige som dem, der er forbundet med andre overfladiske træk. For eksempel er OCA2-genregionen et veletableret mål for selektion17 og er kendt for at påvirke menneskelige pigmenteringsegenskaber, især øjenfarve.18,19
Effekten af rs11803731-varianten, udskiftning af et leucin med et methionin ved position 790 i TCHH-proteinet, blev forudsagt ved in silico-analyser med programmerne PolyPhen20 og PMut.21 PolyPhen forudsagde, at L790M-ændringen var “godartet”, mens PMut forudsagde, at denne ændring var “neutral”. Der blev ikke returneret resultater for andre forudsigelsesprogrammer, herunder SIFT22 (se webressourcer) (med enten SNP-id’et eller den anvendte proteinsekvens) og SNPs3D23 (se webressourcer), som ikke indeholdt nogen registrering af rs11803731 SNP’en. Sådanne forudsigelser udelukker ikke en funktionel rolle, da effekten af SNP’en kan være regulerende snarere end strukturel, især da aminosyreudskiftningen falder uden for α-helikale regioner.23 Overfladeeksponerede methioniner kan oxideres af reaktive oxygenarter posttranslationelt, hvilket, hvis det ikke repareres, kan resultere i ændringer i proteinstruktur og -aktivitet og kan føre til ændret proteinregulering.24
Alternativt kan rs11803731 være forbundet med strukturel variation. TCHH er et enkeltstrenget α-helisk protein med to eller tre stærkt repetitive regioner, afhængigt af arten (Figur S8). Hos får er referenceproteinet (CAA79165.1) 1549 aminosyrer langt, men der ses variation i antallet af komplette og delvise gentagelser i den C-terminale gentagelsesregion på tværs af forskellige stammer.25,26 I det humane TCHH-protein varierer gentagelseslængderne fra ca. 6 til 30 aminosyrer, svarende til 18 til 90 bp DNA-sekvens. Der findes en række SNP’er og indsættelses- eller deletionspolymorfismer, især i den første og tredje gentagelsesregion (dbSNP; se webressourcer), og dette gen kan indeholde alleliske længdevarianter, som det er set hos får og i et andet meget repetitivt gen i den menneskelige kromosom 1p21-region, involucrin (IVL), hvor alleler varierer på tværs af menneskelige populationer i antallet af både korte tandemrepeats og enkeltbaseændringer inden for gentaget sekvens.27,28 En sådan længdevariation er ikke blevet rapporteret for TCHH, og det skal stadig bestemmes eksperimentelt, om en sådan variation er almindelig, påvirker proteinets struktur eller længde og/eller er mærket af SNP’er, der flankerer de gentagne regioner.
Sammenfattende rapporterer vi et kvantitativt egenskabslocus, der påvirker hårformen hos europæere. Associeringen tegner sig for ∼6% af variansen i hårmorfologi i denne gruppe og falder inden for Trichohyalin-genet, som har en kendt rolle i hårdannelse. Mønstrene for allelfrekvenserne er slående, idet den højeste frekvens af disse varianter er observeret hos nordeuropæere (Figur 1), hvilket er parallelt med observationen af EDAR-varianten med glat hår i asiatiske befolkninger (Figur S9).