PMC

author
12 minutes, 1 second Read

Main Text

Hair morfologie is een van de meer opvallende kenmerken van de menselijke variatie en is bijzonder divers bij mensen van Europese afkomst, waarvan ongeveer 45% van de individuen steil haar heeft, 40% golvend haar, en 15% krullend haar.1 De mate van krulheid is gecorreleerd met de verdeling van haarkeratine en celtype binnen de haarvezel, waarbij het aantal mesocorticale cellen afneemt naarmate de krul intenser wordt.2 Recente studies hebben Aziatische specifieke allelen van de EDAR en FGFR2 genen geïdentificeerd die geassocieerd zijn met dik, steil haar, wat suggereert dat deze varianten ontstaan zijn na de divergentie van Aziaten en Europeanen.3,4 De genetische varianten die krullend haar beïnvloeden bij Europeanen (waarvan is aangetoond dat het zeer erfelijk is5) zijn echter onbekend.

We voerden genoomwijde associatieanalyses uit in drie Australische familiesteekproeven: een steekproef van adolescente tweelingen en hun broers en zussen (1649 individuen uit 837 families) en twee steekproeven van volwassen tweelingparen (S1, 1945 individuen uit 1210 families; S2, 1251 individuen uit 845 families) die werden vastgesteld uit de algemene bevolking (Tabel 1).5 In de adolescente steekproef werd krullend haar beoordeeld op een driepuntsschaal (steil, golvend, of krullend). In de volwassen steekproeven, rapporteerden de deelnemers of hun haar steil of krullend (S1) of steil, golvend, of krullend (S2) was. Om rekening te houden met de verschillen in fenotype collectie en leeftijd tussen de monsters, werd elk monster onafhankelijk geanalyseerd en werd een meta-analyse gebruikt voor het combineren van de drie sets van resultaten. Deze studies werden uitgevoerd met de goedkeuring van de juiste ethische commissies en de geïnformeerde toestemming van alle deelnemers.

De genotypische gegevens die in de huidige studie worden gebruikt, zijn afkomstig van een groter genotyperingsproject dat zeven genotyperingsgolven omvat en waaraan deelnemers uit onze gezondheids- en levensstijlstudies voor volwassenen van 1988 en 19906 en uit onze risicofactorenstudie voor melanoom bij adolescenten hebben deelgenomen.7,8 De genotypische gegevens van elk project worden in tabel 2 beschreven. Standaard kwaliteitscontrole filters werden toegepast op de genotypering van elk project, waardoor de toerekening werd beperkt tot monsters en SNP’s met een hoge gegevenskwaliteit (tabel 2). Individuen werden gescreend op niet-Europese afstamming, wat resulteerde in een steekproef van 16 140 gegenotypeerde individuen (figuur S2, online beschikbaar). Om geen bias in de geïmputeerde gegevens te introduceren, werd voor de imputatie een reeks SNP’s gebruikt die de zeven deelsteekproeven gemeen hadden (n = 274 604). De imputatie werd uitgevoerd met gebruikmaking van de gefaseerde gegevens van de HapMap-steekproeven van Europese afstamming (CEU; build 36, release 22) en MACH.9

Tabel 2

Samenvattende informatie voor de zeven golven van genotypering en de uitgevoerde kwaliteitscontrole

Project 1: ALCO CIDR Project 2: ALCO deCODE Project 3: MIG deCODE Project 4: EUTWIN Project 5: ADOL deCODE Project 6: GL_CIDR Project 7: WH deCODE
Primair fenotype Alcoholgebruik (bevolkingssteekproef) Alcoholgebruik (bevolkingssteekproef) Migraine (case/control steekproef) Lipideniveaus (bevolkingssteekproef) Melanoom risicofactoren (bevolkingssteekproef) Glaucoom (bevolkingssteekproef) Gezondheid van vrouwen (case/control steekproef)
Genotypering lab CIDR deCODE deCODE Universiteit van Helsinki deCODE CIDR deCODE
Illuminia SNP platform HumanCNV370-Quadv3 HumanCNV370-Quadv3 Human610-Quad Human 317K Human610-Quad Human610-Quad Human610-Quad
No. van gegenotypeerde monsters 4241 2611 999 462 4391 657 2360
Nr. van genotypeerde SNPs 343,955 344,962 592,385 318,210 592,392 589,296 562,193
BeadStudio GenCall score < 0.7 24,494 27,459 46,931 NAa 47,418 36,877 57,589
SNP’s met call rate < 0.95 11,584 7537 8038 5021 8447 12,455 33,459
SNPs met HWE falen p < 10-6 4318 1194 1221 67 2841 15,474 1763
SNPs met MAF < 0.01/ slechts 1 waargenomen allel 7874 8976 33,347 264 33,347 28,607 24,509
Nr. SNP’s na QC 323093 321.267 530.922 312.937 529,379 531.042 518.948
Percentage gegenotypeerde SNPs 93.93% 93,13% 89,62% 98,34% 89,36% 90,11% 92,31%

Voor elk project werd DNA geëxtraheerd volgens de standaardprotocollen. Voor alle projecten werden de deelnemers gegenotypeerd op de Illumina 317K-, 370K- of 610K SNP-platforms en werden de genotypen opgeroepen met de Illumina BeadStudio-software. Na de kwaliteitscontrole (QC) van de individuele projecten, werden de gegevens van de zeven golven van genotypering geïntegreerd. Zoals blijkt uit figuur S1, werden een aantal monsters gedupliceerd onder de verschillende genotypering projecten, waardoor voor cross-project QC. Na integratie van de datasets werden de gegevens gescreend op missingness binnen individuen (>5%, rekening houdend met het aantal SNP’s dat voor elk individu werd gegenotypeerd), stamboom- en geslachtsfouten, en Mendeliaanse fouten (genotypes voor alle familieleden voor een bepaald SNP werden verwijderd bij detectie van fouten). Na QC werden, in gevallen waarin één individu van een monozygoot tweelingpaar was gegenotypeerd, duplicaatgenotypes toegekend aan de niet-genotypeerde cotwin, wat resulteerde in een steekproef van 16.507 individuen. Na screening op niet-Europese afstamming (Figuur S2) resulteerde dit in een uiteindelijke steekproef van 16.140 individuen. HWE staat voor Hardy-Weinburg-evenwicht.

aGenCall-gegevens waren niet beschikbaar voor deze steekproef.

Om optimaal gebruik te kunnen maken van de informatie die beschikbaar is in de ordinale schaal, werden de gegevens geanalyseerd via een multifactorieel drempelmodel dat discrete kenmerken beschrijft als een weerspiegeling van een onderliggende normale verdeling van aansprakelijkheid (of predispositie). Aansprakelijkheid, die de som is van alle multifactoriële effecten, wordt verondersteld de gecombineerde additieve effecten te weerspiegelen van een groot aantal genen en omgevingsfactoren, elk met een klein effect, en wordt gekenmerkt door fenotypische discontinuïteiten die optreden wanneer de aansprakelijkheid een bepaalde drempel bereikt.10 Er werd een totale associatietest gebruikt, waarbij de doseringsgegevens (MACH mldose) voor elke SNP op zijn beurt in het drempelmodel werden opgenomen, wat resulteerde in een additieve associatietest. Bovendien werden vaste effecten van geslacht en leeftijd (zowel lineaire als kwadratische effecten) en leeftijd-geslacht interacties opgenomen met de drempelmodellen in alle gegevensanalyses, zodat de eigenschapwaarde voor individu j uit familie i werd geparametriseerd als: xij = βdosis + βage + βage2 + βsex + βsex-age + μ. De verwantschap tussen de deelnemers werd expliciet gemodelleerd, waarbij rekening werd gehouden met het geslacht van verwante paren, en de fenotypische varianties werden tot eenheid beperkt. De statistiek van de associatietest werd berekend door de fit (min twee keer log-likelihood) van het volledige model, waarin het effect van de gegeven SNP was opgenomen, te vergelijken met die van een genest model, waarin het SNP-effect uit het model was weggelaten. Het verschil in log-likelihoods volgt een asymptotische chi-kwadraatverdeling met de vrijheidsgraden gelijk aan het verschil in geschatte parameters tussen de twee modellen (in dit geval één). De genomische inflatiefactoren van de drie steekproeven varieerden van 0,98 tot 1,02 (figuur S3), wat erop wijst dat de test correct controleerde voor de verwantschap van de deelnemers en dat mogelijke technische en stratificatie artefacten een verwaarloosbare invloed op de resultaten hadden.

Vier sterk gecorreleerde single-nucleotide polymorfismen (SNPs) (rs17646946, rs11803731, rs4845418, rs12130862; r2 > 0,8, D′ > 0,95 binnen de HapMap CEU-steekproef) op chromosoom 1q21.3 (Figuur 1B) onze genoombrede significantiedrempel van 5 × 10-8 bereikt, die corrigeert voor ∼1 miljoen onafhankelijke gemeenschappelijke varianten in het genoom11 (Tabel 3, Figuur S4). De associatie werd gevonden in alle drie de monsters, wat suggereert dat het effect robuust is voor de leeftijdsverschillen tussen de monsters en dat het aansprakelijkheidsdrempelmodel rekening hield met de verschillen in fenotypische definitie tussen de monsters. Meta-analyse van de drie steekproeven met behulp van een N (individuen)-gewogen analyse in Metal (zie Webbronnen) resulteerde in zeer significante p-waarden voor SNP’s die binnen deze regio liggen en op een haplotype vallen dat gemarkeerd wordt door de direct gegenotypeerde SNP rs17646946 (p = 1,5 × 10-31) (figuren 1A en 1B, tabel 3). De associatie in de 1q21.3 regio is gecentreerd op het Trichohyalin gen TCHH en was goed voor ∼6% van de variantie (Figuur 1E, Tabel 3). Verdere analyse toonde aan dat associatie op het haplotype niveau geen extra voorspellend vermogen bood. Het opnemen van de beste SNPs als covariaten in de analyses leverde geen verder bewijs van associatie op, waarbij het signaal op deze locus volledig werd verantwoord (figuur S5). Wij vonden geen bewijs voor epistasis tussen deze SNPs en enige andere SNP over het genoom, noch enige heterogeniteit tussen de geslachten (Figuren S5 en S6). Tenslotte, hoewel analyse van copie-aantal variatie (CNV) in de regio in de adolescente steekproef bewijs vond voor CNV in 18 individuen, was het te zeldzaam om het waargenomen effect te verklaren (Tabel S2). Tabel S3 bevat een lijst van alle SNP’s met een gecombineerde p-waarde van minder dan 1 × 10-5 voor de meta-analyse. Een tweede gebied van suggestieve associatie werd waargenomen op chromosoom 4q21.21 (rs1268789; p = 6.58 × 10-8), gecentreerd op het Fraser syndroom 1 gen FRAS1. Wij onderzochten ook bewijs voor associatie binnen de meta-analyse voor de lijst van 170 kandidaat-genen gepubliceerd door Fujimoto et al.4 (Tabel S4). Naast de associatie waargenomen in de TCHH regio, werden sterke associatiesignalen waargenomen in WNT10A, geassocieerd met odonto-onycho-dermale dysplasie, die wordt gekenmerkt door droog haar en een breed scala van ectodermale fenotypes12 (2q35; rs7349332; p = 1.36 × 10-6).

Genoomwijde associatieresultaten

(A) Manhattan plot met de resultaten voor de genoomwijde meta-analyse van haarmorfologie bij drie onafhankelijke monsters. SNPs met een p < 10-5 zijn gemarkeerd in groen.

(B) Karyotype van chromosoom 1 met nadruk op de 1q21 regio.

(C) Regionale associatie en linkage disequilibrium plot voor de 1q21 regio. De meest geassocieerde gegenotypeerde SNP wordt weergegeven in blauw, en de kleur van de overige markers weerspiegelt de linkage disequilibrium (r2) met de top SNP in elk paneel (toenemende rode tint geassocieerd met toenemende r2). De recombinatiesnelheid (rechter y-as) is in lichtblauw uitgezet en is gebaseerd op de CEU HapMap-populatie. Exonen voor elk gen worden weergegeven door verticale balken, gebaseerd op alle isovormen die beschikbaar zijn uit de assemblage van de UCSC Genome Browser van maart 2006.

(D) Minor allel frequentie voor de TCHH SNP rs11803731, gebaseerd op het Human Genome Diversity Project.29

(E) Frequentie van steil (oranje balken), golvend (groene balken), en krullend (blauwe balken) haar als functie van het rs11803731 genotype in een steekproef van niet-verwante individuen (n = 43; n = 493; n = 1132). Met meer T-allelen neemt de proportie steil haar toe. Verticale balken komen overeen met de 95% betrouwbaarheidsintervallen op de prevalentie.

Tabel 3

Details van de genoombreed significante SNPs in de 1q21.3 Region across the Three Samples

rs17646946 rs11803731 rs4845418 rs12130862
Positie (bp) 150,329,391 150,349,949 150,402,854 150,293,639
Genotypeerd of geïmputeerd gegenotypeerd geïmputeerd geïmputeerd
Minder (referentie)allel A T C T
Major allel G A A
Minor allel frequentie 18.3% 18,4% 17,3% 18,1%
Hardy-Weinburg evenwicht p waarde 0.73 0.75 0.70 0.79
Rsq (imputatienauwkeurigheid metric) 0.92 0.96 0.98
Adolescentensteekproef (n = 1649)
Allelisch effect (β)a 0.41 0.42 0.39
P-waarde 1.24 × 10-11 1.76 × 10-11 3.68 × 10-11 7.59 × 10-11
Volwassen S1 (n = 1945)
Allelisch effect (β)a 0.50 0.50 0.49 0.45
P-waarde 8.18 × 10-13 2.51 × 10-12 2.22 × 10-11 9.69 × 10-11
Volwassen S2 (n = 1251)
Allelisch effect (β)a 0.44 0,44 0,43 0,42
P-waarde 7,91 × 10-11 1,37 × 10-10 1,15 × 10-9 8.16 × 10-10
Cross-Sample Calculations
Explained varianceb gemiddeld over de steekproeven 6.11% 6,11% 5,79% 5,22%
Meta-analyse (p-waarde) 1,50 × 10-31 3,18 × 10-31 4,43 × 10-29 3.12 × 10-28
aDe hier gerapporteerde allelic β moet worden geïnterpreteerd met verwijzing naar het aansprakelijkheidsdrempelmodel, dat de gegevens in kaart brengt op een standaardnormale verdeling waarin de snijpunten tussen de categorieën worden afgezet tegen de z-verdeling. Een β van .41 betekent bijvoorbeeld dat de drempel die de categorie recht van de categorie golvend scheidt, 0,41 z-eenheden naar rechts wordt verschoven voor elk risico-allel dat een individu bezit.
bBerekend als β2, waarbij p de frequentie van het minder belangrijke allel is en β het additieve alleleffect.

Van de vier meest geassocieerde SNPs in de 1q21-regio hebben we ons gericht op rs11803731 (p = 3,2 × 10-31), omdat dit een coderende, niet-synonieme variant is die zich in het derde exon van TCHH bevindt (hoewel er meer werk nodig is om te bevestigen dat dit de causale variant is). Het T-allel op rs11803731 is de afgeleide toestand en vertoont een opvallende geografische specificiteit voor Europa en West-centraal Azië, waarbij de hoogste frequentie bereikt wordt bij Noord-Europeanen (Figuur 1E), wat suggereert dat de variant ergens in deze brede regio is ontstaan. De moderne frequentie en verspreiding van de novo mutaties zal over het algemeen bepaald worden door willekeurige genetische drift en migratie. Maar omdat rs11803731 een zeer zichtbaar fenotype beïnvloedt, is het een intuïtief voor de hand liggend doelwit voor natuurlijke of seksuele selectie.13 Het EDAR-gen dat de haardikte regelt, vertoont een van de meest overtuigende handtekeningen van positieve selectie in het Oost-Aziatische genoom.4 rs11803731 behoort tot de top 2,5% meest gedifferentieerde SNPs in het genoom tussen Europeanen en andere Hapmap II populaties (gemeten met de FST-gebaseerde locus-specifieke taklengtetest14). Hoewel eerdere analyse van uitgebreide haplotype homozygositeitspatronen in het Human Genome Diversity Project (HGDP) cohort ook voorzichtig bewijs laat zien van genetisch meeliften voor de 1q21.3 regio in sommige Europese populaties (ref. 15 en Figuur S7), is het algehele bewijs van selectie ambigu. De genetische handtekeningen van positieve selectie op individuele loci, zoals gedetecteerd met de huidige tests, zullen echter variëren afhankelijk van het tijdstip, de sterkte van de selectieve gebeurtenis, het genoomkenmerk van de regio, en de genetische architectuur (aantal, frequentie, en effectgrootte van causale loci) van het fenotype in kwestie16 en zullen dus misschien niet zo duidelijk zijn als die welke geassocieerd worden met andere oppervlakkige kenmerken. Bijvoorbeeld, het OCA2 gengebied is een welbekend doelwit van selectie17 en staat erom bekend dat het menselijke pigmentatiekenmerken beïnvloedt, vooral oogkleur.18,19

Het effect van de rs11803731 variant, vervanging van een leucine door een methionine op positie 790 van het TCHH eiwit, werd voorspeld door in silico analyses met de programma’s PolyPhen20 en PMut.21 PolyPhen voorspelde dat de L790M verandering “goedaardig” zou zijn, terwijl PMut voorspelde dat deze verandering “neutraal” zou zijn. Andere voorspellingsprogramma’s leverden geen resultaten op, waaronder SIFT22 (zie Webbronnen) (met ofwel de SNP-ID ofwel de gebruikte eiwitsequentie) en SNPs3D23 (zie Webbronnen), dat geen gegevens over de rs11803731 SNP bevatte. Dergelijke voorspellingen sluiten een functionele rol niet uit, gezien het feit dat het effect van de SNP eerder regulerend dan structureel kan zijn, vooral omdat de aminozuurvervanging buiten α-helicale gebieden valt.23 Aan het oppervlak blootgestelde methionines kunnen posttranslationeel door reactieve zuurstofspecies worden geoxideerd, wat, indien niet hersteld, kan resulteren in veranderingen in eiwitstructuur en activiteit en kan leiden tot veranderde eiwitregulatie.24

Als alternatief kan rs11803731 geassocieerd zijn met structurele variatie. TCHH is een enkelstrengs α-helicaal eiwit met twee of drie sterk repetitieve regio’s, afhankelijk van de soort (Figuur S8). Bij schapen is het referentie-eiwit (CAA79165.1) 1549 aminozuren lang, maar variatie in het aantal volledige en gedeeltelijke herhalingen in het C-terminale herhaalgebied wordt gezien bij verschillende stammen.25,26 In het menselijke TCHH-eiwit variëren de herhalingslengtes van ongeveer 6 tot 30 aminozuren, wat overeenkomt met 18 tot 90 bp DNA-sequentie. Een aantal SNPs en insertie- of deletiepolymorfismen zijn aanwezig, met name in de eerste en derde herhaalde regio (dbSNP; zie Web Resources), en dit gen zou allelische lengtevarianten kunnen herbergen, zoals gezien is bij schapen en in een ander sterk repeterend gen in de menselijke chromosoom 1p21-regio, involucrin (IVL), waar allelen tussen menselijke populaties verschillen in het aantal zowel korte tandemherhalingen als veranderingen van één base binnen de herhaalde sequentie.27,28 Dergelijke lengtevariatie is niet gerapporteerd voor TCHH, en het moet nog experimenteel worden vastgesteld of dergelijke variatie veel voorkomt, de structuur of lengte van het eiwit beïnvloedt, en/of wordt gelabeld door SNPs die de herhaalde regio’s flankeren.

Concluderend, wij rapporteren een kwantitatieve trait locus die de haarvorm bij Europeanen beïnvloedt. De associatie is goed voor ∼6% van de variantie in haarmorfologie in deze groep en valt binnen het Trichohyalin gen, dat een bekende rol heeft in de haarvorming. De patronen van allelfrequenties zijn opvallend, met de hoogste frequentie van deze varianten waargenomen bij Noord-Europeanen (figuur 1), parallel aan de waarneming van de steilhaar EDAR variant in Aziatische populaties (figuur S9).

Similar Posts

Geef een antwoord

Het e-mailadres wordt niet gepubliceerd.