Pääkirjoitus
Hiusten morfologia on yksi ihmisen variaation silmiinpistävimmistä piirteistä, ja se on erityisen monimuotoinen eurooppalaisperäisillä ihmisillä, joista noin 45 %:lla on suorat hiukset, 40 %:lla aaltoilevat hiukset ja 15 %:lla kiharat hiukset.1 Kiharuuden aste korreloi hiuskeratiinien ja solutyypin jakautumisen kanssa hiuskuidussa, ja mesokortikaalisten solujen määrä vähenee kiharuuden voimistuessa.2 Viimeaikaisissa tutkimuksissa on tunnistettu EDAR- ja FGFR2-geenien Aasialais-spesifisiä alleeleja, jotka ovat yhteydessä paksuihin, suoriin hiuksiin, mikä viittaa siihen, että nämä variantit ovat syntyneet aasialaisten ja eurooppalaisten erilaistumisen jälkeen.3,4,4 Geneettisiä variantteja, jotka vaikuttavat eurooppalaisten hiusten kiharuuteen (jonka on osoitettu olevan hyvin periytyvää5 ), ei kuitenkaan tunneta.
Toteutimme genominlaajuisia assosiaatioanalyysejä kolmessa australialaisessa perhenäytteessä: yksi näyte murrosikäisistä kaksosista ja heidän sisaruksistaan (1649 yksilöä 837 perheestä) ja kaksi näytettä aikuisista kaksospariskunnista (S1, 1945 yksilöä 1210 perheestä; S2, 1251 yksilöä 845 perheestä), jotka on määritetty yleisestä väestöstä (taulukko 1).5 Murrosikäisten näytteessä hiusten kiharuutta arvioitiin kolmiportaisella asteikolla (suora, aaltoileva tai kihara). Aikuisnäytteissä osallistujat ilmoittivat, olivatko heidän hiuksensa suorat vai kiharat (S1) tai suorat, aaltoilevat vai kiharat (S2). Fenotyyppikokoelman ja iän erojen huomioon ottamiseksi näytteissä kukin näyte analysoitiin itsenäisesti, ja meta-analyysia käytettiin kolmen tulossarjan yhdistämiseen. Nämä tutkimukset suoritettiin asianmukaisten eettisten toimikuntien hyväksynnällä ja kaikkien osallistujien tietoisella suostumuksella.
Tässä tutkimuksessa käytetyt genotyyppitiedot ovat peräisin laajemmasta genotyypinmäärityshankkeesta, johon kuului seitsemän genotyypinmääritysaaltoa ja johon osallistui osallistujia vuosien 1988 ja 1990 aikuisten terveys- ja elämäntapatutkimuksistamme6 ja nuorten melanoomariskitekijöitä koskevasta tutkimuksestamme.7,8 Kustakin hankkeesta saadut genotyyppitiedot on kuvattu taulukossa 2. Kustakin hankkeesta saatuihin genotyyppeihin sovellettiin tavanomaisia laadunvalvontasuodattimia, joilla rajoitettiin imputointi näytteisiin ja SNP:iin, joiden tietojen laatu oli korkea (taulukko 2). Yksilöt seulottiin ei-eurooppalaisen syntyperän varalta, minkä tuloksena saatiin 16 140 genotyypillä varustettua yksilöä käsittävä otos (kuva S2, saatavilla verkossa). Jotta imputoituihin tietoihin ei tulisi vääristymiä, imputointiin käytettiin seitsemälle osaotokselle yhteistä SNP-joukkoa (n = 274 604). Imputointi suoritettiin HapMap-näytteiden (CEU; build 36, release 22) ja MACH:n vaiheittaisten tietojen avulla.9
Taulukko 2
Yhteenvetotiedot seitsemästä genotyypinmääritysaallosta ja suoritetusta laadunvalvonnasta
Projekti 1: ALCO CIDR | Hanke 2: ALCO deCODE | Hanke 3: MIG deCODE | Hanke 4: EUTWIN | Hanke 5: ADOL deCODE | Hanke 6: GL_CIDR | Hanke 7: WH deCODE | ||
---|---|---|---|---|---|---|---|---|
Primäärinen fenotyyppi | Alkoholin käyttö (väestöotos) | Alkoholin käyttö (väestöotos) | Migreeni (tapaus/kontrollinäyte) | Lipidipitoisuudet (väestöotos) | Melanoomanriskitekijät (väestöotos) | Glaukooma (väestöotos) | Naisten terveys (tapaus/kontrollinäyte) | |
Genotyypin määrityslaboratorio | CIDR | deCODE | deCODE | deCODE | Helsingin yliopisto | deCODE | CIDR | deCODE |
Illuminia SNP platform | HumanCNV370-Quadv3 | HumanCNV370-Quadv3 | Human610-Quad | Human 317K | Human610-Quad | Human610-Quad | Human610-Quad | |
Ei. genotyypitettyjen näytteiden määrä | 4241 | 2611 | 999 | 462 | 4391 | 657 | 2360 | |
No. of genotyped SNPs | 343,955 | 344,962 | 592,385 | 318,210 | 592,392 | 589,296 | 562,193 | |
BeadStudio GenCall score < 0.7 | 24,494 | 27,459 | 46,931 | NAa | 47,418 | 36,877 | 57,589 | |
SNP:t, joiden soittoprosentti < 0.95 | 11,584 | 7537 | 8038 | 5021 | 8447 | 12,455 | 33,459 | |
SNPs with HWE failure p < 10-6 | 4318 | 1194 | 1221 | 67 | 2841 | 15,474 | 1763 | |
SNPs with MAF < 0.01/ vain 1 havaittu alleeli | 7874 | 8976 | 33,347 | 264 | 33,347 | 28,607 | 24,509 | |
ei. SNP:iden määrä QC:n jälkeen | 323093 | 321,267 | 530,922 | 312,937 | 529,379 | 531,042 | 518,948 | |
Prosenttiosuus genotyypitetyistä SNP:istä | 93.93% | 93.13% | 89.62% | 98.34% | 89.36% | 90.11% | 92.31% |
Kunkin projektin osalta DNA:n uuttaminen suoritettiin vakiolaboratoriossa vakiolaboratoriossa käytössä olevien standardiprotokollien mukaisesti. Kaikissa hankkeissa osallistujat genotyypitettiin Illuminan 317K-, 370K- tai 610K-SNP-alustoilla, ja genotyypit kutsuttiin Illumina BeadStudio -ohjelmistolla. Yksittäisten hankkeiden laadunvalvonnan (QC) jälkeen genotyypin määrityksen seitsemästä aallosta saadut tiedot yhdistettiin. Kuten kuvasta S1 käy ilmi, useat näytteet olivat päällekkäisiä eri genotyypinmäärityshankkeissa, mikä mahdollisti hankkeiden välisen laadunvalvonnan. Tietokokonaisuuksien yhdistämisen jälkeen tiedot seulottiin yksilöiden sisäisten puutteiden (>5 %, kun otetaan huomioon kullekin yksilölle genotyypillistettyjen SNP:iden määrä), sukupuu- ja sukupuuvirheiden sekä Mendelin virheiden varalta (kaikkien perheenjäsenten genotyypit tietyn SNP:n osalta poistettiin virheiden havaitsemisen yhteydessä). QC:n jälkeen tapauksissa, joissa yksi yksilö monotsygoottisesta kaksosparista oli genotyypitetty, genotyypit määritettiin kaksoiskaksoselle, jonka genotyyppiä ei ollut määritetty, ja näin saatiin 16 507 yksilön otos. Muiden kuin eurooppalaisten sukujuurien seulonnan jälkeen (kuva S2) lopulliseksi näytteeksi saatiin 16 140 yksilöä. HWE tarkoittaa Hardy-Weinburgin tasapainoa.
Jotta voisimme hyödyntää täysimääräisesti ordinaaliasteikosta saatavaa tietoa, tiedot analysoitiin monitekijäisellä kynnysarvomallilla, joka kuvaa diskreettejä ominaisuuksia heijastavan taustalla olevaa normaalia jakaumaa alttiudesta (tai tai alttiudesta). Passiivisuuden, joka edustaa kaikkien monitekijäisten vaikutusten summaa, oletetaan heijastavan suuren määrän geenien ja ympäristötekijöiden, joilla kullakin on pieni vaikutus, yhteenlaskettuja additiivisia vaikutuksia, ja sille on ominaista fenotyyppiset epäjatkuvuudet, jotka ilmenevät, kun passiivisuus saavuttaa tietyn kynnysarvon.10 Käytettiin totaalista assosiointitestiä, jossa kunkin SNP:n annostustieto (MACH mldose) otettiin vuorollaan mukaan kynnysarvomalliin, minkä tuloksena saatiin additiivinen assosiointitesti. Lisäksi sukupuolen ja iän kiinteät vaikutukset (sekä lineaariset että kvadraattiset vaikutukset) ja iän ja sukupuolen väliset vuorovaikutukset sisällytettiin kynnysarvomalleihin kaikissa data-analyyseissä siten, että perheen i yksilön j ominaisuusarvo parametrisoitiin seuraavasti: xij = βdose + βage + βage2 + βsex + βsex-age + μ. Osallistujien välinen sukulaisuus mallinnettiin eksplisiittisesti ottaen huomioon sukulaisparien sukupuoli, ja fenotyyppiset varianssit rajoitettiin ykköseen. Assosiointitestin tilasto laskettiin vertaamalla kyseisen SNP:n vaikutuksen sisältävän täyden mallin sopivuutta (miinus kaksi kertaa log-likelihood) sellaisen sisäkkäisen mallin sopivuuteen, jossa SNP:n vaikutus oli poistettu mallista. Log-likelihoodien ero noudattaa asymptoottista chi-neliöjakaumaa, jonka vapausasteet ovat yhtä suuret kuin kahden mallin estimoitujen parametrien ero (tässä tapauksessa yksi). Kolmen näytteen genomiset inflaatiokertoimet vaihtelivat 0,98:sta 1,02:een (kuva S3), mikä osoittaa, että testi kontrolloi oikein osallistujien sukulaisuutta ja että mahdollisilla teknisillä ja stratifikaatio-artefakteilla oli vähäinen vaikutus tuloksiin.
Neljä vahvasti korreloitunutta yhden nukleotidin polymorfismia (SNP) (rs17646946, rs11803731, rs4845418, rs12130862; r2 > 0,8, D′ > 0,95 HapMap CEU -näytteessä) kromosomissa 1q21.3 (kuva 1B) saavuttivat genominlaajuisen merkitsevyyskynnyksemme 5 × 10-8, joka korjaa ∼1 miljoonaa riippumatonta yhteistä varianttia genomissa11 (taulukko 3, kuva S4). Assosiaatio havaittiin kaikissa kolmessa näytteessä, mikä viittaa siihen, että vaikutus on vankka näytteiden välisille ikäeroille ja että vastuukynnysmalli huomioi näytteiden väliset erot fenotyyppisessä määrittelyssä. Kolmen näytteen meta-analyysi, jossa käytettiin N (yksilöt)-painotettua analyysia Metalissa (ks. Web-resurssit), johti erittäin merkitseviin p-arvoihin SNP:ille, jotka ovat tällä alueella ja jotka kuuluvat haplotyyppiin, joka on merkitty suoraan genotyypillä varustetulla SNP:llä rs17646946 (p = 1,5 × 10-31) (kuvat 1A ja 1B, taulukko 3). Alueen 1q21.3 assosiaatio keskittyy trikohyaliinigeeniin TCHH, ja se selittää ∼6 % varianssista (kuva 1E, taulukko 3). Lisäanalyysi osoitti, että haplotyyppitason assosiaatio ei tarjonnut lisää ennustusvoimaa. Parhaiden SNP:iden sisällyttäminen kovariaatteina analyyseihin ei tuottanut lisänäyttöä assosiaatiosta, mikä selittää täysin signaalin tällä lokuksella (kuva S5). Emme löytäneet todisteita epistaasista näiden SNP:iden ja minkään muun SNP:n välillä koko genomissa emmekä heterogeenisuudesta sukupuolten välillä (kuvat S5 ja S6). Lopuksi, vaikka koko alueen kopiolukuvaihtelun (CNV) analyysi murrosikäisten näytteessä löysi todisteita CNV:stä 18 henkilöllä, se oli liian harvinaista selittääkseen havaitun vaikutuksen (taulukko S2). Taulukossa S3 luetellaan kaikki SNP:t, joiden yhteenlaskettu p-arvo oli alle 1 × 10-5 meta-analyysissä. Toinen viittaava assosiaatioalue havaittiin kromosomissa 4q21.21 (rs1268789; p = 6,58 × 10-8), joka keskittyi Fraserin oireyhtymä 1:n geeniin FRAS1. Tarkastelimme meta-analyysissä myös näyttöä assosiaatiosta Fujimoton ym. 4 julkaiseman 170 kandidaattigeenin luettelon osalta (taulukko S4). TCHH-alueella havaitun assosiaation lisäksi voimakkaita assosiaatiosignaaleja havaittiin WNT10A:ssa, joka liittyy odonto-onyko-dermaaliseen dysplasiaan, jolle on ominaista kuiva tukka ja laaja valikoima ektodermaalisia fenotyyppejä12 (2q35; rs7349332; p = 1.36 × 10-6).
Genominlaajuisen assosiaatioanalyysin tulokset
(A) Manhattan-kuvaaja, jossa esitetään kolmen riippumattoman näytteen genominlaajuisen meta-analyysin tulokset hiusmorfologiasta. SNP:t, joiden p < 10-5 on korostettu vihreällä.
(B) Kromosomin 1 karyotyyppi, jossa korostuu alue 1q21.
(C) Alueellinen assosiaatio- ja linkitysepätasapainon kuvaaja 1q21-alueella. Eniten assosioitunut genotyyppinen SNP on esitetty sinisellä, ja jäljelle jäävien markkereiden väri kuvastaa kytkentäepätasapainoa (r2) kunkin paneelin ylimmän SNP:n kanssa (lisääntyvä punainen sävy liittyy lisääntyvään r2:een). Rekombinaationopeus (oikeanpuoleinen y-akseli) on piirretty vaaleansinisellä, ja se perustuu CEU:n HapMap-populaatioon. Kunkin geenin eksonit on esitetty pystysuorilla palkeilla, jotka perustuvat kaikkiin isomuotoihin, jotka ovat saatavilla maaliskuussa 2006 UCSC:n Genome Browser -kokoelmasta.
(D) TCHH:n SNP:n rs11803731 pieni alleelifrekvenssi, joka perustuu Human Genome Diversity Project -hankkeeseen.29
(E) Suorien (oranssit pylväät), aaltoilevien (vihreät pylväät) ja kiharaisten (siniset pylväät) hiusten frekvenssi rs11803731-genotyypin funktiona näytteessä, jossa ei ole sukua keskenään oleville henkilöille (n = 43; n = 493; n = 1132). Kun T-alleeleja on enemmän, suorien hiusten osuus kasvaa. Pystypalkit vastaavat 95 %:n luottamusväliä esiintyvyydelle.
Taulukko 3
Tiedot genominlaajuisesti merkitsevistä SNP:istä 1q21.3 alueella kolmessa näytteessä
rs17646946 | rs11803731 | rs4845418 | rs12130862 | ||
---|---|---|---|---|---|
Asiointi (bp) | 150,329,391 | 150,349,949 | 150,402,854 | 150,293,639 | |
Genotyyppi tai imputoitu | genotyyppi | imputoitu | imputoitu | imputoitu | |
Minor-(viite)alleeli | T | C | T | ||
Major-alleeli | G | A | A | G | A |
18.3 % | 18.4 % | 17.3 % | 18.1 % | ||
Hardy-Weinburgin tasapaino p-arvo | 0.73 | 0.75 | 0.70 | 0.79 | |
Rsq (imputointitarkkuuden mittari) | – | 0.92 | 0.96 | 0.98 | |
Nuorten otos (n = 1649) | |||||
Allelivaikutus (β)a | 0.41 | 0.42 | 0.42 | 0.39 | |
P-arvo | 1.24 × 10-11 | 1.76 × 10-11 | 3.68 × 10-11 | 7.59 × 10-11 | |
Aikuinen S1 (n = 1945) | |||||
0.50 | 0.49 | 0.45 | |||
P-arvo | 8.18 × 10-13 | 2.51 × 10-12 | 2.22 × 10-11 | 9.69 × 10-11 | |
Aikuinen S2 (n = 1251) | |||||
0.44 | 0.44 | 0.43 | 0.42 | ||
P-arvo | 7.91 × 10-11 | 1.37 × 10-10 | 1.15 × 10-9 | 8.16 × 10-10 | |
Ositteiden väliset laskelmat | |||||
6.11% | 6.11% | 5.79% | 5.22% | ||
Meta-analyysi (p-arvo) | 1.50 × 10-31 | 3.18 × 10-31 | 4.43 × 10-29 | 3.12 × 10-28 |
1q21-alueen neljästä eniten assosioituneesta SNP:stä keskityimme rs11803731:een (p = 3,2 × 10-31), koska tämä on koodaava, ei-synonyymi variantti, joka sijaitsee TCHH:n kolmannessa eksonissa (vaikkakin tarvitaan vielä lisätyötä sen vahvistamiseksi, että tämä on kausaalinen variantti). T-alleeli rs11803731:ssä on johdettu tila, ja sillä on silmiinpistävä maantieteellinen spesifisyys Eurooppaan ja Länsi- ja Keski-Aasiaan, ja sen esiintyvyys on korkeimmillaan pohjoiseurooppalaisilla (kuva 1E), mikä viittaa siihen, että variantti on syntynyt jossain tällä laajalla alueella. De novo -mutaatioiden nykyaikainen esiintymistiheys ja jakautuminen määräytyvät yleensä satunnaisen geneettisen ajelehtimisen ja muuttoliikkeen perusteella. Koska rs11803731 vaikuttaa hyvin näkyvään fenotyyppiin, se on kuitenkin intuitiivisesti ilmeinen kohde luonnolliselle tai seksuaaliselle valinnalle.13 Hiusten paksuutta kontrolloivassa EDAR-geenissä on yksi vakuuttavimmista positiivisen valinnan merkeistä itäaasialaisessa genomissa.4 rs11803731 on 2,5 %:n suurimmassa määrin eriytyneiden SNP:iden joukossa koko genomissa eurooppalaisten ja muiden Haapmap II -populaatioiden välillä (FST:hen perustuvalla lokuspesifisellä haaran pituustestillä14 mitattuna). Vaikka aiempi analyysi laajennettujen haplotyyppien homotsygoottiuskuvioista Human Genome Diversity Project (HGDP) -kohortissa osoittaa myös alustavaa näyttöä geneettisestä liftaamisesta 1q21.3-alueella joissakin eurooppalaisissa populaatioissa (viite 15 ja kuva S7), yleinen näyttö valinnasta on epäselvä. Nykyisillä testeillä havaitut positiivisen valinnan geneettiset merkit yksittäisissä lokuksissa vaihtelevat kuitenkin riippuen valintatapahtuman ajoituksesta, voimakkuudesta, alueen genomin ominaispiirteistä ja kyseisen fenotyypin geneettisestä arkkitehtuurista (kausaalilokusten lukumäärä, frekvenssi ja vaikutuskoko)16 , eivätkä ne näin ollen välttämättä ole yhtä ilmeisiä kuin muihin pinnallisiin ominaisuuksiin liittyvät merkit. Esimerkiksi OCA2-geenin alue on vakiintunut valinnan kohde17 , ja sen tiedetään vaikuttavan ihmisen pigmenttiominaisuuksiin, erityisesti silmien väriin.18,19
Rs11803731-muunnoksen, joka tarkoittaa leusiinin korvautumista metioniinilla TCHH-proteiinin positiossa 790, vaikutusta ennustettiin in silico -analyyseillä, jotka tehtiin PolyPhen20- ja PMut-ohjelmilla.21 PolyPhen-ohjelmalla L790M-muutos ennustettiin ”hyvänlaatuiseksi”, kun taas PMut-ohjelmalla muutosta arvioitiin ”neutraaliksi”. Muilla ennustusohjelmilla, mukaan lukien SIFT22 (ks. www-resurssit) (jossa käytettiin joko SNP-tunnusta tai proteiinisekvenssiä) ja SNPs3D23 (ks. www-resurssit), jotka eivät sisältäneet tietoa rs11803731 SNP:stä, ei saatu tuloksia. Tällaiset ennusteet eivät sulje pois funktionaalista roolia, koska SNP:n vaikutus voi olla pikemminkin säätely- kuin rakennevaikutus, varsinkin kun aminohappojen korvaaminen osuu α-helikaalisten alueiden ulkopuolelle.23 Pinnalle altistuvat metioniinit voivat hapettua reaktiivisten happilajien toimesta posttranslationaalisesti, mikä korjaamatta jätettynä voi johtaa proteiinien rakenteen ja aktiivisuuden muutoksiin ja johtaa proteiinien muuttuneeseen säätelyyn.24
Vaihtoehtoisesti rs11803731:llä voi olla yhteys rakenteelliseen vaihteluun. TCHH on yksisäikeinen α-helikaalinen proteiini, jossa on lajista riippuen kaksi tai kolme voimakkaasti toistuvaa aluetta (kuva S8). Lampaiden referenssiproteiini (CAA79165.1) on 1549 aminohapon pituinen, mutta C-terminaalisen toistoalueen täydellisten ja osittaisten toistojen määrä vaihtelee eri kannoissa.25,26 Ihmisen TCHH-proteiinissa toistojen pituudet vaihtelevat noin 6-30 aminohapon välillä, mikä vastaa 18-90 bp:n DNA-sekvenssiä. Erityisesti ensimmäisellä ja kolmannella toistuvuusalueella on useita SNP:itä ja insertio- tai deleetio-polymorfismeja (dbSNP; ks. verkkolähteet), ja tässä geenissä saattaa esiintyä alleelipituusvariantteja, kuten on havaittu lampailla ja toisessa ihmisen kromosomin 1p21 alueella sijaitsevassa erittäin toistuvassa geenissä, involukriinissa (IVL), jossa alleelit eroavat ihmispopulaatioiden välillä sekä lyhyiden tandemtoistojen että yhden emäksen muutosten määrässä toistuvassa sekvenssissä27,28 . Tällaista pituusvaihtelua ei ole raportoitu TCHH:n osalta, ja on vielä määriteltävä kokeellisesti, onko tällainen vaihtelu yleistä, vaikuttaako se proteiinin rakenteeseen tai pituuteen ja/tai ovatko toistuvia alueita reunustavien SNP:iden merkitsemiä.
Johtopäätöksenä raportoimme kvantitatiivisen ominaisuuslokuksen, joka vaikuttaa hiusmuotoon eurooppalaisilla. Assosiaatio selittää ∼6 % hiusmorfologian varianssista tässä ryhmässä, ja se kuuluu trikohyaliinigeeniin, jolla on tunnetusti rooli hiusten muodostuksessa. Alleelien frekvenssien mallit ovat silmiinpistäviä, ja näiden varianttien korkein frekvenssi havaittiin pohjoiseurooppalaisilla (kuva 1), mikä on samansuuntainen kuin havainto suorien hiusten EDAR-muunnoksesta aasialaisissa väestöissä (kuva S9).