PMC

author
13 minutes, 47 seconds Read

Hlavní text

Morfologie vlasů je jedním z nápadnějších rysů lidské variability a je obzvláště rozmanitá u lidí evropského původu, u nichž má přibližně 45 % jedinců rovné vlasy, 40 % vlnité vlasy a 15 % kudrnaté vlasy.1 Stupeň kudrnatosti koreluje s rozložením vlasových keratinů a typem buněk ve vlasovém vlákně, přičemž počet mezokortikálních buněk klesá s intenzitou kudrnatosti.2 Nedávné studie identifikovaly asijsky specifické alely genů EDAR a FGFR2, které jsou spojeny s hustými, rovnými vlasy, což naznačuje, že tyto varianty vznikly po divergenci Asiatů a Evropanů.3,4 Genetické varianty ovlivňující kudrnatost vlasů u Evropanů (která se ukázala jako vysoce dědičná5) však nejsou známy.

Provedli jsme celogenomové asociační analýzy ve třech australských rodinných vzorcích: jeden vzorek dospívajících dvojčat a jejich sourozenců (1649 jedinců z 837 rodin) a dva vzorky dospělých dvojčat (S1, 1945 jedinců z 1210 rodin; S2, 1251 jedinců z 845 rodin) zjištěných z obecné populace (tabulka 1).5 Ve vzorku dospívajících byla kudrnatost vlasů hodnocena na tříbodové stupnici (rovné, vlnité nebo kudrnaté). Ve vzorku dospělých účastníci uváděli, zda jsou jejich vlasy rovné nebo kudrnaté (S1) nebo rovné, vlnité nebo kudrnaté (S2). Pro zohlednění rozdílů ve sběru fenotypů a věku napříč vzorky byl každý vzorek analyzován nezávisle a pro kombinaci tří souborů výsledků byla použita metaanalýza. Tyto studie byly provedeny se souhlasem příslušných etických komisí a s informovaným souhlasem všech účastníků.

Genotypová data použitá v současné studii pocházejí z většího projektu genotypizace zahrnujícího sedm vln genotypizace, který čerpal účastníky z našich studií zdraví a životního stylu dospělých z let 1988 a 19906 a ze studie rizikových faktorů melanomu u dospívajících.7,8 Genotypová data z každého projektu jsou popsána v tabulce 2. Na genotypizaci z každého projektu byly použity standardní filtry kontroly kvality, které omezily imputaci na vzorky a SNP s vysokou kvalitou dat (tabulka 2). U jedinců byl proveden screening na neevropský původ, jehož výsledkem byl vzorek 16 140 genotypovaných jedinců (obrázek S2, dostupný online). Aby do imputovaných dat nebylo vneseno zkreslení, byl pro imputaci použit soubor SNP společný pro sedm podvzorků (n = 274 604). Imputace byla provedena s využitím fázovaných dat ze vzorků HapMap evropského původu (CEU; build 36, release 22) a MACH.9

Tabulka 2

Souhrnné informace pro sedm vln genotypování a provedenou kontrolu kvality

Projekt 1: ALCO CIDR Projekt 2: ALCO deCODE Projekt 3: MIG deCODE Projekt 4: EUTWIN Projekt 5: ADOL deCODE Projekt 6: GL_CIDR Projekt 7: WH deCODE
Primární fenotyp Užívání alkoholu (vzorek populace) Užívání alkoholu (vzorek populace) Migréna (vzorek případů/kontrol) Hladina lipidů (vzorek populace) Rizikové faktory melanomu (vzorek populace) Glaukom. (populační vzorek) Zdraví žen (případový/kontrolní vzorek)
Laboratoř pro genotypizaci CIDR deCODE deCODE University of Helsinki deCODE CIDR deCODE
Illuminia SNP platform HumanCNV370-Quadv3 HumanCNV370-Quadv3 Human610-Quad Human 317K Human610-Quad Human610-Quad Human610-Quad Human610-Quad
Č. genotypovaných vzorků 4241 2611 999 462 4391 657 2360
Čís. genotypovaných SNP 343,955 344,962 592,385 318,210 592,392 589,296 562,193
BeadStudio GenCall score < 0.7 24,494 27,459 46,931 NAa 47,418 36,877 57,589
SNPs s call rate < 0.95 11,584 7537 8038 5021 8447 12,455 33,459
SNP se selháním HWE p < 10-6 4318 1194 1221 67 2841 15,474 1763
SNPs s MAF < 0.01/ pouze 1 pozorovaná alela 7874 8976 33,347 264 33,347 28,607 24,509
Ne. SNP po QC 323093 321,267 530,922 312,937 529,379 531,042 518,948
Podíl genotypovaných SNP 93.93% 93,13% 89,62% 98,34% 89,36% 90,11% 92,31%

Pro každý projekt byla DNA extrahována podle standardních protokolů. Napříč projekty byli účastníci genotypováni na platformách Illumina 317K, 370K nebo 610K SNP a genotypy byly vyvolány pomocí softwaru Illumina BeadStudio. Po kontrole kvality (QC) jednotlivých projektů byla data ze sedmi vln genotypování integrována. Jak ukazuje obrázek S1, řada vzorků byla mezi jednotlivými projekty genotypování duplicitní, což umožnilo kontrolu kvality napříč projekty. Po integraci souborů dat byla data zkontrolována na chybějící údaje v rámci jedinců (>5 %, s přihlédnutím k počtu SNP, které byly genotypovány pro každého jedince), rodokmenové a pohlavní chyby a mendelovské chyby (při zjištění chyb byly odstraněny genotypy pro všechny členy rodiny pro daný SNP). Po kontrole kvality byly v případech, kdy byl genotypován jeden jedinec z páru jednovaječných dvojčat, přiřazeny duplicitní genotypy negenotypovanému dvojčeti, což vedlo k získání vzorku 16 507 jedinců. Po screeningu na neevropský původ (obrázek S2) byl výsledný vzorek 16 140 jedinců. HWE označuje Hardy-Weinburgovu rovnováhu.

Data aGenCall nebyla pro tento vzorek k dispozici.

Abychom mohli plně využít informace dostupné v ordinální škále, byla data analyzována pomocí multifaktorového prahového modelu, který popisuje diskrétní znaky jako odraz základního normálního rozdělení odpovědnosti (nebo predispozice). Předpokládá se, že odpovědnost, která představuje součet všech multifaktoriálních účinků, odráží kombinované aditivní účinky velkého počtu genů a faktorů prostředí, z nichž každý má malý účinek, a je charakterizována fenotypovou diskontinuitou, která nastává, když odpovědnost dosáhne daného prahu.10 Byl použit celkový test asociace, v němž byly údaje o dávkování (MACH mldose) pro každý SNP postupně zahrnuty do prahového modelu, což vedlo k aditivnímu testu asociace. Kromě toho byly do všech analýz dat s prahovými modely zahrnuty fixní efekty pohlaví a věku (lineární i kvadratické efekty) a interakce mezi věkem a pohlavím, takže hodnota znaku pro jedince j z rodiny i byla parametrizována jako: xij = βdose + βage + βage2 + βsex + βsex-age + μ. Příbuznost mezi účastníky byla explicitně modelována s přihlédnutím k pohlaví příbuzenských párů a fenotypové rozptyly byly omezeny na jednotku. Statistika testu asociace byla vypočtena porovnáním shody (minus dvojnásobek logaritmické pravděpodobnosti) úplného modelu, který zahrnoval účinek daného SNP, se statistikou vnořeného modelu, v němž byl účinek SNP z modelu vypuštěn. Rozdíl logaritmických pravděpodobností se řídí asymptotickým chí-kvadrát rozdělením se stupni volnosti rovnými rozdílu odhadovaných parametrů mezi oběma modely (v tomto případě jeden). Koeficienty genomové inflace tří vzorků se pohybovaly od 0,98 do 1,02 (obrázek S3), což naznačuje, že test správně kontroloval příbuznost účastníků a že případné technické a stratifikační artefakty měly na výsledky zanedbatelný vliv.

Čtyři vysoce korelované jednonukleotidové polymorfismy (SNP) (rs17646946, rs11803731, rs4845418, rs12130862; r2 > 0,8, D′ > 0,95 v rámci vzorku HapMap CEU) na chromozomu 1q21.3 (obrázek 1B) dosáhly našeho celogenomového prahu významnosti 5 × 10-8, který koriguje ∼1 milion nezávislých společných variant v genomu11 (tabulka 3, obrázek S4). Asociace byla nalezena ve všech třech vzorcích, což naznačuje, že účinek je robustní vůči věkovým rozdílům mezi vzorky a že model prahu odpovědnosti zohlednil rozdíly ve fenotypové definici napříč vzorky. Metaanalýza tří vzorků pomocí analýzy vážené N (jedinci) v Metalu (viz webové zdroje) vedla k vysoce významným hodnotám p pro SNP, které se nacházejí v této oblasti a spadají do haplotypu označeného přímo genotypovaným SNP rs17646946 (p = 1,5 × 10-31) (obrázky 1A a 1B, tabulka 3). Asociace v oblasti 1q21.3 je soustředěna na trichohyalinový gen TCHH a představuje ∼6 % rozptylu (obrázek 1E, tabulka 3). Další analýza ukázala, že asociace na úrovni haplotypu nenabízí další prediktivní sílu. Zahrnutí nejlepších SNP jako kovariát do analýz nepřineslo žádný další důkaz asociace a zcela zohlednilo signál na tomto lokusu (obrázek S5). Nenašli jsme ani důkaz epistáze mezi těmito SNP a jakýmikoli jinými SNP napříč genomem, ani žádnou heterogenitu mezi pohlavími (obrázky S5 a S6). A konečně, ačkoli analýza variability počtu kopií (CNV) v celé oblasti ve vzorku adolescentů našla důkazy pro CNV u 18 jedinců, byla příliš řídká na to, aby vysvětlila pozorovaný účinek (tabulka S2). Tabulka S3 uvádí všechny SNP s kombinovanou hodnotou p menší než 1 × 10-5 pro metaanalýzu. Druhá oblast se sugestivní asociací byla pozorována na chromozomu 4q21.21 (rs1268789; p = 6,58 × 10-8), soustředěná na gen FRAS1 pro Fraserův syndrom. Důkazy o asociaci jsme v rámci metaanalýzy zkoumali také u seznamu 170 kandidátních genů, který zveřejnili Fujimoto et al.4 (tabulka S4). Kromě asociace pozorované v oblasti TCHH byly silné asociační signály pozorovány u genu WNT10A spojeného s odonto-onycho-dermální dysplazií, která je charakterizována suchými vlasy a širokou škálou ektodermálních fenotypů12 (2q35; rs7349332; p = 1.36 × 10-6).

Výsledky celogenomové asociace

(A) Manhattanův graf zobrazující výsledky celogenomové metaanalýzy morfologie vlasů u tří nezávislých vzorků. SNP s p < 10-5 jsou zvýrazněny zeleně.

(B) Karyotyp chromozomu 1 se zvýrazněním oblasti 1q21.

(C) Graf regionální asociace a vazebné nerovnováhy pro oblast 1q21. Nejvíce asociovaný genotyp SNP je zobrazen modře a barva zbývajících markerů odráží vazebnou nerovnováhu (r2) s nejvyšším SNP v každém panelu (rostoucí červený odstín souvisí s rostoucím r2). Míra rekombinace (pravá osa y) je vynesena světle modře a vychází z populace CEU HapMap. Exony pro každý gen jsou znázorněny svislými sloupci na základě všech izoforem dostupných ze sestavy UCSC Genome Browser z března 2006.

(D) Frekvence minoritních alel pro TCHH SNP rs11803731 na základě Human Genome Diversity Project.29

(E) Frekvence rovných (oranžové sloupce), vlnitých (zelené sloupce) a kudrnatých (modré sloupce) vlasů v závislosti na genotypu rs11803731 ve vzorku nepříbuzných jedinců (n = 43; n = 493; n = 1132). S větším počtem alel T se zvyšuje podíl rovných vlasů. Svislé sloupce odpovídají 95% intervalům spolehlivosti prevalence.

Tabulka 3

Podrobnosti o celogenomově významných SNP v 1q21.3 napříč třemi vzorky

.

rs17646946 rs11803731 rs4845418 rs12130862
Pozice (bp) 150,329,391 150,349,949 150,402,854 150,293,639
Genotypovaná nebo imputovaná genotypovaná imputovaná imputovaná imputovaná
Minoritní (referenční) alela A T C T
Hlavní alela G A G A
Menší frekvence alel 18.3% 18,4% 17,3% 18,1%
Hardy-Weinburgova rovnováha p hodnota 0.73 0,75 0,70 0,79
Rsq (metrika přesnosti imputace) 0.92 0,96 0,98
Vzorek dospívajících (n = 1649)
Alelický efekt (β)a 0.41 0,42 0,42 0,39
P-hodnota 1,24 × 10-11 1,76 × 10-11 3,68 × 10-11 7.59 × 10-11
Dospělý S1 (n = 1945)
Alelický efekt (β)a 0.50 0,50 0,49 0,45
P-hodnota 8,18 × 10-13 2,51 × 10-12 2,22 × 10-11 9.69 × 10-11
Dospělý S2 (n = 1251)
Alelický efekt (β)a 0.44 0,44 0,43 0,42
P-hodnota 7,91 × 10-11 1,37 × 10-10 1,15 × 10-9 8.16 × 10-10
Výpočty napříč vzorky
Vysvětlený rozptylb zprůměrovaný napříč vzorky 6.11% 6,11% 5,79% 5,22%
Meta analýza (p hodnota) 1,50 × 10-31 3,18 × 10-31 4,43 × 10-29 3.12 × 10-28
aZde uváděné alelické β je třeba interpretovat s ohledem na model prahu odpovědnosti, který mapuje data na standardní normální rozdělení, v němž jsou body řezu mezi kategoriemi mapovány proti z rozdělení. Například β 0,41 znamená, že práh oddělující rovné kategorie od vlnitých je posunut o 0,41 z jednotek doprava pro každou rizikovou alelu, kterou jedinec vlastní.
bVypočítáno jako β2, ve kterém p je frekvence minoritní alely a β je aditivní alelický efekt.

Ze čtyř nejvíce asociovaných SNP v oblasti 1q21 jsme se zaměřili na rs11803731 (p = 3,2 × 10-31), protože se jedná o kódující, nesynonymní variantu umístěnou ve třetím exonu TCHH (ačkoli k potvrzení, že se jedná o kauzální variantu, je třeba další práce). Alela T u rs11803731 je odvozený stav a vykazuje nápadnou geografickou specifičnost pro Evropu a západní a střední Asii, přičemž nejvyšší frekvence dosahuje u Severoevropanů (obr. 1E), což naznačuje, že varianta vznikla někde v této široké oblasti. Moderní frekvence a distribuce de novo mutací bude obecně určena náhodným genetickým driftem a migrací. Protože však rs11803731 ovlivňuje dobře viditelný fenotyp, je intuitivně zřejmým cílem přirozeného nebo pohlavního výběru.13 Gen EDAR, který řídí tloušťku vlasů, vykazuje jeden z nejpřesvědčivějších znaků pozitivní selekce ve východoasijském genomu.4 Rs11803731 patří mezi 2,5 % nejvíce diferencovaných SNP napříč genomem mezi Evropany a ostatními populacemi Hapmap II (měřeno testem délky větví specifickým pro lokus na základě FST14). Ačkoli předchozí analýza rozšířených vzorců homozygotnosti haplotypů v kohortě Human Genome Diversity Project (HGDP) také ukazuje předběžné důkazy o genetickém autostopu pro oblast 1q21.3 v některých evropských populacích (ref. 15 a obr. S7), celkové důkazy o selekci jsou nejednoznačné. Genetické znaky pozitivní selekce v jednotlivých lokusech, zjištěné současnými testy, se však budou lišit v závislosti na načasování, síle selekční události, genomické charakteristice oblasti a genetické architektuře (počet, frekvence a velikost účinku kauzálních lokusů) daného fenotypu16 , a proto nemusí být tak zřejmé jako znaky spojené s jinými povrchovými znaky. Například oblast genu OCA2 je dobře známým cílem selekce17 a je známo, že ovlivňuje lidské pigmentační znaky, zejména barvu očí.18,19

Vliv varianty rs11803731, záměny leucinu za methionin na pozici 790 proteinu TCHH, byl předpovězen analýzami in silico pomocí programů PolyPhen20 a PMut.21 PolyPhen předpověděl změnu L790M jako „benigní“, zatímco PMut předpověděl tuto změnu jako „neutrální“. U ostatních predikčních programů, včetně SIFT22 (viz webové zdroje) (s použitým ID SNP nebo sekvencí proteinu) a SNPs3D23 (viz webové zdroje), které neobsahovaly žádný záznam o SNP rs11803731, nebyly vráceny žádné výsledky. Takové předpovědi nevylučují funkční roli, vzhledem k tomu, že účinek SNP může být spíše regulační než strukturní, zejména proto, že záměna aminokyseliny spadá mimo α-helikální oblasti.23 Povrchově exponované methioniny mohou být posttranslačně oxidovány reaktivními formami kyslíku, což, pokud není opraveno, může vést ke změnám struktury a aktivity proteinu a může vést ke změně regulace proteinu.24

Alternativně může být rs11803731 spojen se strukturní variací. TCHH je jednovláknový α-helikální protein se dvěma nebo třemi vysoce repetitivními oblastmi v závislosti na druhu (obrázek S8). U ovcí je referenční protein (CAA79165.1) dlouhý 1549 aminokyselin, ale u různých kmenů jsou patrné rozdíly v počtu úplných a částečných opakování v C-koncové oblasti opakování.25,26 U lidského proteinu TCHH se délka opakování pohybuje přibližně od 6 do 30 aminokyselin, což odpovídá 18 až 90 bp sekvence DNA. Vyskytuje se řada SNP a polymorfismů inzerce nebo delece, zejména v první a třetí oblasti repetic (dbSNP; viz webové zdroje), a tento gen může obsahovat varianty délky alel, jak bylo pozorováno u ovcí a u dalšího vysoce repetitivního genu v oblasti lidského chromozomu 1p21, involukrinu (IVL), kde se alely napříč lidskými populacemi liší jak v počtu krátkých tandemových repetic, tak ve změnách jednotlivých bází v rámci opakované sekvence.27,28 Takové délkové rozdíly nebyly u TCHH zaznamenány a je třeba experimentálně zjistit, zda jsou tyto rozdíly běžné, zda ovlivňují strukturu nebo délku proteinu a/nebo zda jsou značeny SNP lemujícími opakující se oblasti.

Závěrem uvádíme kvantitativní znakový lokus, který ovlivňuje tvar vlasů u Evropanů. Asociace odpovídá za ∼6 % variability v morfologii vlasů v této skupině a spadá do genu pro trichohyalin, který má známou roli při tvorbě vlasů. Vzorce frekvencí alel jsou nápadné, přičemž nejvyšší frekvence těchto variant byla pozorována u Severoevropanů (obrázek 1), což je paralelní s pozorováním varianty EDAR pro rovné vlasy u asijských populací (obrázek S9).

Similar Posts

Napsat komentář

Vaše e-mailová adresa nebude zveřejněna.