PMC

author
13 minutes, 8 seconds Read

Main Text

Morfologia włosów jest jedną z bardziej rzucających się w oczy cech ludzkiej zmienności i jest szczególnie zróżnicowana wśród osób o europejskim pochodzeniu, u których około 45% osób ma włosy proste, 40% – faliste, a 15% – kręcone.1 Stopień skrętu włosów jest skorelowany z rozmieszczeniem keratyn i typem komórek we włóknie włosa, przy czym liczba komórek mezokortykalnych maleje w miarę nasilania się skrętu.2 W ostatnich badaniach zidentyfikowano specyficzne dla Azji allele genów EDAR i FGFR2, które wiążą się z gęstymi, prostymi włosami, co sugeruje, że warianty te powstały po dywergencji Azjatów i Europejczyków.3,4 Nieznane są jednak warianty genetyczne wpływające na kędzierzawość włosów u Europejczyków (która, jak wykazano, jest w wysokim stopniu dziedziczna5).

Wykonaliśmy analizy asocjacji na poziomie genomu w trzech australijskich próbach rodzinnych: jednej próbie młodocianych bliźniąt i ich rodzeństwa (1649 osób z 837 rodzin) oraz dwóch próbach dorosłych par bliźniąt (S1, 1945 osób z 1210 rodzin; S2, 1251 osób z 845 rodzin) ustalonych na podstawie populacji ogólnej (Tabela 1).5 W próbie młodocianych kędzierzawość włosów oceniano w trzypunktowej skali (proste, faliste lub kręcone). W próbce dorosłych uczestnicy określali, czy ich włosy są proste, kręcone (S1) lub proste, faliste czy kręcone (S2). Aby uwzględnić różnice w kolekcji fenotypów i wieku w próbkach, każda próbka była analizowana niezależnie, a metaanaliza została użyta do połączenia trzech zestawów wyników. Badania te zostały przeprowadzone za zgodą odpowiednich komisji etycznych i świadomą zgodą wszystkich uczestników.

Dane genotypowe wykorzystane w bieżącym badaniu pochodzą z większego projektu genotypowania obejmującego siedem fal genotypowania, które pobrały uczestników z naszych badań nad zdrowiem i stylem życia dorosłych z lat 1988 i 19906 oraz badania czynników ryzyka czerniaka u nastolatków.7,8 Dane genotypowe z każdego projektu opisano w Tabeli 2. Standardowe filtry kontroli jakości zostały zastosowane do genotypowania z każdego projektu, ograniczając imputację do próbek i SNP o wysokiej jakości danych (Tabela 2). Osoby zostały przesiewane pod kątem pochodzenia pozaeuropejskiego, w wyniku czego uzyskano próbę 16 140 genotypowanych osób (Figura S2, dostępna online). Aby nie wprowadzać uprzedzeń do danych imputowanych, zestaw SNP wspólnych dla siedmiu podpróbek został użyty do imputacji (n = 274,604). Imputacja została podjęta przy użyciu danych fazowych z próbek HapMap przodków europejskich (CEU; build 36, release 22) i MACH.9

Tabela 2

Summary Information for the Seven Waves of Genotyping and the Quality Control Undertaken

.

Projekt 1: ALCO CIDR Projekt 2: ALCO deCODE Projekt 3: MIG deCODE Projekt 4: EUTWIN Projekt 5: ADOL deCODE Projekt 6: GL_CIDR Projekt 7: (próba populacyjna) Zdrowie kobiet (próba przypadków/kontroli)
Laboratorium genotypowania CIDR deCODE deCODE University of Helsinki deCODE CIDR deCODE
Illuminia SNP platform HumanCNV370-.Quadv3 HumanCNV370-Quadv3 Human610-Quad Human 317K Human610-Quad Human610-Quad Human610-Quad
No. of genotyped samples 4241 2611 999 462 4391 657 2360
No. of genotyped SNPs 343,955 344,962 592,385 318,210 592,392 589,296 562,193
BeadStudio GenCall score < 0.7 24,494 27,459 46,931 NAa 47,418 36,877 57,589
SNPs with call rate < 0.95 11,584 7537 8038 5021 8447 12,455 33,459
SNPs with HWE failure p < 10-6 4318 1194 1221 67 2841 15,474 1763
SNPs with MAF < 0.01/ only 1 observed allele 7874 8976 33,347 264 33,347 28,607 24,509
No. of SNPs after QC 323093 321,267 530,922 312,937 529,379 531,042 518,948
Percentage of genotyped SNPs 93.93% 93,13% 89,62% 98,34% 89,36% 90,11% 92,31%

W przypadku każdego projektu DNA ekstrahowano zgodnie ze standardowymi protokołami. We wszystkich projektach uczestnicy zostali poddani genotypowaniu na platformach Illumina 317K, 370K lub 610K SNP, a genotypy zostały nazwane za pomocą oprogramowania Illumina BeadStudio. Po kontroli jakości (QC) poszczególnych projektów, dane z siedmiu fal genotypowania zostały zintegrowane. Jak pokazano na Rysunku S1, pewna liczba próbek została zduplikowana między różnymi projektami genotypowania, co pozwoliło na krzyżowe QC projektów. Po zintegrowaniu zestawów danych, dane zostały sprawdzone pod kątem brakujących danych w obrębie jednostek (>5%, biorąc pod uwagę liczbę SNP, które były genotypowane dla każdego osobnika), błędów rodowodowych i płciowych oraz błędów Mendla (genotypy dla wszystkich członków rodziny dla danego SNP zostały usunięte po wykryciu błędów). Po QC, w przypadkach, gdy jeden osobnik z pary bliźniąt monozygotycznych był genotypowany, zduplikowane genotypy zostały przypisane do niegenotypowanego bliźniaka, co dało próbę 16 507 osobników. Po przesiewaniu dla pozaeuropejskiego rodowodu (Figura S2), dało to ostateczną próbę 16 140 osób. HWE oznacza równowagę Hardy’ego-Weinburga.

aGenCall dane nie były dostępne dla tej próbki.

Aby w pełni wykorzystać informacje dostępne w skali porządkowej, dane zostały przeanalizowane za pomocą wieloczynnikowego modelu progowego, który opisuje cechy dyskretne jako odzwierciedlające leżący u podstaw normalny rozkład odpowiedzialności (lub predyspozycji). Zakłada się, że odpowiedzialność, która reprezentuje sumę wszystkich wieloczynnikowych efektów, odzwierciedla połączone addytywne efekty dużej liczby genów i czynników środowiskowych, z których każdy ma niewielki wpływ, i charakteryzuje się fenotypowymi nieciągłościami, które występują, gdy odpowiedzialność osiąga dany próg.10 Zastosowano całkowity test asocjacji, w którym dane dotyczące dawki (MACH mldose) dla każdego SNP po kolei zostały włączone do modelu progowego, co spowodowało addytywny test asocjacji. Dodatkowo, stałe efekty płci i wieku (zarówno efekty liniowe, jak i kwadratowe) oraz interakcje wiek-płeć zostały włączone do modeli progowych we wszystkich analizach danych, w taki sposób, że wartość cechy dla osobnika j z rodziny i była sparametryzowana jako: xij = βdose + βage + βage2 + βsex + βsex-age + μ. Pokrewieństwo między uczestnikami było jawnie modelowane, z uwzględnieniem płci par krewniaczych, a wariancje fenotypowe były ograniczone do jedności. Statystyka testu asocjacyjnego została obliczona przez porównanie dopasowania (minus dwukrotność log-likelihood) pełnego modelu, który zawierał efekt danego SNP, z modelem zagnieżdżonym, w którym efekt SNP został usunięty z modelu. Różnica log-likelihoodów ma rozkład asymptotyczny chi kwadrat o stopniach swobody równych różnicy szacowanych parametrów między dwoma modelami (w tym przypadku jeden). Genomowe współczynniki inflacji trzech próbek wahały się od 0,98 do 1,02 (Figura S3), wskazując, że test prawidłowo kontrolował pokrewieństwo uczestników i że potencjalne artefakty techniczne i stratyfikacyjne miały nieistotny wpływ na wyniki.

Cztery wysoce skorelowane polimorfizmy pojedynczego nukleotydu (SNPs) (rs17646946, rs11803731, rs4845418, rs12130862; r2 > 0,8, D′ > 0,95 w obrębie próbki HapMap CEU) na chromosomie 1q21.3 (Figura 1B) osiągnęła nasz próg istotności dla całego genomu wynoszący 5 × 10-8, który koryguje dla ∼ 1 miliona niezależnych wspólnych wariantów w genomie11 (Tabela 3, Figura S4). Asocjację stwierdzono we wszystkich trzech próbkach, sugerując, że efekt jest odporny na różnice wiekowe między próbkami i że model progu odpowiedzialności uwzględniał różnice w definicji fenotypu w próbkach. Metaanaliza trzech próbek przy użyciu analizy ważonej N (osób) w programie Metal (patrz Zasoby internetowe) dała wysoce istotne wartości p dla SNP, które znajdują się w tym regionie i należą do haplotypu oznaczonego przez bezpośrednio genotypowany SNP rs17646946 (p = 1,5 × 10-31) (ryc. 1A i 1B, tabela 3). Asocjacja w regionie 1q21.3 jest skoncentrowana na genie trichohialiny TCHH i odpowiadała za ∼6% wariancji (Rycina 1E, Tabela 3). Dalsza analiza wykazała, że asocjacja na poziomie haplotypów nie zapewniała dodatkowej mocy predykcyjnej. Włączenie najlepszych SNP jako zmiennych w analizach nie przyniosło dalszych dowodów na asocjację, całkowicie rozliczając sygnał w tym locus (Figura S5). Nie znaleźliśmy dowodów na epistazę między tymi SNP a jakimkolwiek innym SNP w całym genomie ani na heterogeniczność między płciami (Figura S5 i S6). Wreszcie, chociaż analiza zmian liczby kopii (CNV) w całym regionie w próbce młodzieży znalazła dowody na CNV u 18 osób, były one zbyt rzadkie, aby wyjaśnić obserwowany efekt (Tabela S2). W tabeli S3 wymieniono wszystkie SNP o łącznej wartości p mniejszej niż 1 × 10-5 dla metaanalizy. Drugi region sugestywnej asocjacji zaobserwowano na chromosomie 4q21.21 (rs1268789; p = 6,58 × 10-8), skoncentrowany na genie zespołu Frasera 1 FRAS1. Zbadaliśmy również dowody na asocjację w ramach metaanalizy dla listy 170 genów kandydujących opublikowanej przez Fujimoto i wsp.4 (Tabela S4). Oprócz asocjacji zaobserwowanej w regionie TCHH, silne sygnały asocjacyjne zaobserwowano w WNT10A, związanym z dysplazją odonto-onycho-dermalną, która charakteryzuje się suchymi włosami i szerokim zakresem fenotypów ektodermalnych12 (2q35; rs7349332; p = 1.36 × 10-6).

Genome-wide Association Results

(A) Manhattan plot showing the results for the genome-wide meta-analysis of hair morphology across three independent samples. SNPs z p < 10-5 są zaznaczone na zielono.

(B) Kariotyp chromosomu 1 z zaznaczonym regionem 1q21.

(C) Wykres asocjacji regionalnej i nierównowagi sprzężeń dla regionu 1q21. Najbardziej skojarzony genotypowo SNP jest pokazany na niebiesko, a kolor pozostałych markerów odzwierciedla nierównowagę powiązań (r2) z górnym SNP w każdym panelu (rosnący czerwony odcień związany z rosnącym r2). Współczynnik rekombinacji (prawa oś y) jest wykreślony kolorem jasnoniebieskim i jest oparty na populacji CEU HapMap. Egzony dla każdego genu są reprezentowane przez pionowe paski, w oparciu o wszystkie izoformy dostępne z zespołu UCSC Genome Browser z marca 2006 r.

(D) Częstość występowania alleli mniejszościowych dla TCHH SNP rs11803731, w oparciu o Human Genome Diversity Project.29

(E) Częstość włosów prostych (pomarańczowe słupki), falistych (zielone słupki) i kręconych (niebieskie słupki) jako funkcja genotypu rs11803731 w próbie niespokrewnionych osób (n = 43; n = 493; n = 1132). Wraz z większą liczbą alleli T wzrasta odsetek włosów prostych. Pionowe słupki odpowiadają 95% przedziałom ufności dla częstości występowania.

Tabela 3

Details of the Genome-wide Significant SNPs in the 1q21.3 Region across the Three Samples

.

rs17646946 rs11803731 rs4845418 rs12130862
Pozycja (bp) 150,329,391 150,349,949 150,402,854 150,293,639
Genotyped or imputed genotyped imputed imputed imputed
Minor (reference) allele A T C T
Częstość allelu głównego G A G A
Częstość allelu mniejszego 18.3% 18,4% 17,3% 18,1%
Hardy-Weinburg equilibrium p value 0.73 0,75 0,70 0,79
Rsq (metryka dokładności imputacji) 0.92 0,96 0,98
Próba nastolatków (n = 1649)
Efekt alleliczny (β)a 0.41 0,42 0,42 0,39
Wartość P 1,24 × 10-11 1,76 × 10-11 3,68 × 10-11 7.59 × 10-11
Dorośli S1 (n = 1945)
Efekt alleliczny (β)a 0.50 0,50 0,49 0,45
Wartość P 8,18 × 10-13 2,51 × 10-12 2,22 × 10-11 9.69 × 10-11
Dorosły S2 (n = 1251)
Efekt alleliczny (β)a 0.44 0,44 0,43 0,42
Wartość P 7,91 × 10-11 1,37 × 10-10 1,15 × 10-9 8.16 × 10-10
Cross-Sample Calculations
Wariancja wyjaśnionab uśredniona dla wszystkich próbek 6.11% 6.11% 5.79% 5.22%
Analiza meta (p value) 1.50 × 10-31 3.18 × 10-31 4.43 × 10-29 3.12 × 10-28
aZgłoszone tutaj alleliczne β należy interpretować w odniesieniu do modelu progu odpowiedzialności, który odwzorowuje dane na standardowy rozkład normalny, w którym punkty odcięcia między kategoriami są odwzorowane na rozkład z. Na przykład, β równe .41 wskazuje, że próg oddzielający kategorie proste od falistych jest przesunięty o 0,41 jednostek z w prawo dla każdego allelu ryzyka, który posiada dana osoba.
bObliczane jako β2, w którym p jest mniejszą częstością alleli, a β jest addytywnym efektem allelicznym.

Z czterech najbardziej kojarzonych SNP w regionie 1q21, skupiliśmy się na rs11803731 (p = 3,2 × 10-31), ponieważ jest to kodujący, nonsynonimiczny wariant zlokalizowany w trzecim eksonie TCHH (chociaż potrzeba więcej pracy, aby potwierdzić, że jest to wariant przyczynowy). Allel T przy rs11803731 jest stanem pochodnym i wykazuje uderzającą specyfikę geograficzną dla Europy i zachodnio-środkowej Azji, osiągając najwyższą częstość u północnych Europejczyków (Figura 1E), co sugeruje, że wariant ten powstał gdzieś w tym szerokim regionie. Współczesna częstotliwość i dystrybucja mutacji de novo będzie generalnie określana przez losowy dryf genetyczny i migrację. Jednakże, ponieważ rs11803731 wpływa na wysoce widoczny fenotyp, jest intuicyjnie oczywistym celem selekcji naturalnej lub seksualnej.13 Gen EDAR, który kontroluje grubość włosów, wykazuje jedną z najbardziej przekonujących sygnatur pozytywnej selekcji w genomie Azji Wschodniej.4 rs11803731 znajduje się wśród 2,5% najbardziej zróżnicowanych SNP w całym genomie między Europejczykami a innymi populacjami Hapmap II (mierzone za pomocą testu długości gałęzi opartego na FST locus-specific14). Chociaż poprzednia analiza rozszerzonych wzorców homozygotyczności haplotypów w kohorcie Human Genome Diversity Project (HGDP) również pokazuje wstępne dowody na genetyczne autostopowanie dla regionu 1q21.3 w niektórych populacjach europejskich (ref. 15 i Figura S7), ogólne dowody selekcji są niejednoznaczne. Jednak genetyczne sygnatury pozytywnej selekcji w poszczególnych loci, wykryte za pomocą obecnych testów, będą się różnić w zależności od czasu, siły zdarzenia selekcyjnego, genomowej charakterystyki regionu i architektury genetycznej (liczba, częstotliwość i wielkość efektu loci przyczynowych) danego fenotypu16, a zatem mogą nie być tak oczywiste, jak te związane z innymi powierzchownymi cechami. Na przykład, region genu OCA2 jest dobrze ugruntowanym celem selekcji17 i wiadomo, że wpływa na ludzkie cechy pigmentacji, zwłaszcza kolor oczu.18,19

Wpływ wariantu rs11803731, zastąpienie leucyny metioniną w pozycji 790 białka TCHH, został przewidziany przez analizy in silico za pomocą programów PolyPhen20 i PMut.21 PolyPhen przewidział zmianę L790M jako „łagodną”, podczas gdy PMut przewidział tę zmianę jako „neutralną”. Żadne wyniki nie zostały zwrócone dla innych programów przewidywania, w tym SIFT22 (patrz Zasoby internetowe) (z identyfikatorem SNP lub użytą sekwencją białka) i SNPs3D23 (patrz Zasoby internetowe), które nie zawierały zapisu rs11803731 SNP. Takie przewidywania nie wykluczają roli funkcjonalnej, biorąc pod uwagę, że efekt SNP może być raczej regulacyjny niż strukturalny, zwłaszcza że wymiana aminokwasów wypada poza regionami α-helikalnymi.23 Metioniny eksponowane na powierzchni mogą być utleniane przez reaktywne formy tlenu potranslacyjnie, co, jeśli nie zostanie naprawione, może spowodować zmiany w strukturze i aktywności białka i może prowadzić do zmienionej regulacji białka.24

Alternatywnie, rs11803731 może być związany ze zmiennością strukturalną. TCHH jest jednoniciowym białkiem α-helikalnym z dwoma lub trzema wysoce powtarzalnymi regionami, w zależności od gatunku (Figura S8). U owiec białko referencyjne (CAA79165.1) ma długość 1549 aminokwasów, ale różnice w liczbie pełnych i częściowych powtórzeń w regionie powtórzenia C-końcowego są widoczne w różnych szczepach.25,26 W ludzkim białku TCHH długość powtórzeń wynosi od około 6 do 30 aminokwasów, co odpowiada 18 do 90 bp sekwencji DNA. Obecnych jest wiele SNP oraz polimorfizmów insercyjnych lub delecyjnych, szczególnie w pierwszym i trzecim regionie powtórzeń (dbSNP; patrz Zasoby internetowe), a gen ten może zawierać alleliczne warianty długości, jak zaobserwowano u owiec i w innym wysoce powtarzalnym genie w regionie ludzkiego chromosomu 1p21, inwolukrynie (IVL), gdzie allele różnią się w populacjach ludzkich zarówno pod względem liczby krótkich tandemowych powtórzeń, jak i pojedynczych zmian zasad w obrębie powtarzanej sekwencji.27,28 Taka zmienność długości nie została zgłoszona dla TCHH i pozostaje do ustalenia doświadczalnie, czy taka zmienność jest powszechna, wpływa na strukturę lub długość białka, i / lub jest znakowana przez SNPs flankujące powtarzające się regiony.

Podsumowując, zgłaszamy ilościowe locus cech, które wpływa na formę włosów u Europejczyków. Asocjacja odpowiada za ∼6% wariancji morfologii włosów w tej grupie i mieści się w obrębie genu Trichohyalin, który ma znaną rolę w tworzeniu włosów. Wzorce częstości alleli są uderzające, z najwyższą częstością tych wariantów obserwowaną u północnych Europejczyków (Rycina 1), co jest zgodne z obserwacją wariantu EDAR prostych włosów w populacjach azjatyckich (Rycina S9).

Similar Posts

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany.