Main Text
Morfologia părului este una dintre cele mai vizibile caracteristici ale variației umane și este deosebit de diversă în rândul persoanelor cu ascendență europeană, pentru care aproximativ 45% dintre indivizi au părul drept, 40% au părul ondulat și 15% au părul creț.1 Gradul de ondulație este corelat cu distribuția keratinelor capilare și cu tipul de celule din interiorul fibrei capilare, numărul de celule mezocorticale scăzând pe măsură ce se intensifică ondulația.2 Studii recente au identificat alele specifice asiatice ale genelor EDAR și FGFR2 care sunt asociate cu părul gros și drept, sugerând că aceste variante au apărut după divergența dintre asiatici și europeni.3,4 Cu toate acestea, nu se cunosc variantele genetice care influențează aspectul creț al părului la europeni (care s-a dovedit a fi foarte ereditar5).
Am efectuat analize de asociere la nivel de genom în trei eșantioane de familie australiene: un eșantion de gemeni adolescenți și frații lor (1649 de indivizi din 837 de familii) și două eșantioane de perechi de gemeni adulți (S1, 1945 de indivizi din 1210 familii; S2, 1251 de indivizi din 845 de familii) stabilite din populația generală (Tabelul 1).5 În eșantionul de adolescenți, aspectul creț al părului a fost evaluat pe o scară în trei puncte (drept, ondulat sau creț). În eșantioanele de adulți, participanții au raportat dacă părul lor era drept sau creț (S1) sau drept, ondulat sau creț (S2). Pentru a ține cont de diferențele de colectare a fenotipurilor și de vârstă în cadrul eșantioanelor, fiecare eșantion a fost analizat în mod independent, iar pentru combinarea celor trei seturi de rezultate s-a folosit meta-analiza. Aceste studii au fost efectuate cu aprobarea comisiilor de etică corespunzătoare și cu consimțământul informat al tuturor participanților.
Datele genotipice utilizate în studiul actual provin dintr-un proiect mai amplu de genotipare care a implicat șapte valuri de genotipare și care a atras participanți din studiile noastre din 1988 și 1990 privind sănătatea și stilul de viață la adulți6 și din studiul privind factorii de risc ai melanomului la adolescenți.7,8 Datele genotipice din fiecare proiect sunt descrise în tabelul 2. Filtrele standard de control al calității au fost aplicate la genotiparea din fiecare proiect, limitând imputarea la eșantioane și SNP-uri cu o calitate ridicată a datelor (Tabelul 2). Indivizii au fost depistați pentru strămoși non-europeni, rezultând un eșantion de 16.140 de indivizi genotipați (Figura S2, disponibilă online). Pentru a nu introduce prejudecăți în datele imputate, a fost utilizat pentru imputare un set de SNP comune celor șapte subeșantioane (n = 274 604). Imputarea a fost realizată cu ajutorul datelor fazate din eșantioanele HapMap de ascendență europeană (CEU; build 36, release 22) și MACH.9
Tabelul 2
Informații sumare pentru cele șapte valuri de genotipare și controlul de calitate întreprins
Proiectul 1: ALCO CIDR | Proiect 2: ALCO deCODE | Proiect 3: MIG deCODE | Proiect 4: EUTWIN | Proiect 5: ADOL deCODE | Proiect 6: GL_CIDR | Proiect 7: WH deCODE | |||
---|---|---|---|---|---|---|---|---|---|
Fenotip primar | Consumul de alcool (eșantion de populație) | Consumul de alcool (eșantion de populație) | Migraine (eșantion de caz/control) | Niveluri de lipide (eșantion de populație) | Factori de risc de melanom (eșantion de populație) | Glaucom (eșantion de populație) | Sănătatea femeii (eșantion de caz/control) | ||
Laborator de genotipare | CIDR | deCODE | deCODE | deCODE | Universitatea din Helsinki | deCODE | CIDR | deCODE | |
Platforma SNP Iluminia | HumanCNV370- | HumanCNV370-Quadv3 | HumanCNV370-Quadv3 | Human610-Quad | Human 317K | Human610-Quad | Human610-Quad | Human610-Quad | Human610-Quad |
Nu. de probe genotipate | 4241 | 2611 | 999 | 462 | 4391 | 657 | 2360 | ||
Nr. de SNP-uri genotipate | 343,955 | 344,962 | 592,385 | 318,210 | 592,392 | 589,296 | 562,193 | ||
BeadStudio GenCall score < 0.7 | 24,494 | 27,459 | 46,931 | NAa | 47,418 | 36,877 | 57,589 | 57,589 | |
SNPs cu rata de apelare < 0.95 | 11,584 | 7537 | 8038 | 5021 | 8447 | 12,455 | 33,459 | ||
SNPs cu eșec HWE p < 10-6 | 4318 | 1194 | 1221 | 67 | 2841 | 15,474 | 1763 | ||
SNPs cu MAF < 0.01/ doar 1 singură alelă observată | 7874 | 8976 | 33,347 | 264 | 33,347 | 28,607 | 24,509 | ||
Nu. de SNP după QC | 323093 | 321,267 | 530,922 | 312,937 | 529,379 | 531,042 | 518,948 | ||
Porcentajul de SNP-uri genotipate | 93.93% | 93,13% | 89,62% | 98,34% | 89,36% | 90,11% | 92,31% |
Pentru fiecare proiect, ADN-ul a fost extras în conformitate cu protocoalele standard. În toate proiectele, participanții au fost genotipați pe platformele Illumina 317K, 370K sau 610K SNP, iar genotipurile au fost apelate cu software-ul Illumina BeadStudio. După controlul calității (QC) al proiectelor individuale, datele din cele șapte valuri de genotipare au fost integrate. După cum se arată în figura S1, un număr de eșantioane au fost duplicate între diferitele proiecte de genotipare, ceea ce a permis QC între proiecte. După integrarea seturilor de date, datele au fost examinate pentru a se verifica dacă lipsesc în cadrul indivizilor (>5%, luând în considerare numărul de SNP-uri care au fost genotipate pentru fiecare individ), erori de pedigree și de sex, precum și erori mendeliene (genotipurile pentru toți membrii familiei pentru un anumit SNP au fost eliminate la detectarea erorilor). După QC, în cazurile în care unul dintre indivizii dintr-o pereche de gemeni monozigoți a fost genotipat, genotipurile duplicate au fost atribuite cotwinului negenotipat, rezultând un eșantion de 16 507 indivizi. După depistarea strămoșilor non-europeni (figura S2), a rezultat un eșantion final de 16 140 de persoane. HWE denumește echilibrul Hardy-Weinburg.
Pentru a putea profita pe deplin de informațiile disponibile pe scara ordinală, datele au fost analizate prin intermediul unui model de prag multifactorial care descrie trăsăturile discrete ca reflectând o distribuție normală subiacentă de responsabilitate (sau predispoziție). Se presupune că răspunderea, care reprezintă suma tuturor efectelor multifactoriale, reflectă efectele aditive combinate ale unui număr mare de gene și factori de mediu, fiecare cu efect mic, și se caracterizează prin discontinuități fenotipice care apar atunci când răspunderea atinge un anumit prag.10 S-a utilizat un test total de asociere, în care datele privind dozajul (MACH mldose) pentru fiecare SNP în parte au fost incluse în cadrul modelului de prag, rezultând un test aditiv de asociere. În plus, efectele fixe ale sexului și ale vârstei (atât efectele liniare, cât și cele pătratice) și interacțiunile vârstă-sex au fost incluse cu modelele de prag în toate analizele de date, astfel încât valoarea trăsăturii pentru individul j din familia i a fost parametrizată ca: xij = βdoză + βvârstă + βvârstă2 + βsex + βsex-vârstă + μ. Înrudirea dintre participanți a fost modelată în mod explicit, ținând cont de sexul perechilor de rude, iar varianțele fenotipice au fost constrânse la unitate. Statistica testului de asociere a fost calculată prin compararea potrivirii (minus de două ori log-lichiditatea) modelului complet, care includea efectul SNP-ului dat, cu cea a unui model imitat, în care efectul SNP-ului a fost eliminat din model. Diferența de log-lichidități urmează o distribuție asimptotică chi-pătrat cu gradele de libertate egale cu diferența de parametri estimați între cele două modele (în acest caz, unul). Factorii de inflație genomică ai celor trei eșantioane au variat de la 0,98 la 1,02 (figura S3), ceea ce indică faptul că testul a controlat corect gradul de rudenie al participanților și că eventualele artefacte tehnice și de stratificare au avut un impact neglijabil asupra rezultatelor.
Patru polimorfisme cu un singur nucleotid (SNP) foarte corelate (rs17646946, rs11803731, rs4845418, rs12130862; r2 > 0,8, D′ > 0,95 în cadrul eșantionului HapMap CEU) pe cromozomul 1q21.3 (Figura 1B) au atins pragul nostru de semnificație la nivel de genom de 5 × 10-8, care corectează ∼1 milion de variante comune independente în genom11 (Tabelul 3, Figura S4). Asocierea a fost găsită în toate cele trei eșantioane, ceea ce sugerează că efectul este robust la diferențele de vârstă dintre eșantioane și că modelul pragului de responsabilitate a ținut cont de diferențele de definiție fenotipică dintre eșantioane. Meta-analiza celor trei eșantioane utilizând o analiză ponderată N (indivizi) în Metal (a se vedea Resurse Web) a avut ca rezultat valori p foarte semnificative pentru SNP-urile care se află în această regiune și care se încadrează într-un haplotip marcat de SNP rs17646946 genotipat direct (p = 1,5 × 10-31) (figurile 1A și 1B, tabelul 3). Asocierea din regiunea 1q21.3 este centrată pe gena Trichohyalin TCHH și a reprezentat ∼6% din varianță (Figura 1E, Tabelul 3). O analiză suplimentară a arătat că asocierea la nivel de haplotip nu a oferit o putere predictivă suplimentară. Includerea celor mai bune SNP-uri ca și covariate în analize nu a produs nicio dovadă suplimentară de asociere, contabilizând complet semnalul la acest locus (Figura S5). Nu am găsit nici dovezi de epistază între aceste SNP-uri și orice alt SNP din genom, nici eterogenitate între sexe (figurile S5 și S6). În cele din urmă, deși analiza variației numărului de copii (CNV) în întreaga regiune în eșantionul de adolescenți a găsit dovezi pentru CNV la 18 indivizi, aceasta a fost prea puțin frecventă pentru a explica efectul observat (Tabelul S2). Tabelul S3 enumeră toate SNP-urile cu o valoare p combinată mai mică de 1 × 10-5 pentru meta-analiză. O a doua regiune de asociere sugestivă a fost observată pe cromozomul 4q21.21 (rs1268789; p = 6,58 × 10-8), centrată pe gena FRAS1 a sindromului Fraser 1. Am examinat, de asemenea, dovezile de asociere în cadrul meta-analizei pentru lista de 170 de gene candidate publicată de Fujimoto et al.4 (Tabelul S4). În plus față de asocierea observată în regiunea TCHH, au fost observate semnale puternice de asociere în WNT10A, asociată cu displazia odonto-onycho-dermică, care se caracterizează prin păr uscat și o gamă largă de fenotipuri ectodermice12 (2q35; rs7349332; p = 1.36 × 10-6).
Rezultatele asocierii la nivel de genom
(A) Diagrama Manhattan care prezintă rezultatele metaanalizei la nivel de genom a morfologiei părului în trei eșantioane independente. SNP-urile cu un p < 10-5 sunt evidențiate în verde.
(B) Cariotipul cromozomului 1 care evidențiază regiunea 1q21.
(C) Grafic de asociere regională și dezechilibru de legătură pentru regiunea 1q21. SNP-ul genotipat cel mai asociat este indicat în albastru, iar culoarea markerilor rămași reflectă dezechilibrul de legătură (r2) cu SNP-ul de top din fiecare panou (nuanța roșie în creștere asociată cu creșterea r2). Rata de recombinare (axa y din dreapta) este reprezentată în albastru deschis și se bazează pe populația CEU HapMap. Exonii pentru fiecare genă sunt reprezentați prin bare verticale, pe baza tuturor izoformelor disponibile din ansamblul UCSC Genome Browser din martie 2006.
(D) Frecvența alelei minore pentru SNP TCHH rs11803731, pe baza Human Genome Diversity Project.29
(E) Frecvența părului drept (bare portocalii), ondulat (bare verzi) și creț (bare albastre) în funcție de genotipul rs11803731 într-un eșantion de indivizi neînrudiți (n = 43; n = 493; n = 1132). Cu mai multe alele T, crește proporția de păr drept. Barele verticale corespund intervalelor de încredere de 95% privind prevalența.
Tabelul 3
Detalii ale SNP-urilor semnificative la nivelul întregului genom în 1q21.3 Region across the Three Samples
rs17646946 | rs11803731 | rs4845418 | rs12130862 | |||
---|---|---|---|---|---|---|
Positie (bp) | 150,329,391 | 150,349,949 | 150,402,854 | 150,293,639 | ||
Genotipată sau imputată | genotipată | imputată | imputată | imputată | imputată | |
Alela minoră (de referință) | A | T | C | T | ||
Alela majoră | G | A | G | A | A | |
Frecvența alelei minore | 18.3% | 18,4% | 17,3% | 18,1% | ||
Echilibru Hardy-Weinburg p value | 0.73 | 0,75 | 0,70 | 0,79 | ||
Rsq (metrică de precizie a imputației) | – | 0.92 | 0,96 | 0,98 | ||
Eșantion de adolescenți (n = 1649) | ||||||
Efect alelic (β)a | 0.41 | 0,42 | 0,42 | 0,39 | ||
ValoareP | 1,24 × 10-11 | 1,76 × 10-11 | 3,68 × 10-11 | 7.59 × 10-11 | ||
Adult S1 (n = 1945) | ||||||
Efect alelic (β)a | 0.50 | 0,50 | 0,49 | 0,45 | ||
ValoareP | 8,18 × 10-13 | 2,51 × 10-12 | 2,22 × 10-11 | 9.69 × 10-11 | ||
Adult S2 (n = 1251) | ||||||
Efect alelic (β)a | 0.44 | 0,44 | 0,43 | 0,42 | ||
ValoareP | 7,91 × 10-11 | 1,37 × 10-10 | 1,15 × 10-9 | 8.16 × 10-10 | ||
Calculele pe eșantioane încrucișate | ||||||
Varianța explicatăb în medie pe eșantioane | 6.11% | 6,11% | 5,79% | 5,22% | ||
Analiză meta (valoare p) | 1,50 × 10-31 | 3,18 × 10-31 | 4,43 × 10-29 | 3,18 × 10-31 | 4,43 × 10-29 | 3.12 × 10-28 |
Dintre cele patru SNP-uri cele mai asociate din regiunea 1q21, ne-am concentrat pe rs11803731 (p = 3,2 × 10-31), deoarece aceasta este o variantă codificatoare, nesinonimă, localizată în al treilea exon al TCHH (deși sunt necesare mai multe lucrări pentru a confirma că aceasta este varianta cauzală). Alela T la rs11803731 este starea derivată și prezintă o specificitate geografică izbitoare pentru Europa și Asia central-vestică, atingând cea mai mare frecvență la europenii din nord (figura 1E), ceea ce sugerează că varianta a apărut undeva în această regiune largă. Frecvența și distribuția modernă a mutațiilor de novo vor fi determinate, în general, de deriva genetică aleatorie și de migrație. Cu toate acestea, deoarece rs11803731 influențează un fenotip extrem de vizibil, este o țintă intuitiv evidentă pentru selecția naturală sau sexuală.13 Gena EDAR, care controlează grosimea părului, prezintă una dintre cele mai convingătoare semnături de selecție pozitivă în genomul din Asia de Est.4 rs11803731 se află printre primii 2,5 % dintre SNP-urile cele mai diferențiate în genom între europeni și alte populații Hapmap II (măsurate prin testul de lungime a ramurii specifice locusului bazat pe FST14). Deși analiza anterioară a modelelor de homozigozitate extinsă a haplotipurilor în cohorta Human Genome Diversity Project (HGDP) arată, de asemenea, dovezi timide de autostop genetic pentru regiunea 1q21.3 în unele populații europene (ref. 15 și figura S7), dovezile generale de selecție sunt ambigue. Cu toate acestea, semnăturile genetice ale selecției pozitive la loci individuali, așa cum sunt detectate cu testele actuale, vor varia în funcție de momentul, de puterea evenimentului selectiv, de caracteristica genomică a regiunii și de arhitectura genetică (numărul, frecvența și mărimea efectului locilor cauzali) a fenotipului în cauză16 și, prin urmare, este posibil să nu fie la fel de evidente ca cele asociate cu alte trăsături superficiale. De exemplu, regiunea genei OCA2 este o țintă bine stabilită a selecției17 și se știe că influențează trăsăturile pigmentare umane, în special culoarea ochilor.18,19
Efectul variantei rs11803731, înlocuirea unei leucine cu o metionină la poziția 790 a proteinei TCHH, a fost prezis prin analize in silico cu programele PolyPhen20 și PMut.21 PolyPhen a prezis că modificarea L790M este „benignă”, în timp ce PMut a prezis că această modificare este „neutră”. Nu au fost returnate rezultate pentru alte programe de predicție, inclusiv SIFT22 (a se vedea Web Resources) (fie cu ID-ul SNP, fie cu secvența proteică utilizată) și SNPs3D23 (a se vedea Web Resources), care nu conținea nicio înregistrare a SNP-ului rs11803731. Astfel de predicții nu exclud un rol funcțional, având în vedere că efectul SNP-ului poate fi mai degrabă de reglementare decât structural, în special deoarece înlocuirea aminoacidului se află în afara regiunilor α-helicoidale.23 Metioninele expuse la suprafață pot fi oxidate posttranslațional de către speciile reactive de oxigen, care, dacă nu sunt reparate, pot duce la modificări ale structurii și activității proteice și pot duce la modificarea reglării proteice.24
Alternativ, rs11803731 poate fi asociat cu variația structurală. TCHH este o proteină α-helicoidală monocatenară cu două sau trei regiuni foarte repetitive, în funcție de specie (figura S8). La ovine, proteina de referință (CAA79165.1) are o lungime de 1549 de aminoacizi, dar variația numărului de repetări complete și parțiale în regiunea de repetiție C-terminală este observată la diferite tulpini.25,26 În proteina TCHH umană, lungimile de repetiție variază de la aproximativ 6 la 30 de aminoacizi, ceea ce corespunde la 18 până la 90 bp de secvență ADN. O serie de SNP și polimorfisme de inserție sau deleție sunt prezente, în special în prima și a treia regiune de repetiție (dbSNP; a se vedea Resurse web), iar această genă ar putea găzdui variante de lungime alelică, așa cum s-a observat la oi și la o altă genă foarte repetitivă din regiunea cromozomului uman 1p21, involucrina (IVL), unde alelele diferă între populațiile umane atât în ceea ce privește numărul de repetări scurte în tandem, cât și modificările unei singure baze în cadrul secvenței repetate.27,28 O astfel de variație a lungimii nu a fost raportată pentru TCHH și rămâne de stabilit experimental dacă o astfel de variație este comună, afectează structura sau lungimea proteinei și/sau este marcată de SNP-urile care flanchează regiunile repetate.
În concluzie, am raportat un locus de trăsătură cantitativă care afectează forma părului la europeni. Asocierea reprezintă ∼6% din variația în morfologia părului în acest grup și se încadrează în gena Trichohyalin, care are un rol cunoscut în formarea părului. Modelele frecvențelor alelelor sunt izbitoare, cea mai mare frecvență a acestor variante fiind observată la europenii din nord (Figura 1), în paralel cu observarea variantei EDAR pentru părul drept în populațiile asiatice (Figura S9).
.