Haupttext
Die Haarmorphologie ist eines der auffälligeren Merkmale der menschlichen Variation und ist besonders vielfältig bei Menschen europäischer Abstammung, bei denen etwa 45 % der Menschen glattes Haar, 40 % gewelltes Haar und 15 % lockiges Haar haben.1 Der Grad der Lockigkeit korreliert mit der Verteilung der Haarkeratine und des Zelltyps innerhalb der Haarfaser, wobei die Anzahl der mesokortikalen Zellen mit zunehmender Lockigkeit abnimmt.2 Jüngste Studien haben asienspezifische Allele der Gene EDAR und FGFR2 identifiziert, die mit dickem, glattem Haar assoziiert sind, was darauf hindeutet, dass diese Varianten nach der Divergenz von Asiaten und Europäern entstanden sind.3,4 Die genetischen Varianten, die die Haarlocke bei Europäern beeinflussen (die nachweislich stark vererbbar ist5), sind jedoch unbekannt.
Wir führten genomweite Assoziationsanalysen in drei australischen Familienstichproben durch: eine Stichprobe jugendlicher Zwillinge und ihrer Geschwister (1649 Individuen aus 837 Familien) und zwei Stichproben erwachsener Zwillingspaare (S1, 1945 Individuen aus 1210 Familien; S2, 1251 Individuen aus 845 Familien), die aus der Allgemeinbevölkerung stammen (Tabelle 1).5 In der jugendlichen Stichprobe wurde die Lockigkeit der Haare auf einer dreistufigen Skala (glatt, gewellt oder lockig) bewertet. In den erwachsenen Stichproben gaben die Teilnehmer an, ob ihr Haar glatt oder gelockt (S1) oder glatt, gewellt oder gelockt (S2) war. Um den Unterschieden bei der Erfassung des Phänotyps und des Alters in den verschiedenen Stichproben Rechnung zu tragen, wurde jede Stichprobe unabhängig voneinander analysiert, und die Ergebnisse der drei Gruppen wurden durch eine Meta-Analyse zusammengefasst. Diese Studien wurden mit der Genehmigung der zuständigen Ethikkommissionen und der informierten Zustimmung aller Teilnehmer durchgeführt.
Die in der aktuellen Studie verwendeten genotypischen Daten stammen aus einem größeren Genotypisierungsprojekt, das sieben Wellen der Genotypisierung umfasste und Teilnehmer aus unseren Gesundheits- und Lebensstilstudien für Erwachsene aus den Jahren 1988 und 19906 sowie aus der Studie über Melanom-Risikofaktoren bei Jugendlichen einbezog.7,8 Die genotypischen Daten aus jedem Projekt sind in Tabelle 2 beschrieben. Auf die Genotypisierung aus jedem Projekt wurden Standard-Qualitätskontrollfilter angewendet, die die Imputation auf Proben und SNPs mit hoher Datenqualität beschränkten (Tabelle 2). Die Personen wurden auf nicht-europäische Abstammung überprüft, was zu einer Stichprobe von 16 140 genotypisierten Personen führte (Abbildung S2, online verfügbar). Um eine Verzerrung der imputierten Daten zu vermeiden, wurde ein Satz von SNPs, die allen sieben Teilstichproben gemeinsam waren, für die Imputation verwendet (n = 274.604). Die Imputation erfolgte unter Verwendung der phasierten Daten aus den HapMap-Stichproben europäischer Abstammung (CEU; Build 36, Release 22) und MACH.9
Tabelle 2
Zusammenfassende Informationen zu den sieben Wellen der Genotypisierung und der durchgeführten Qualitätskontrolle
Projekt 1: ALCO CIDR | Projekt 2: ALCO deCODE | Projekt 3: MIG deCODE | Projekt 4: EUTWIN | Projekt 5: ADOL deCODE | Projekt 6: GL_CIDR | Projekt 7: WH deCODE | |
---|---|---|---|---|---|---|---|
Primärer Phänotyp | Alkoholkonsum (Bevölkerungsstichprobe) | Alkoholkonsum (Bevölkerungsstichprobe) | Migräne (Fall-/Kontrollstichprobe) | Lipidspiegel (Bevölkerungsstichprobe) | Melanom-Risikofaktoren (Bevölkerungsstichprobe) | Glaukom (Bevölkerungsstichprobe) | Frauengesundheit (Fall/Kontrollstichprobe) |
Genotypisierungslabor | CIDR | deCODE | deCODE | Universität von Helsinki | deCODE | CIDR | deCODE |
Illuminia SNP-Plattform | HumanCNV370-Quadv3 | HumanCNV370-Quadv3 | Human610-Quad | Human 317K | Human610-Quad | Human610-Quad | Human610-Quad |
Anzahl. der genotypisierten Proben | 4241 | 2611 | 999 | 462 | 4391 | 657 | 2360 |
Anzahl. genotypisierter SNPs | 343,955 | 344,962 | 592,385 | 318,210 | 592,392 | 589,296 | 562,193 |
BeadStudio GenCall score < 0.7 | 24.494 | 27.459 | 46.931 | NAa | 47.418 | 36.877 | 57.589 |
SNPs mit Call Rate < 0.95 | 11,584 | 7537 | 8038 | 5021 | 8447 | 12,455 | 33,459 |
SNPs mit HWE-Ausfall p < 10-6 | 4318 | 1194 | 1221 | 67 | 2841 | 15,474 | 1763 |
SNPs mit MAF < 0.01/ nur 1 beobachtetes Allel | 7874 | 8976 | 33,347 | 264 | 33,347 | 28,607 | 24,509 |
Anzahl. der SNPs nach QC | 323093 | 321.267 | 530.922 | 312.937 | 529,379 | 531,042 | 518,948 |
Prozentsatz der genotypisierten SNPs | 93.93% | 93,13% | 89,62% | 98,34% | 89,36% | 90,11% | 92,31% |
Für jedes Projekt wurde die DNA gemäß den Standardprotokollen extrahiert. In allen Projekten wurden die Teilnehmer auf den Illumina 317K, 370K oder 610K SNP-Plattformen genotypisiert, und die Genotypen wurden mit der Illumina BeadStudio-Software aufgerufen. Nach der Qualitätskontrolle (QC) der einzelnen Projekte wurden die Daten aus den sieben Wellen der Genotypisierung integriert. Wie in Abbildung S1 dargestellt, wurde eine Reihe von Proben zwischen den verschiedenen Genotypisierungsprojekten dupliziert, was eine projektübergreifende Qualitätskontrolle ermöglichte. Nach der Integration der Datensätze wurden die Daten auf Fehlende innerhalb der Individuen (>5 %, unter Berücksichtigung der Anzahl der SNPs, die für jedes Individuum genotypisiert wurden), auf Stammbaum- und Geschlechtsfehler sowie auf Mendelsche Fehler (die Genotypen aller Familienmitglieder für einen bestimmten SNP wurden bei der Entdeckung von Fehlern entfernt) überprüft. Nach der Qualitätskontrolle wurden in Fällen, in denen ein Individuum eines eineiigen Zwillingspaares genotypisiert worden war, dem nicht genotypisierten Zwilling doppelte Genotypen zugewiesen, was zu einer Stichprobe von 16 507 Individuen führte. Nach dem Screening auf nichteuropäische Abstammung (Abbildung S2) ergab dies eine endgültige Stichprobe von 16 140 Personen. HWE bezeichnet das Hardy-Weinburg-Gleichgewicht.
Um die in der Ordinalskala verfügbaren Informationen voll ausschöpfen zu können, wurden die Daten anhand eines multifaktoriellen Schwellenwertmodells analysiert, das diskrete Merkmale als Ausdruck einer zugrundeliegenden Normalverteilung der Haftung (oder Veranlagung) beschreibt. Es wird angenommen, dass die Anfälligkeit, die die Summe aller multifaktoriellen Effekte darstellt, die kombinierten additiven Effekte einer großen Anzahl von Genen und Umweltfaktoren widerspiegelt, von denen jeder einen kleinen Effekt hat, und durch phänotypische Diskontinuitäten gekennzeichnet ist, die auftreten, wenn die Anfälligkeit einen bestimmten Schwellenwert erreicht.10 Es wurde ein Gesamttest der Assoziation verwendet, bei dem die Dosierungsdaten (MACH mldose) für jeden SNP wiederum in das Schwellenwertmodell einbezogen wurden, was zu einem additiven Test der Assoziation führte. Zusätzlich wurden feste Effekte des Geschlechts und des Alters (sowohl lineare als auch quadratische Effekte) sowie Alter-zu-Geschlecht-Interaktionen in die Schwellenwertmodelle in allen Datenanalysen einbezogen, so dass der Merkmalswert für Individuum j aus Familie i parametrisiert wurde als: xij = βdose + βage + βage2 + βsex + βsex-age + μ. Die Verwandtschaft zwischen den Teilnehmern wurde explizit modelliert, wobei das Geschlecht von Verwandtenpaaren berücksichtigt wurde, und die phänotypischen Varianzen wurden auf Eins beschränkt. Die Statistik des Assoziationstests wurde berechnet, indem die Anpassung (abzüglich der doppelten Log-Likelihood) des vollständigen Modells, das den Effekt des gegebenen SNP enthielt, mit der eines verschachtelten Modells verglichen wurde, bei dem der SNP-Effekt aus dem Modell herausgenommen worden war. Die Differenz der Log-Likelihoods folgt einer asymptotischen Chi-Quadrat-Verteilung, wobei die Freiheitsgrade gleich der Differenz der geschätzten Parameter zwischen den beiden Modellen sind (in diesem Fall 1). Die genomischen Inflationsfaktoren der drei Stichproben reichten von 0,98 bis 1,02 (Abbildung S3), was darauf hindeutet, dass der Test die Verwandtschaft der Teilnehmer korrekt kontrollierte und dass potenzielle technische und stratifikatorische Artefakte einen vernachlässigbaren Einfluss auf die Ergebnisse hatten.
Vier hoch korrelierte Einzelnukleotid-Polymorphismen (SNPs) (rs17646946, rs11803731, rs4845418, rs12130862; r2 > 0,8, D′ > 0,95 innerhalb der HapMap CEU-Stichprobe) auf Chromosom 1q21.3 (Abbildung 1B) erreichte unsere genomweite Signifikanzschwelle von 5 × 10-8, die für ∼1 Million unabhängige gemeinsame Varianten im Genom korrigiert11 (Tabelle 3, Abbildung S4). Die Assoziation wurde in allen drei Proben gefunden, was darauf hindeutet, dass der Effekt robust gegenüber den Altersunterschieden zwischen den Proben ist und dass das Modell der Haftungsschwelle die Unterschiede in der phänotypischen Definition zwischen den Proben berücksichtigt. Die Meta-Analyse der drei Stichproben unter Verwendung einer N (Individuen)-gewichteten Analyse in Metal (siehe Web-Ressourcen) ergab hochsignifikante p-Werte für SNPs, die in dieser Region liegen und auf einen Haplotyp fallen, der durch den direkt genotypisierten SNP rs17646946 markiert wird (p = 1,5 × 10-31) (Abbildungen 1A und 1B, Tabelle 3). Die Assoziation in der Region 1q21.3 ist auf das Trichohyalin-Gen TCHH zentriert und macht ∼6 % der Varianz aus (Abbildung 1E, Tabelle 3). Weitere Analysen zeigten, dass die Assoziation auf Haplotypebene keine zusätzliche Vorhersagekraft bot. Die Einbeziehung der besten SNPs als Kovariaten in die Analysen ergab keine weiteren Hinweise auf eine Assoziation, wodurch das Signal an diesem Locus vollständig erfasst wurde (Abbildung S5). Wir fanden weder Hinweise auf eine Epistase zwischen diesen SNPs und anderen SNPs im gesamten Genom noch auf eine Heterogenität zwischen den Geschlechtern (Abbildungen S5 und S6). Schließlich fand die Analyse der Kopienzahlvariation (CNV) in der Region in der jugendlichen Stichprobe zwar Hinweise auf CNV bei 18 Individuen, doch war diese zu selten, um den beobachteten Effekt zu erklären (Tabelle S2). In Tabelle S3 sind alle SNPs mit einem kombinierten p-Wert von weniger als 1 × 10-5 für die Meta-Analyse aufgeführt. Eine zweite Region mit suggestiver Assoziation wurde auf Chromosom 4q21.21 (rs1268789; p = 6,58 × 10-8) beobachtet, die sich auf das Fraser-Syndrom-1-Gen FRAS1 konzentriert. Wir untersuchten auch Hinweise auf eine Assoziation im Rahmen der Meta-Analyse für die von Fujimoto et al.4 veröffentlichte Liste von 170 Kandidatengenen (Tabelle S4). Zusätzlich zu der in der TCHH-Region beobachteten Assoziation wurden starke Assoziationssignale bei WNT10A beobachtet, das mit der odonto-onycho-dermalen Dysplasie assoziiert ist, die durch trockenes Haar und eine breite Palette ektodermaler Phänotypen12 gekennzeichnet ist (2q35; rs7349332; p = 1.36 × 10-6).
Genomweite Assoziationsergebnisse
(A) Manhattan-Diagramm, das die Ergebnisse der genomweiten Meta-Analyse der Haarmorphologie über drei unabhängige Stichproben hinweg zeigt. SNPs mit einem p < 10-5 sind grün hervorgehoben.
(B) Karyotyp von Chromosom 1 mit Hervorhebung der Region 1q21.
(C) Regionales Assoziations- und Kopplungsungleichgewichtsdiagramm für die Region 1q21. Der am stärksten assoziierte genotypisierte SNP ist in Blau dargestellt, und die Farbe der übrigen Marker spiegelt das Kopplungsungleichgewicht (r2) mit dem obersten SNP in jedem Panel wider (zunehmender roter Farbton mit zunehmendem r2). Die Rekombinationsrate (rechte y-Achse) ist in Hellblau dargestellt und basiert auf der CEU HapMap-Population. Die Exons für jedes Gen sind durch vertikale Balken dargestellt, basierend auf allen Isoformen, die aus der UCSC Genome Browser Assembly vom März 2006 verfügbar sind.
(D) Minor-Allel-Häufigkeit für den TCHH SNP rs11803731, basierend auf dem Human Genome Diversity Project.29
(E) Häufigkeit von glattem (orangefarbene Balken), gewelltem (grüne Balken) und lockigem (blaue Balken) Haar in Abhängigkeit vom Genotyp rs11803731 in einer Stichprobe von nicht verwandten Personen (n = 43; n = 493; n = 1132). Je mehr T-Allele vorhanden sind, desto größer ist der Anteil an glattem Haar. Die vertikalen Balken entsprechen den 95%-Konfidenzintervallen für die Prävalenz.
Tabelle 3
Details der genomweit signifikanten SNPs in der 1q21.3 Region in den drei Proben
rs17646946 | rs11803731 | rs4845418 | rs12130862 | |
---|---|---|---|---|
Position (bp) | 150,329,391 | 150,349,949 | 150,402,854 | 150,293,639 |
Genotypisiert oder imputiert | genotypisiert | imputiert | imputiert | imputiert |
Minor (Referenz) Allel | A | T | C | T |
Major-Allel | G | A | G | A |
Minor-Allel-Häufigkeit | 18.3% | 18.4% | 17.3% | 18.1% |
Hardy-Weinburg-Gleichgewicht p value | 0.73 | 0.75 | 0.70 | 0.79 |
Rsq (Maß für die Imputationsgenauigkeit) | – | 0.92 | 0.96 | 0.98 |
Jugendliche Stichprobe (n = 1649) | ||||
Alleleffekt (β)a | 0.41 | 0.42 | 0.42 | 0.39 |
P-Wert | 1.24 × 10-11 | 1.76 × 10-11 | 3.68 × 10-11 | 7.59 × 10-11 |
Erwachsene S1 (n = 1945) | ||||
Allelischer Effekt (β)a | 0.50 | 0.50 | 0.49 | 0.45 |
P-Wert | 8.18 × 10-13 | 2.51 × 10-12 | 2.22 × 10-11 | 9.69 × 10-11 |
Erwachsene S2 (n = 1251) | ||||
Allelischer Effekt (β)a | 0.44 | 0.44 | 0.43 | 0.42 |
P-Wert | 7.91 × 10-11 | 1.37 × 10-10 | 1.15 × 10-9 | 8.16 × 10-10 |
Stichprobenübergreifende Berechnungen | ||||
Aufgeklärte Varianzb gemittelt über Stichproben | 6.11% | 6,11% | 5,79% | 5,22% |
Metaanalyse (p-Wert) | 1,50 × 10-31 | 3,18 × 10-31 | 4,43 × 10-29 | 3.12 × 10-28 |
Von den vier am stärksten assoziierten SNPs in der Region 1q21 konzentrierten wir uns auf rs11803731 (p = 3,2 × 10-31), da es sich hierbei um eine kodierende, nicht-synonyme Variante handelt, die sich im dritten Exon von TCHH befindet (obwohl weitere Arbeiten erforderlich sind, um zu bestätigen, dass es sich um die kausale Variante handelt). Das T-Allel bei rs11803731 ist der abgeleitete Zustand und zeigt eine auffällige geografische Spezifität für Europa und West-Zentralasien, wobei die höchste Häufigkeit bei Nordeuropäern erreicht wird (Abbildung 1E), was darauf hindeutet, dass die Variante irgendwo in dieser breiten Region entstanden ist. Die heutige Häufigkeit und Verteilung von De-novo-Mutationen wird im Allgemeinen durch zufällige genetische Drift und Migration bestimmt. Da rs11803731 jedoch einen gut sichtbaren Phänotyp beeinflusst, ist es intuitiv ein naheliegendes Ziel für natürliche oder sexuelle Selektion.13 Das EDAR-Gen, das die Haardicke steuert, zeigt eine der überzeugendsten Signaturen positiver Selektion im ostasiatischen Genom.4 rs11803731 gehört zu den 2,5 % der am stärksten differenzierten SNPs im gesamten Genom zwischen Europäern und anderen Hapmap-II-Populationen (gemessen mit dem FST-basierten lokusspezifischen Zweiglängentest14). Obwohl eine frühere Analyse der erweiterten Haplotyp-Homozygositätsmuster in der Kohorte des Human Genome Diversity Project (HGDP) ebenfalls vorläufige Hinweise auf genetisches Hitchhiking für die Region 1q21.3 in einigen europäischen Populationen zeigt (Ref. 15 und Abbildung S7), ist der Gesamtnachweis der Selektion nicht eindeutig. Die genetischen Signaturen positiver Selektion an einzelnen Loci, wie sie mit aktuellen Tests nachgewiesen werden, variieren jedoch je nach Zeitpunkt, Stärke des Selektionsereignisses, genomischen Merkmalen der Region und der genetischen Architektur (Anzahl, Häufigkeit und Effektgröße der kausalen Loci) des betreffenden Phänotyps16 und sind daher möglicherweise nicht so offensichtlich wie bei anderen oberflächlichen Merkmalen. Die OCA2-Genregion ist beispielsweise ein bekanntes Selektionsziel17 und beeinflusst bekanntermaßen menschliche Pigmentierungsmerkmale, insbesondere die Augenfarbe.18,19
Die Auswirkungen der Variante rs11803731, bei der ein Leucin durch ein Methionin an Position 790 des TCHH-Proteins ersetzt wird, wurden durch In-silico-Analysen mit den Programmen PolyPhen20 und PMut.21 PolyPhen sagte die Veränderung L790M als „gutartig“ voraus, während PMut diese Veränderung als „neutral“ einstufte. Andere Vorhersageprogramme, darunter SIFT22 (siehe Web-Ressourcen) (entweder mit der SNP-ID oder der verwendeten Proteinsequenz) und SNPs3D23 (siehe Web-Ressourcen), die keine Aufzeichnungen über den SNP rs11803731 enthielten, lieferten keine Ergebnisse. Solche Vorhersagen schließen eine funktionelle Rolle nicht aus, da die Wirkung des SNP eher regulatorisch als strukturell sein könnte, insbesondere da der Aminosäureaustausch außerhalb der α-Helix-Regionen stattfindet.23 Oberflächenexponierte Methionine können posttranslational durch reaktive Sauerstoffspezies oxidiert werden, was, wenn es nicht repariert wird, zu Veränderungen in der Proteinstruktur und -aktivität und zu einer veränderten Proteinregulierung führen kann.24
Alternativ kann rs11803731 mit strukturellen Variationen verbunden sein. TCHH ist ein einzelsträngiges α-helicales Protein mit zwei oder drei sich stark wiederholenden Regionen, je nach Spezies (Abbildung S8). Bei Schafen ist das Referenzprotein (CAA79165.1) 1549 Aminosäuren lang, aber die Anzahl der vollständigen und teilweisen Wiederholungen in der C-terminalen Wiederholungsregion variiert zwischen verschiedenen Stämmen.25,26 Beim menschlichen TCHH-Protein reichen die Wiederholungslängen von etwa 6 bis 30 Aminosäuren, was 18 bis 90 bp DNA-Sequenz entspricht. Es gibt eine Reihe von SNPs und Insertions- oder Deletionspolymorphismen, insbesondere in der ersten und dritten Wiederholungsregion (dbSNP; siehe Webressourcen), und dieses Gen könnte allelische Längenvarianten aufweisen, wie dies bei Schafen und bei einem anderen stark repetitiven Gen in der Region des menschlichen Chromosoms 1p21, dem Involucrin (IVL), zu beobachten ist, bei dem sich die Allele in den verschiedenen menschlichen Populationen sowohl in der Anzahl der kurzen Tandemwiederholungen als auch in den Einzelbasenänderungen innerhalb der wiederholten Sequenz unterscheiden.27,28 Eine solche Längenvariation wurde für TCHH nicht berichtet, und es muss noch experimentell bestimmt werden, ob eine solche Variation häufig vorkommt, die Struktur oder Länge des Proteins beeinflusst und/oder durch SNPs, die die wiederholten Regionen flankieren, markiert wird.
Zusammenfassend berichten wir über einen quantitativen Merkmalslocus, der die Haarform bei Europäern beeinflusst. Die Assoziation macht ∼6% der Varianz der Haarmorphologie in dieser Gruppe aus und liegt innerhalb des Trichohyalin-Gens, das eine bekannte Rolle bei der Haarbildung spielt. Die Muster der Allelhäufigkeiten sind auffällig, wobei die höchste Häufigkeit dieser Varianten bei Nordeuropäern beobachtet wurde (Abbildung 1), was mit der Beobachtung der EDAR-Variante für glattes Haar in asiatischen Populationen (Abbildung S9) übereinstimmt.