PMC

author
16 minutes, 7 seconds Read

Texte principal

La morphologie des cheveux est l’une des caractéristiques les plus voyantes de la variation humaine et est particulièrement diversifiée chez les personnes d’ascendance européenne, pour lesquelles environ 45% des individus ont des cheveux raides, 40% des cheveux ondulés et 15% des cheveux bouclés1. Le degré de frisure est corrélé à la distribution des kératines capillaires et au type de cellules au sein de la fibre capillaire, le nombre de cellules mésocorticales diminuant à mesure que la frisure s’intensifie.2 Des études récentes ont identifié des allèles des gènes EDAR et FGFR2 spécifiques à l’Asie qui sont associés à des cheveux épais et raides, ce qui suggère que ces variantes sont apparues après la divergence des Asiatiques et des Européens.3,4 Cependant, les variantes génétiques influençant la frisure des cheveux chez les Européens (dont il a été démontré qu’elle est hautement héréditaire5) sont inconnues.

Nous avons réalisé des analyses d’association à l’échelle du génome dans trois échantillons familiaux australiens : un échantillon de jumeaux adolescents et de leurs frères et sœurs (1649 individus issus de 837 familles) et deux échantillons de paires de jumeaux adultes (S1, 1945 individus issus de 1210 familles ; S2, 1251 individus issus de 845 familles) déterminés à partir de la population générale (tableau 1).5 Dans l’échantillon d’adolescents, la frisure des cheveux était évaluée sur une échelle en trois points (droit, ondulé ou bouclé). Dans les échantillons d’adultes, les participants ont indiqué si leurs cheveux étaient raides ou bouclés (S1) ou raides, ondulés ou bouclés (S2). Pour tenir compte des différences de collecte de phénotypes et d’âge entre les échantillons, chaque échantillon a été analysé indépendamment et une méta-analyse a été utilisée pour combiner les trois séries de résultats. Ces études ont été réalisées avec l’approbation des comités d’éthique appropriés et le consentement éclairé de tous les participants.

Les données génotypiques utilisées dans l’étude actuelle proviennent d’un projet de génotypage plus vaste comprenant sept vagues de génotypage qui ont attiré des participants de nos études de 1988 et 1990 sur la santé et le mode de vie des adultes6 et de notre étude sur les facteurs de risque de mélanome chez les adolescents.7,8 Les données génotypiques de chaque projet sont décrites dans le tableau 2. Les données génotypiques de chaque projet sont décrites au tableau 2. Des filtres de contrôle de qualité standard ont été appliqués au génotypage de chaque projet, limitant l’imputation aux échantillons et aux SNP dont la qualité des données était élevée (tableau 2). Les individus ont été sélectionnés pour leur ascendance non-européenne, ce qui a permis d’obtenir un échantillon de 16 140 individus génotypés (figure S2, disponible en ligne). Afin de ne pas introduire de biais dans les données imputées, un ensemble de SNP communs aux sept sous-échantillons a été utilisé pour l’imputation (n = 274 604). L’imputation a été réalisée à l’aide des données en phase des échantillons HapMap d’ascendance européenne (CEU ; build 36, release 22) et MACH.9

Tableau 2

Information sommaire pour les sept vagues de génotypage et le contrôle de qualité entrepris

Projet 1 : ALCO CIDR Projet 2 : ALCO deCODE Projet 3 : MIG deCODE Projet 4 : EUTWIN Projet 5 : ADOL deCODE Projet 6 : GL_CIDR Projet 7 : WH deCODE
Phénotype primaire Consommation d’alcool (échantillon de population) Consommation d’alcool (échantillon de population) Migraine (échantillon cas/témoin) Taux de lipides (échantillon de population) Facteurs de risque de mélanome (échantillon de population) Glaucome. (échantillon de population) Santé des femmes (échantillon cas/contrôle)
Laboratoire de génotypage CIDR deCODE deCODE Université d’Helsinki deCODE CIDR deCODE
Plate-forme SNP d’Illuminia HumanCNV370-.Quadv3 HumanCNV370-Quadv3 Human610-Quad Human 317K Human610-Quad Human610-Quad Human610-Quad
No. d’échantillons génotypés 4241 2611 999 462 4391 657 2360
No. de SNP génotypés 343,955 344,962 592,385 318,210 592,392 589,296 562,193
Score GenCall de BeadStudio < 0.7 24,494 27,459 46,931 NAa 47,418 36,877 57,589
SNPs avec taux d’appel < 0.95 11,584 7537 8038 5021 8447 12,455 33,459
SNP avec échec HWE p < 10-6 4318 1194 1221 67 2841 15,474 1763
SNPs avec MAF < 0.01/ seulement 1 allèle observé 7874 8976 33,347 264 33,347 28,607 24,509
No. de SNP après CQ 323093 321,267 530,922 312,937 529,379 531,042 518,948
Pourcentage de SNP génotypés 93.93% 93,13% 89,62% 98,34% 89,36% 90,11% 92,31%

Pour chaque projet, l’ADN a été extrait conformément aux protocoles standard. Dans tous les projets, les participants ont été génotypés sur les plateformes SNP 317K, 370K ou 610K d’Illumina, et les génotypes ont été appelés avec le logiciel BeadStudio d’Illumina. Après le contrôle de qualité (CQ) des projets individuels, les données des sept vagues de génotypage ont été intégrées. Comme le montre la figure S1, un certain nombre d’échantillons ont été dupliqués entre les différents projets de génotypage, ce qui a permis un contrôle de qualité croisé. Après l’intégration des ensembles de données, les données ont été examinées pour détecter les manques au sein des individus (>5%, en tenant compte du nombre de SNP qui ont été génotypés pour chaque individu), les erreurs de pedigree et de sexe, et les erreurs mendéliennes (les génotypes de tous les membres de la famille pour un SNP donné ont été supprimés lors de la détection des erreurs). Après CQ, dans les cas où un individu d’une paire de jumeaux monozygotes avait été génotypé, des génotypes en double ont été attribués au cotwin non génotypé, ce qui a donné un échantillon de 16 507 individus. Après le dépistage de l’ascendance non-européenne (figure S2), on obtient un échantillon final de 16 140 individus. HWE désigne l’équilibre de Hardy-Weinburg.

Les données aGenCall n’étaient pas disponibles pour cet échantillon.

Pour pouvoir tirer pleinement parti des informations disponibles dans l’échelle ordinale, les données ont été analysées via un modèle de seuil multifactoriel qui décrit les traits discrets comme reflétant une distribution normale sous-jacente de la responsabilité (ou prédisposition). La responsabilité, qui représente la somme de tous les effets multifactoriels, est supposée refléter les effets additifs combinés d’un grand nombre de gènes et de facteurs environnementaux, chacun ayant un faible effet, et est caractérisée par des discontinuités phénotypiques qui se produisent lorsque la responsabilité atteint un seuil donné.10 Un test d’association total a été utilisé, dans lequel les données de dosage (MACH mldose) pour chaque SNP ont été incluses à leur tour dans le modèle à seuil, ce qui a donné lieu à un test d’association additif. En outre, les effets fixes du sexe et de l’âge (effets linéaires et quadratiques) et les interactions âge-sexe ont été inclus avec les modèles à seuil dans toutes les analyses de données, de sorte que la valeur du trait pour l’individu j de la famille i a été paramétrée comme suit : xij = βdose + βage + βage2 + βsex + βsex-age + μ. La parenté entre les participants a été explicitement modélisée, en tenant compte du sexe des paires de parents, et les variances phénotypiques ont été contraintes à l’unité. La statistique du test d’association a été calculée en comparant l’ajustement (moins deux fois la log-vraisemblance) du modèle complet, qui incluait l’effet du SNP donné, à celui d’un modèle imbriqué, dans lequel l’effet du SNP avait été supprimé du modèle. La différence entre les log-vraisemblances suit une distribution asymptotique du chi carré, les degrés de liberté étant égaux à la différence entre les paramètres estimés des deux modèles (dans ce cas, un). Les facteurs d’inflation génomique des trois échantillons varient de 0,98 à 1,02 (figure S3), ce qui indique que le test a correctement contrôlé la parenté des participants et que les artefacts techniques et de stratification potentiels ont eu un impact négligeable sur les résultats.

Quatre polymorphismes mononucléotidiques (SNP) fortement corrélés (rs17646946, rs11803731, rs4845418, rs12130862 ; r2 > 0,8, D′ > 0,95 au sein de l’échantillon HapMap CEU) sur le chromosome 1q21.3 (figure 1B) a atteint notre seuil de signification à l’échelle du génome de 5 × 10-8, qui corrige pour ∼1 million de variants communs indépendants dans le génome11 (tableau 3, figure S4). L’association a été trouvée dans les trois échantillons, ce qui suggère que l’effet est robuste aux différences d’âge entre les échantillons et que le modèle de seuil de responsabilité a pris en compte les différences de définition phénotypique entre les échantillons. La méta-analyse des trois échantillons à l’aide d’une analyse pondérée par N (individus) dans Metal (voir Ressources Web) a donné des valeurs p hautement significatives pour les SNP qui se trouvent dans cette région et qui tombent sur un haplotype marqué par le SNP rs17646946 directement génotypé (p = 1,5 × 10-31) (figures 1A et 1B, tableau 3). L’association dans la région 1q21.3 est centrée sur le gène de la trichohyaline TCHH et représentait ∼6 % de la variance (figure 1E, tableau 3). Une analyse plus poussée a montré que l’association au niveau de l’haplotype n’offrait pas de pouvoir prédictif supplémentaire. L’inclusion des meilleurs SNP en tant que covariables dans les analyses n’a donné aucune autre preuve d’association, rendant complètement compte du signal à ce locus (Figure S5). Nous n’avons trouvé aucune preuve d’épistasie entre ces SNP et tout autre SNP à travers le génome, ni aucune hétérogénéité entre les sexes (Figures S5 et S6). Enfin, bien que l’analyse de la variation du nombre de copies (CNV) à travers la région dans l’échantillon d’adolescents ait trouvé des preuves de CNV chez 18 individus, elle était trop peu fréquente pour expliquer l’effet observé (Tableau S2). Le tableau S3 énumère tous les SNP dont la valeur p combinée est inférieure à 1 × 10-5 pour la méta-analyse. Une deuxième région d’association suggestive a été observée sur le chromosome 4q21.21 (rs1268789 ; p = 6,58 × 10-8), centrée sur le gène FRAS1 du syndrome de Fraser 1. Nous avons également examiné les preuves d’association dans le cadre de la méta-analyse pour la liste de 170 gènes candidats publiée par Fujimoto et al.4 (tableau S4). Outre l’association observée dans la région TCHH, de forts signaux d’association ont été observés dans WNT10A, associé à la dysplasie odonto-onycho-dermique, qui se caractérise par des cheveux secs et un large éventail de phénotypes ectodermiques12 (2q35 ; rs7349332 ; p = 1.36 × 10-6).

Résultats de l’association pangénomique

(A) Graphique de Manhattan montrant les résultats de la méta-analyse pangénomique de la morphologie des cheveux à travers trois échantillons indépendants. Les SNP avec un p < 10-5 sont surlignés en vert.

(B) Caryotype du chromosome 1 mettant en évidence la région 1q21.

(C) Tracé d’association régionale et de déséquilibre de liaison pour la région 1q21. Le SNP génotypé le plus associé est représenté en bleu, et la couleur des autres marqueurs reflète le déséquilibre de liaison (r2) avec le SNP supérieur dans chaque panneau (teinte rouge croissante associée à l’augmentation de r2). Le taux de recombinaison (axe y de droite) est tracé en bleu clair et est basé sur la population CEU HapMap. Les exons de chaque gène sont représentés par des barres verticales, sur la base de toutes les isoformes disponibles à partir de l’assemblage du Genome Browser de l’UCSC de mars 2006.

(D) Fréquence des allèles mineurs pour le SNP TCHH rs11803731, sur la base du Human Genome Diversity Project29.

(E) Fréquence des cheveux raides (barres orange), ondulés (barres vertes) et frisés (barres bleues) en fonction du génotype rs11803731 dans un échantillon d’individus non apparentés (n = 43 ; n = 493 ; n = 1132). Plus il y a d’allèles T, plus la proportion de cheveux raides augmente. Les barres verticales correspondent aux intervalles de confiance à 95% sur la prévalence.

Tableau 3

Détails des SNP significatifs à l’échelle du génome dans la région 1q21.3 dans les trois échantillons

.

rs17646946 rs11803731 rs4845418 rs12130862
Position (pb) 150,329,391 150,349,949 150,402,854 150,293,639
Génotypée ou imputée génotypée imputée imputée imputée
Allèle mineur (de référence) A T C T
Allèle majeur G A G A
Fréquence de l’allèle mineur 18.3% 18,4% 17,3% 18,1%
Equilibre de Hardy-Weinburg valeur p 0.73 0,75 0,70 0,79
Rsq (métrique de précision d’imputation) 0.92 0,96 0,98
Échantillon d’adolescents (n = 1649)
Effet allélique (β)a 0.41 0,42 0,42 0,39
P-value 1,24 × 10-11 1,76 × 10-11 3,68 × 10-11 7.59 × 10-11
Adulte S1 (n = 1945)
Effet allélique (β)a 0.50 0,50 0,49 0,45
P-value 8,18 × 10-13 2,51 × 10-12 2,22 × 10-11 9.69 × 10-11
Adulte S2 (n = 1251)
Effet allélique (β)a 0.44 0,44 0,43 0,42
P-value 7,91 × 10-11 1,37 × 10-10 1,15 × 10-9 8.16 × 10-10
Calculs croisés entre échantillons
Variance expliquéeb moyenne des échantillons 6.11% 6,11% 5,79% 5,22%
Analyse méta (valeur p) 1,50 × 10-31 3,18 × 10-31 4,43 × 10-29 3.12 × 10-28
aLes β alléliques rapportés ici doivent être interprétés en référence au modèle de seuil de responsabilité, qui cartographie les données sur une distribution normale standard dans laquelle les seuils entre les catégories sont cartographiés par rapport à la distribution z. Par exemple, un β de 0,41 indique que le seuil divisant les catégories droites et ondulées est déplacé de 0,41 unité z vers la droite pour chaque allèle de risque qu’un individu possède.
bCalculé comme β2, dans lequel p est la fréquence de l’allèle mineur et β est l’effet allélique additif.

Parmi les quatre SNP les plus associés dans la région 1q21, nous nous sommes concentrés sur le rs11803731 (p = 3,2 × 10-31), car il s’agit d’une variante codante non synonyme située dans le troisième exon de TCHH (bien que des travaux supplémentaires soient nécessaires pour confirmer qu’il s’agit de la variante causale). L’allèle T du rs11803731 est l’état dérivé et présente une spécificité géographique frappante pour l’Europe et l’Asie centrale occidentale, atteignant sa fréquence la plus élevée chez les Européens du Nord (figure 1E), ce qui suggère que le variant est apparu quelque part dans cette vaste région. La fréquence et la distribution modernes des mutations de novo sont généralement déterminées par la dérive génétique aléatoire et la migration. Cependant, comme le rs11803731 influence un phénotype très visible, il constitue intuitivement une cible évidente pour la sélection naturelle ou sexuelle.13 Le gène EDAR, qui contrôle l’épaisseur des cheveux, présente l’une des signatures les plus convaincantes de sélection positive dans le génome de l’Asie de l’Est.4 Le rs11803731 figure parmi les 2,5 % de SNP les plus différenciés dans le génome entre les Européens et les autres populations de Hapmap II (selon le test de longueur de branche spécifique au locus basé sur la TSF14). Bien qu’une analyse précédente des schémas d’homozygotie des haplotypes étendus dans la cohorte du Human Genome Diversity Project (HGDP) montre également des preuves provisoires d’auto-stop génétique pour la région 1q21.3 dans certaines populations européennes (réf. 15 et figure S7), les preuves globales de sélection sont ambiguës. Cependant, les signatures génétiques d’une sélection positive sur des loci individuels, telles que détectées par les tests actuels, varient en fonction du moment, de la force de l’événement sélectif, de la caractéristique génomique de la région et de l’architecture génétique (nombre, fréquence et ampleur de l’effet des loci responsables) du phénotype en question16 et peuvent donc ne pas être aussi évidentes que celles associées à d’autres traits superficiels. Par exemple, la région du gène OCA2 est une cible de sélection bien établie17 et est connue pour influencer les traits de pigmentation humains, en particulier la couleur des yeux.18,19

L’effet de la variante rs11803731, remplacement d’une leucine par une méthionine en position 790 de la protéine TCHH, a été prédit par des analyses in silico avec les programmes PolyPhen20 et PMut.21 PolyPhen a prédit que la modification L790M était  » bénigne « , tandis que PMut a prédit que cette modification était  » neutre « . Aucun résultat n’a été retourné pour d’autres programmes de prédiction, y compris SIFT22 (voir Ressources Web) (avec soit l’ID du SNP, soit la séquence protéique utilisée) et SNPs3D23 (voir Ressources Web) qui ne contenait aucun enregistrement du SNP rs11803731. Ces prédictions n’excluent pas un rôle fonctionnel, étant donné que l’effet du SNP peut être réglementaire plutôt que structurel, en particulier parce que le remplacement de l’acide aminé se situe en dehors des régions α-hélicoïdales.23 Les méthionines exposées en surface peuvent être oxydées par des espèces réactives de l’oxygène de manière post-traductionnelle, ce qui, si elles ne sont pas réparées, peut entraîner des changements dans la structure et l’activité de la protéine et peut conduire à une régulation altérée de la protéine.24

Alternativement, le rs11803731 peut être associé à une variation structurelle. La TCHH est une protéine α-hélicoïdale simple brin avec deux ou trois régions hautement répétitives, selon l’espèce (figure S8). Chez le mouton, la protéine de référence (CAA79165.1) a une longueur de 1549 acides aminés, mais on observe une variation du nombre de répétitions complètes et partielles dans la région répétitive C-terminale entre les différentes souches.25,26 Dans la protéine TCHH humaine, les longueurs de répétition vont d’environ 6 à 30 acides aminés, correspondant à 18 à 90 pb de séquence d’ADN. Un certain nombre de SNP et de polymorphismes d’insertion ou de délétion sont présents, en particulier dans la première et la troisième région répétée (dbSNP ; voir Ressources Web), et ce gène pourrait abriter des variantes de longueur allélique, comme cela a été observé chez les moutons et dans un autre gène hautement répétitif dans la région du chromosome 1p21 humain, l’involucrine (IVL), où les allèles diffèrent selon les populations humaines en ce qui concerne le nombre de répétitions en tandem courtes et les changements de base unique dans la séquence répétée.27,28 Une telle variation de longueur n’a pas été rapportée pour la TCHH, et il reste à déterminer expérimentalement si une telle variation est commune, si elle affecte la structure ou la longueur de la protéine, et/ou si elle est marquée par les SNP flanquant les régions répétées.

En conclusion, nous rapportons un locus de trait quantitatif qui affecte la forme des cheveux chez les Européens. L’association représente ∼6% de la variance de la morphologie des cheveux dans ce groupe et se situe dans le gène de la trichohyaline, qui a un rôle connu dans la formation des cheveux. Les schémas des fréquences alléliques sont frappants, la fréquence la plus élevée de ces variants étant observée chez les Européens du Nord (figure 1), parallèlement à l’observation du variant EDAR pour les cheveux raides dans les populations asiatiques (figure S9).

Similar Posts

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée.