本文
毛髪形態はヒトの変異の中でもより顕著な特徴の一つで、特にヨーロッパ人の祖先を持つ人々の間では多様で、約45%が直毛、40%が波状毛、15%が巻き毛です(注1)。 最近の研究では、太い直毛に関連するEDAR遺伝子とFGFR2遺伝子のアジア人特有の対立遺伝子が同定され、これらの変異はアジア人とヨーロッパ人の分岐後に生じたことが示唆されています3,4。 しかし、ヨーロッパ人の髪のカール(遺伝性が高いことが示されている5)に影響を与える遺伝子変異は不明である。
我々は、オーストラリアの3つの家族サンプルでゲノムワイド関連解析を行った。思春期の双子とその兄弟のサンプル(837家族から1649人)、一般集団から確認した成人の双子ペアのサンプル(S1、1210家族から1945人、S2、845家族から1251人)だ(表1)5。思春期のサンプルでは、髪のカール度は3点スケール(ストレート、ウェービー、カール状)で評価されていた。 成人サンプルでは、参加者は自分の髪がストレートかカールか(S1)、またはストレート、ウェーブ、カールか(S2)を報告しました。 サンプル間の表現型の収集と年齢の違いを考慮し、各サンプルは独立して分析され、3つのセットの結果を組み合わせるためにメタ分析が使用されました。 3593>
本研究で使用した遺伝子型データは、1988年と1990年の成人健康・生活習慣研究6および青年期メラノーマ危険因子研究7,8から参加した7波にわたる大規模遺伝子型解析プロジェクトに由来するものであった。 各プロジェクトのジェノタイピングには標準的な品質管理フィルターが適用され、インピュテーションはデータ品質の高いサンプルとSNPに限定された(表2)。 ヨーロッパ人以外の祖先を持つ個体はスクリーニングされ、16,140人のジェノタイピングされた個体が得られた(図S2、オンラインで入手可能)。 インピュテーションデータにバイアスがかからないように、7つのサブサンプルに共通するSNPsのセットをインピュテーションに使用した(n = 274,604)。 インピュテーションは、HapMap samples of European ancestry (CEU; build 36, release 22) と MACH.9 からの段階的データを用いて行われた。
表2
Summary Information for the Seven Waves of Genotyping and the Quality Control undertaken
プロジェクト1.Genotyping, Genotyping, Genotyping, Genotyping, Genotyping, Genotyping, Genotyping, Genotyping, Genotyping, Genotyping, Genotyping, Genotyping, Genotyping。 ALCO CIDR | Project 2: ALCO deCODE | Project 3: MIG deCODE | Project 4: EUTWIN | Project 5: ADOL deCODE | Project 6: GL_CIDR | Project 7.ALCO(アルコ) | Project 4: ALCO CIDR | Project 5: ALCO deCODE | Project 6: EUTWIN | ||
---|---|---|---|---|---|---|---|---|---|---|---|
一次表現型 | アルコール使用(集団サンプル) | 片頭痛(ケース/コントロールサンプル) | 脂質レベル(集団サンプル) | メラノーマ危険因子(集団サンプル) | 緑内障 (集団サンプル) | 女性の健康(ケース/コントロールサンプル) | |||||
ジェノタイピングラボ | CIDR | deCODE | ヘルシンキ大学 | deCODE | CIDR | deCODE | |||||
イルミニアSNPプラットフォーム | HumanCNV370-Quadv3 | ヒトCNV370-Quadv3 | ヒト610-Quad | ヒト317K | ヒト610-Quad | ヒト610-Quad | 4241 | 2611 | 999 | 462 | 4391 | 657 | 2360 |
No.3888。 genotyped SNPs | 343,955 | 344,962 | 592,385 | 318,210 | 592,392 | 589,296 | 562,193 | ||||
BeadStudio GenCall score < 0.7 | 24,494 | 27,459 | 46,931 | NAa | 47,418 | 36,877 | 57,589 | ||||
SNPsとなった。95 | 11,584 | 7537 | 8038 | 5021 | 8447 | 12,455 | 33,459 | ||||
SNPs with HWE failure p < 10-6 | 4318 | 1194 | 1221 | 67 | 2841 | 15.のように、SnpsがHWEに失敗する。474 | 1763 | ||||
SNPs with MAF < 0.01/観察されたアレルが1つだけ | 7874 | 8976 | 33,347 | 264 | 33,347 | 28,607 | 24,509 | ||||
No.のSN。 QC後のSNP数 | 323093 | 321,267 | 530,922 | 312,937 | 529.1 | 323093 | 330,922 | 330,922 | 530,922379 | 531,042 | 518,948 |
遺伝子型特定SNPの割合 | 93.93% | 93.13% | 89.62% | 98.34% | 89.36% | 90.11% | 92.31% |
順序尺度で得られる情報を最大限に活用できるように、データは多因子閾値モデルによって分析され、離散形質は負債(または素因)の基礎となる正規分布を反映していると記述された。 多因子効果の総和であるLiabilityは、それぞれが小さな効果を持つ多数の遺伝子と環境因子の複合加法効果を反映していると仮定し、Liabilityが所定の閾値に達したときに生じる表現型の不連続性によって特徴づけられる。10 関連性の検定には、それぞれのSNPの用量(MACH mldose)データを順に閾値モデルに含め、結果として関連性の加法検定を用いることとした。 さらに、性および年齢の固定効果(線形および二次効果)および年齢-性間相互作用は、家族iからの個体jの形質値をパラメータ化するように、すべてのデータ解析において閾値モデルとともに含まれた。 xij = βdose + βage + βage2 + βsex + βsex-age + μ. 参加者間の関連性は明示的にモデル化され、相対するペアの性別が考慮され、表現型の分散は単一に拘束された。 関連性検定統計量は、与えられたSNPの効果を含む完全モデルの適合度(対数尤度のマイナス2倍)と、SNPの効果をモデルから削除した入れ子モデルの適合度を比較することによって計算された。 対数尤度の差は、自由度が2つのモデル間の推定パラメータの差(この場合は1)に等しい漸近的なカイ二乗分布に従います。 3つのサンプルのゲノムインフレーション係数は0.98から1.02の範囲であり(図S3)、このテストが参加者の関連性を正しく制御し、潜在的な技術的および層別化のアーチファクトが結果に無視できない影響を与えることを示した。
染色体1q21.上の4つの相関の高い一塩基多型(SNP)(rs17646946、rs11803731、rs4845418、rs12130862;HapMap CEUサンプル内でr2 > 0.8, D′ > 0.95 )があった。3(図1B)は、ゲノムに存在する約100万個の独立した共通変異を補正した5×10-8のゲノムワイド有意性閾値に達した11(表3、図S4)。 この関連性は3つのサンプルすべてで認められ、この効果はサンプル間の年齢差に頑健であり、責任閾値モデルはサンプル間の表現型定義の違いを説明することが示唆された。 MetalでのN(個体)-weighted解析を用いた3サンプルのメタ解析(Web Resources参照)では、この領域内にあり、直接遺伝子型決定されたSNP rs17646946によってタグ付けされたハプロタイプに該当するSNPのp値が非常に有意であった(p = 1.5 × 10-31)(図1A、1B、表3)。 1q21.3領域における関連は、Trichohyalin遺伝子TCHHを中心としており、分散の∼6%を占めた(図1E、表3)。 さらなる解析の結果、ハプロタイプレベルでの関連はさらなる予測力を提供しないことが示された。 共変量として最適なSNPを解析に含めた場合、この遺伝子座のシグナルを完全に説明することができ、さらなる関連性の証拠は得られなかった(図S5)。 これらのSNPとゲノム上の他のSNPとの間のエピスタシスの証拠も、男女間の異質性も見いだせなかった(図S5およびS6)。 最後に、思春期サンプルにおける領域全体のコピー数変異(CNV)の分析では、18人の個体でCNVの証拠が見つかったが、観察された効果を説明するには頻度が低すぎた(表S2)。 表S3は、メタ分析において、複合p値が1×10-5未満であったすべてのSNPsをリストアップしている。 染色体4q21.21(rs1268789;p=6.58×10-8)には、Fraser症候群1遺伝子FRAS1を中心とした、関連が示唆される第二の領域が観察された。 また、Fujimotoら4が発表した170の候補遺伝子リストについて、メタ解析内の関連性のエビデンスを検討した(表S4)。 TCHH領域で観察された関連性に加えて、乾燥毛と広範囲の外胚葉表現型を特徴とする歯・骨・皮形成異常と関連するWNT10Aで強い関連シグナルが観察された12 (2q35; rs7349332; p = 1.) 。36 × 10-6)。
ゲノムワイド関連結果
(A)3つの独立したサンプルにわたる髪の形態に関するゲノムワイドメタ解析の結果を示すマンハッタンプロット。 3593>
(B) 1q21領域を強調した1番染色体の核型。
(C) 1q21領域の地域相関と連鎖不平衡のプロット。 最も関連性の高いSNPを青で示し、残りのマーカーの色は各パネルのトップSNPとの連鎖不平衡(r2)を反映している(r2の増加に伴い赤色が強くなる)。 組換え率(右側のy軸)は水色でプロットされており、CEU HapMapの母集団を基準としている。 各遺伝子のエクソンは、2006年3月のUCSC Genome Browser assemblyで得られた全アイソフォームを基に、縦棒で表している。
(E)血縁関係のない個人のサンプル(n = 43; n = 493; n = 1132)におけるrs11803731遺伝子型の関数としての直毛(オレンジの棒)、波状(緑の棒)、巻き毛(青の棒)の頻度。 T対立遺伝子が多いほど、直毛の割合が増加する。 縦棒は有病率の95%信頼区間。
表3
1q21.3サンプルにわたる3領域
rs17646946 | rs11803731 | rs4845418 | rs12130862 | |||||||
---|---|---|---|---|---|---|---|---|---|---|
位置(bp) | 150件,329,391 | 150,349,949 | 150,402,854 | 150,293,639 | ||||||
ジェノタイプまたはインピュテーション | ジェノタイプ | インピュテーション | インピュテーション | |||||||
マイナー(基準)アリル | A | T | C | T | ||||||
メジャーアレル | G | A | ||||||||
Minor allele frequency | 18.3% | 18.4% | 17.3% | 18.1% | ||||||
ハーディーワインバーグ平衡 p値 | 0.1% | 0.1% | 17.4% | 18.1% | 0.75 | 0.70 | 0.79 | |||
Rsq(置換精度指標) | – | 0.96 | 0.98 | |||||||
Adolescent sample (n = 1649) | ||||||||||
Allelic effect(β)a | 0.99 | |||||||||
Allelic effect(β)a | 0.98 | |||||||||
0.42 | 0.39 | |||||||||
P値 | 1.24 × 10-11 | 1.76 × 10-11 | 7.59 × 10-11 | |||||||
Alelic effect (β)a | 0.0.50 | 0.50 | 0.49 | 0.45 | ||||||
P値 | 8.18 × 10-13 | 2.51 × 10-12 | 2.22 × 10-11 | 9.9 × 9-11 | 9.0 × 10-11 | 9.0 × 10-12 9.5 × 10-12 | 8.0 × 10-11 9.0 × 10-11 | 9.0 × 10-1169 × 10-11 | ||
Allelic effect (β)a | 0.44 | 0.44 | 0.43 | 0.42 | ||||||
P値 | 7.91 × 10-11 | 1.37 × 10-10 | 8.8 × 10-10 | P値 | 8.8 × 10-10 | 8.8 × 10-11 | 8.8 × 10-10 | 8.8 × 10-10 | 8.8 × 10-11 | 8.8 × 10-1116 × 10-10 |
サンプル間で平均した説明分散b | 6.9×10-10 | |||||||||
6.11% | 5.79% | 5.22% | ||||||||
メタ解析(p値) | 1.50 × 10-31 | 4.43 × 10-29 | 3.92 × 10-28 | メタ解析(p値) | ||||||
3.54 × 10-31 | 3.54 × 10-31 | 3.54 × 10-3112 × 10-28 |
1q21領域で最も関連性の高い4つのSNPのうち,rs11803731(p=3.2×10-31)に注目したのは,これがTCHHの第3エキソンに位置するコーディング,非同義変異体である(これが原因変異であると確認するにはさらに研究が必要であるが)ためであった。 rs11803731のT対立遺伝子は派生型であり、ヨーロッパと西中央アジアに顕著な地理的特異性を示し、北欧で最も頻度が高い(図1E)ことから、この変異はこの広い地域のどこかで生じたことが示唆される。 現代のde novo変異の頻度と分布は、一般にランダムな遺伝的ドリフトと移動によって決定されると考えられる。 rs11803731は、ヨーロッパ人と他のHapmap II集団との間で、ゲノム上で最も分化したSNPsの上位2.5%に入っている(FSTベースの遺伝子座特異的分岐長検定14で測定)。 ヒトゲノム多様性プロジェクト(HGDP)コホートにおける拡張ハプロタイプホモ接合パターンの以前の解析でも、いくつかのヨーロッパ人集団における1q21.3領域の遺伝的ヒッチハイクの暫定的な証拠が示されているが(文献15および図S7)、選択の全体的証拠はあいまいである。 しかし、現在の検査で検出されるような個々の遺伝子座における正の選択の遺伝的サインは、選択的事象の時期、強さ、その領域のゲノム特性、問題の表現型の遺伝的構造(原因遺伝子座の数、頻度、効果量)により異なるため16、他の表面的形質に関するものほど明白ではない可能性がある。 例えば、OCA2遺伝子領域は、選択のターゲットとして確立されており17、ヒトの色素形成形質、特に目の色に影響を与えることが知られている18,19
TCHHタンパク質の790位のロイシンをメチオニンに置換したrs11803731変異の影響は、プログラムPolyPhen20とPMutによるin silico分析で予測された21。 SIFT22 (Web Resources 参照) (SNP ID またはタンパク質配列が使用される) および SNPs3D23 (Web Resources 参照) を含む他の予測プログラムでは、rs11803731 SNP の記録がなく、結果が返されなかった。 このような予測は、特にアミノ酸置換がα-ヘリカル領域の外側に位置することから、SNPの影響が構造的というよりむしろ制御的である可能性を考えると、機能的役割を排除するものではない。24
あるいは、rs11803731は構造的変異と関連しているかもしれない。 TCHHは一本鎖のα-ヘリカルタンパク質であり、種によって2つまたは3つの高度な反復領域がある(図S8)。 ヒツジでは、参照タンパク質(CAA79165.1)は1549アミノ酸長であるが、C末端反復領域における完全および部分的反復の数は、異なる系統間で変動が見られる25,26。ヒトTCHHタンパク質では、反復長は約6から30アミノ酸で、18から90bpのDNA配列に相当している。 この遺伝子は、ヒツジやヒト染色体1p21領域のもう一つの高反復遺伝子であるインボルクリン(IVL)に見られるように、対立遺伝子の長さの変異を持つ可能性があり、ヒト集団間でショートタンデムリピートと繰り返し配列内の一塩基変化の数が異なっている27,28。 3593>
結論として、我々はヨーロッパ人の髪の形に影響する量的形質遺伝子座を報告した。 その関連はこのグループの毛髪形態の分散の約 6%を占め、毛髪形成に役割を持つことが知られているTrichohyalin遺伝子内に位置している。 対立遺伝子頻度のパターンは顕著であり、これらの変異の頻度は北ヨーロッパ人で最も高く(図1)、アジア人集団における直毛のEDAR変異の観察(図S9)と類似している
。