【研究进展】沈侠团队取得基因组遗传多效性评估新进展

        遗传多效性(Pleiotropy)是有着超过一个多世纪历史的遗传学概念,描述一个DNA变异或基因同时影响多个性状的现象。近十五年,大量的全基因组关联研究(Genome-Wide Association Studies,GWAS)表明人类的复杂性状普遍具有“微效多基因”的遗传图谱——即受许多基因及变异的影响,而每个基因及变异对复杂性状的效应十分微小。从而,基因组中大量的变异普遍具有遗传多效性。那么,对于我们所研究的各种人类性状,哪个变异或基因对我们的影响最大呢?

      现有的GWAS结果可以帮助我们回答这一问题,但却并非易事。在综合考虑遗传变异或基因对很多性状的影响时,如何将微小的遗传效应(Genetic Effect)与数据中的噪声(Noise)区别开有很大难度。我们通常可以对GWAS结果根据其统计学显著性人为设定一个阈值,但这样简单的手段并不能有效地区分遗传效应的有无。GWAS是典型的多重检验问题,使用宽松的阈值(如P < 0.05)显然会导致过多的假阳性,而严格的阈值(例如常用的基因组显著性水平P < 5×10−8)则会导致过多的假阴性。然而,若直接舍弃显著性阈值,直接将所有表型的遗传效应直接相加也会引入过多的来自无遗传效应变异的噪声。此外,不同性状之间的相关性也需要被合理地考虑。

       2021年5月14日,中山大学有害生物控制与资源利用国家重点实验室沈侠教授团队在 Nature Communications  杂志上发表了题为 Total genetic contribution assessment across the human genome 的论文。该研究开发了一种不依赖统计阈值来估计单个变异总遗传效应的新方法(Total Genetic Contribution Assessment, TGCA),解决了上述困难,并对 UK Biobank 中各类性状进行了全基因组各个变异遗传总效应评估。

图

 

       这项研究中,作者运用混合分布模型对单个遗传变异在多个性状上的遗传效应进行统计建模,将遗传效应分为正遗传效应、无遗传效应、以及负遗传效应三个部分。该模型在区分有无遗传效应的同时,同时考虑了遗传效应影响的广度(即遗传多效性)和遗传效应影响的深度(即遗传效应的大小)。通过对混合分布模型的拟合,作者利用估计得到的正负遗传效应的比例及均值,设计出一个新的总遗传效应统计量(TGCA Θ),并通过大量的模拟计算证明了TGCA方法可以在各种情况下有效地估计总遗传效应。

       作者运用TGCA方法评估了全基因组各个遗传变异对UK Biobank中五类复杂性状或疾病的总遗传效应,包括医疗健康情况(122个性状)、体格特征(117个性状)、生活方式(172个性状)、心理健康情况(189个性状)、以及饮食状况(139个性状),提供了全基因组遗传变异对五种类型性状总贡献的图谱。研究发现,人类HLA位点对健康相关性状有最突出的遗传效应,骨密度位点WNT16对体格特征性状有最突出效应,而皮肤着色位点MC1R和吸烟易感位点CHRNA3对生活方式相关性状有突出的遗传效应(图)。

图

图:TGCA方法对UK Biobank中三类性状的总遗传效应评估

 

       此外,作者通过将遗传变异对各类性状的总遗传效应与GTEx中48个人体组织的基因表达数据进行整合,检验了总遗传效应在组织器官中的富集程度,从而将总遗传效应关联到组织器官水平。例如,研究发现,心理健康相关性状的整体遗传效应在大脑特异表达的基因中富集,而其他类型性状的整体遗传效应在大脑中无显著富集。已有研究表明基因和蛋白质表达的顺式调控元件集中在转录起始位点附近,而这些区域富集了复杂性状的遗传力。作者发现,如果一个特定的组织富集了某一类型性状的总遗传效应,则在这一组织特异表达的基因的顺式调控位点(cis-eQTL)也同样富集这一类型性状的总遗传效应,从而说明总遗传效应与人体组织的关联是由组织特异表达基因的顺式调控元件驱动的。

       这一统计遗传学的前沿研究对遗传多效性进行了新的解读,通过开发并运用新的总遗传效应评估方法,分析当今GWAS结果大数据资源,提供了人类遗传变异对多种复杂性状的总遗传效应图谱。新方法能有效挖掘现有数据的更多信息,有望在多组学与基因组结合的数据分析中有重要应用。

 

       原文链接:

       http://doi.org/10.1038/s41467-021-23124-w