GWAS全基因组关联分析

作者:黄树嘉
链接:https://zhuanlan.zhihu.com/p/59767114
来源:知乎

来源:https://www.jianshu.com/p/acdc4a22e30a

作者:努力呗还能咋样呐 https://www.bilibili.com/read/cv6999299 出处:bilibili

 

关联分析(Association):在交易数据、关系数据或其他信息载体中,查找存在于项目集合或对象集合之间的频繁模式、关联、相关性或因果结构。也就是发现交易数据库中不同商品之间的联系。

举例说明:

关联分析是从大量数据中发现项集之间有趣的关联和相关联系。关联分析的一个典型例子是购物篮分析。该过程通过发现顾客放入其购物篮中的不同商品之间的联系,分析顾客的购买习惯。通过了解哪些商品频繁地被顾客同时购买,这种关联的发现可以帮助零售商制定营销策略。其他的应用还包括价目表设计、商品促销、商品的排放和基于购买模式的顾客划分

 

全基因组关联分析(GWAS):是对多GWAS个个体在全基因组范围的遗传变异(标记)多态性进行检测,获得基因型,进而将基因型与可观测的性状(表型)进行群体水平的统计学分析,根据统计量或显著性p值筛选出最有可能影响该性状的遗传变异(标记),挖掘与性状变异相关的基因。

相关说明:

应用基因组中数以百万计的单核苷酸多态SNP进行全基因组水平上的对照分析或相关性分析,通过比较发现影响复杂性状的基因变异的一种新策略。在全基因组范围内选择遗传变异进行基因分析,比较异常和对照组之间每个遗传变异及其频率的差异,统计分析每个变异与目标性状之间的关联性大小,选出最相关的遗传变异进行验证,并根据验证结果最终确认其与目标性状之间的相关性 

 

连锁不平衡(Linkage disequilibrium):又称等位基因关联。当位于某一座位的特定等位基因与某一等位基因同时出现的概率大于群体中因随机分布的两个等位基因同时出现的概率,该现象就是连锁不平衡让现象。

相关说明:

如果不存在连锁不平衡,既是等位型间相互独立,随机组合。则:P(AB)= P(A)*P(B)

如果发生连锁不平衡,既是等位型之间相互联系。则:P(AB)= P(A)*P(B)+D  D表示两点间LD程度值

 

在GWAS研究中,Manhattan plot和QQ plot是最常画的两类图,它们可以把跟研究的性状(比如,基因型和身高)显著相关的基因位点清晰地展现出来。

曼哈顿图(Manhattan plot):把GWAS分析之后所有SNP位点的p-value在整个基因组上从左到右依次画出来。并且,为了更加直观地表达结果,通常会将p-value转换为-log10(p-value)。这样,Y轴的高度就对应了与表型性状或者疾病的关联程度,Y轴越高即p-value越低,则关联度越强

相关说明:

而且,一般而言,由于连锁不平衡(LD)关系的原因,那些在强关联位点周围的SNP也会跟着显示出类似的信号强度,并依次往两边递减。由于这个原因,我们在曼哈顿图上就会看到一个个整齐的信号峰(如下图红色部分)。

GWAS全基因组关联分析

Q-Q plot(QQ图):说用数据和曼哈顿图一样,但是更加能体现出GWAS结果的好坏,它是GWAS研究中重要的质控图。QQ plot全称是quantile-quantile plot,也就是分位图,是一种通过比较两个概率分布的分位数从而实现对两个概率分布进行比较的概率图方法。所以,如果两个概率分布相同,那么它们的分位数也应该相同或者重叠在同一条直线上。

 

 

在GWAS分析中,当我们通过曼哈顿图看到某些SNP和表型性状有者很强的相关信号时,依然不能直接认为这些位点就与表型显著相关。原因:基因组上基因位点的突变通常有两个来源:

  • 第一是自然选择(Selection),我这里所说的自然选择不仅指达尔文在《进化论》中所描述的物竞天择,还指所有对物种适应性有影响作用的“力量”,比如高辐射环境、疾病、病毒等,这也是我们在GWAS研究中真正关心的突变;
  • 第二是遗传漂变(genetics drift),它是一种比较随机的基因组突变而且数量也不少,虽然也是物种演化的一种重要力量,但是由于它的突变都比较随机,目前认为它与环境的变迁没有必然联系,但也会在某些时候,有些随机的突变带来了生存优势,便会在种群中显示出它的作用。但绝大多数情况下,对于已经在群体中稳定存在的性状而言,并不认为它们有明显的作用,所以GWAS研究是不关心这一类突变的,我们要把它们全部排除掉。如果你发现自己得到的结果全部是这样的变异的话,那么,应该重新考虑一下如何重新设计这个分析,包括是否应该增加样本量以及想办法排除技术错误以及干扰因素等方面,或者也可能它们之间就是没有关系。
强关联信号遗传漂变的存在,在GWAS上会给我们带来一个问题,那就是无法直观地把它们识别并排除出去,甚至你都判断不了自己的研究是否只是充满了这类无效信息。   那么现在的问题就是,我们应该如何做才能够有效地判断出这个研究中所获得关联结果确实是与表型性状或者疾病相关的呢?——QQ-plot 在GWAS中,QQ-plot的纵轴是SNP位点的p-value值,横轴是则是均匀分布的概率值。   横轴的这个概率值是如何计算的呢?实际上,它就是均匀分布的分位数。分位数的个数与GWAS研究的SNP位点数是一一对应的。比如我们研究中使用了5百万个基因位点,那么分位数的个数也是5百万个,从1/5000000,2/5000000,3/5000000,...一直往下排直到5000000/5000000,当然都是转换为-log10,然后与GWAS p-value一起作图而成(如下图) GWAS全基因组关联分析 得到QQ plot之后,如果通过它来协作判断我们的GWAS结果是否与表型性状相关呢?

判断的秘密就在横轴为什么要用均匀分布而不是选择其它分布上。这是因为均匀分布恰好可以用来近似描述基因组上的随机漂变现象。如果表型性状并非真的受自然选择所左右,那么你应该会看到GWAS p-value的分布和均匀分布的结果将集中在一条直线上,如果不是那么就应该能够看到相互分离的情况,特别是p-value越低的时候分离程度就越高,QQ-plot会翘起来(这是因为GWAS的零假设就是与随机突变相比没有区别)。

而且,我们知道基因组上的随机漂变是一定存在的,所以一定会有位点与随机漂变相关,特别是是在p-value比较大的位点看起来就应该和随机漂变重叠,这就表现在QQ-plot的前半部分里。这位点的分布会和均匀分布重叠!而且,比较好的结果是,当p-value < 10^-3时,GWAS结果开始与均匀分布出现快速分离——也就是说,自然选择的力量明显地显示出来了,使得结果在群体中快速摆脱随机性,最后看到一个高高翘起的QQ-plot。这时基本就可以断定,我们所研究的表型和基因型之间是存在着显著相关的自然选择作用的。

这也是我们在评估一个GWAS研究时最基本的一个判断。

上一篇:matplotlib.pyplot 库(二)


下一篇:每日日报