看了几篇LD的相关文章,都只有公式没有相关的解释,所以尝试自己理解一下。
- 等位基因(alleles): 同一位点上可能出现的基因,例如ABO血型基因
- 基因型(genotype): 同一位点上两个等位基因的组合。
- 基因频率(allele frequency):人群中一个等位基因占该位点全部基因的比例。
- 基因型频率(allele frequency):人群中特定基因型占该位点全部基因型的比例。
- 单体型(
haplotype
)是指一条染色体上紧密相连的两个或两个以上基因座一组等位基因的基因型,通常作为一个单位遗传不同基因座位的各等位基因在人群中以一定的频率出现。 - 称连锁不平衡 (
linkage disequilibrium,LD
):在某一群体中,不同座位上某两个等位基因出现在同一条单元型上的频率与预期的随机频率之间存在明显差异的现象。
简单点说,就是随机先后抛两枚骰子A,B,这两枚骰子的数字应该互不影响,我想抛出一个“A骰子是6,B骰子也是6”的情况(6,6),理论上概率是1/36。但我现在有两枚骰子很特殊,骰子A抛出6点的时候,骰子B一定也是6点,我手上的两枚骰子出现(6,6)的概率就是1/6,而不是理论的1/36,这时候我手上的两枚骰子就是“连锁不平衡”。
假设在同一染色体上有临近的两个双等位基因位点A和B,4个等位基因的频率分别为、、和。我们就能画出如下表格:
B | b | total | |
A | |||
a | |||
total | 1 |
如果两个位点之间完全独立分离,那么单倍型AB的频率的期望值为,而如果观察到的实际频率为,那么两个位点之间的连锁不平衡程度可以表达为如下式子:
只要D不等于0,就是连锁不平衡。
同理,利用上面表格里的数据,我们也能有如下代换
这个D的范围是和等位基因A、B的频率挂钩的,我们没法用它来在等位基因间做比较。
知道,D的范围该怎么算?
注意到我们之前有个表,只要让做一点小小的替换
B | b | |
A | ||
a |
由于每个格子里面都是基因型的频率,所以每个格子的取值范围都是≥0
计算就能得出D的范围
上面这个不等式中,我已经用和代换过了。
因为D的范围不同,导致不同等位基因的D值不能做比较,那么一个显而易见的的想法就是将D的范围归一化,于是我们就有了一个D’:
- 当两个位点组成的可能4种单倍型只出现其中3种时,
D’=±1
,即两个位点处于“完全连锁不平衡(complete LD
)”。如果两个等位基因频率相近时,较高的D‘值意味着较高的连锁不平衡程度。 - 而|
D'|<1
的时候,D’
的数值究竟表征了多大程度的连锁不平衡,是很难做出准确判断的。如果样品量太小,D’值的实际含义很容易被夸大,尤其某个位点的其中一个等位基因的频率很低的时候。因此,较高D’值的背后,实际上可能是连锁不平衡程度很低的两个位点。
另一种归一化的思想是:
r2 =1表示两个等位基因提供完全相同的信息。