适应过程中的soft sweeps和hard sweep

在很长的一段时间内,从分子进化的角度来研究适应通常局限在新发突变上。通常认为一个有利突变的出现是小概率事件,所以它不太可能在一个很短的时间内多次出现或者在群体中以既有变异(standing genetic variation, SGV)的形式存在。新发突变在一个群体中受到选择压力,频率在种群中升高,并最终在群体中固定下来,而与之相关联的中性位点的多态性随之降低,这种现象就称之为‘hard selective sweep’。尽管在定量遗传学和表型遗传学中有很多快速适应发生的证据,但是关于SGV和重复突变在快速适应中发挥的作用一直没有引起人们足够的重视。

十余年前,有一些研究开始探究除了新发突变以外的selective sweeps,并且确实发现了一些selective sweep的新的形式,称为为‘soft sweeps。而且随着研究的越来越深入,越来越广泛,soft sweeps似乎比人们想象的要更加常见。


适应过程中的soft sweeps和hard sweep

定义

Selective sweeps是指由于正向选择导致适应的发生,进而影响到基因组多样性。由于正向选择的作用,有利等位基因频率升高,并导致该位点周围的位点频率和谱系史发生变化。从谱系发生的角度来看,如果selective sweep在新发突变上发生,那么它溯源到最近共同祖先MRCA的时间比实际选择发生的时间要短。所以如果有hard sweep发生,这种缩短了的谱系发生史是其一个明显的特征。

根据谱系发生确定一个hard sweep必须满足两个条件:

·       TMRCA<< TN,受选择位点共同祖先追溯的时间远远小于中性位点的共同祖先追溯时间

·       TMRCA<= Ts,共同祖先追溯到选择发生之后


适应过程中的soft sweeps和hard sweep

在sweep发生的时候,如果发生了重组(红点),那么该谱系分支会连接到外部分支上,该位点周围的等位基因频谱会出现过多的低频等位基因和高频等位基因,而中等频率的等位基因缺乏。(红点:重组事件;红星号:中性突变;闪电符号:有利突变;红三角:溯祖)

如果在选择发生时,一个有利位点已经在种群中存在了或者是一个重复出现的有利突变,这种情况下,就不能满足hard sweep发生的两个前提条件,而是:TMRCA > Ts(共同祖先出现在选择发生之前),或者TMRCA ~ Ts(受选择位点溯祖时间和中性位点的溯祖时间相近)。这种情况下发生的近期适应事件,那么我们仍能够观测在基因组中观测到选择印记,即soft sweep。

根据谱系发生确定一个soft sweep必须满足两个条件:

·       Ts<< TN,即选择发生的时间远小于中性位点的溯祖时间

·       TMRCA> Ts,共同祖先在选择发生之前出现


Soft sweep的起源方式有两种,一种是单一起源的soft sweep,即种群中该位点只有一个突变,但是当选择发生的时候,该突变在群体中有不同类型的单倍体组合。如下图

适应过程中的soft sweeps和hard sweep

在选择发生之前,一个突变或者重组发生的越早,其影响到的个体越多,会导致群体中出现很多中等频率的多态位点。 (红点:重组事件;红星号:中性突变;闪电符号:有利突变;红三角:溯祖)

另一种soft sweep的是多起源型的,其一个谱系上同一位点的有利突变是多次重复突变形成的。多次重复突变既可以发生在选择之前,也可以发生在选择之后。如下图

适应过程中的soft sweeps和hard sweep

(红点:重组事件;红星号:中性突变;闪电符号:有利突变;红三角:溯祖)

不管是hard sweep还是soft sweep,其定义与该受选择的有利位点是否在群体中得到固定没有关系,即已经固定完成的sweepcomplete sweep)和还在进行的sweeppartial sweep)是和hard/soft不同的概念。同时,对于一个位点可能在一个样本中观测到的是soft sweep,但是在其他样本中,该位点却显示为hardsweep。对着样本量的增大,在群体中观测到soft sweep的概率也增大

更为严格的说,一个sweep是soft还是hard,和该sweep是起源于SGV还是新发突变没有关系。如果只有一个拷贝的SGV受到正向选择形成sweep,那么这种起源于SGV的sweep也是hard sweep。

适应过程中的soft sweeps和hard sweep

 

适应过程中的soft sweeps和hard sweep

Hard sweep的印记

如果发生的hard sweep,在没有重组的情况下,受选择位点及周边的核酸多样性水平迅速降低。但实际上,由于重组的存在,很多位点的多态性水平会得到一定程度的保留。在离受选择位点左右两侧最近的一个重组点之间的区域称之为‘核心区域’(core region),即给区域内没有重组的发生,核酸多态性水平迅速降低;核心区域两侧的区域称之为‘侧翼区域’(flanking region),该区域有重组事件发生。

当hard sweep发生时,其发生到最后在种群中固定的时间不同,如果其他位点的多态性要在群体中得到保留,那么它必须在这段时间内,重组到含有受选择位点的单倍体上,这段时间称之为“窗口期”。如果选择压力很长,那么窗口期就会很短,重组发生少,核心区域相对更大一下。核心区域大小和重组率成反比,和选择压力成正比,~Sb/r。

 

适应过程中的soft sweeps和hard sweep

Soft sweep的印记

对于单一起源的soft sweep,其和hard sweep类似,只不过它的最近共同祖先(MRCA)位于选择发生之前,即选择作用在既有变异SGV上。这种起源的soft sweep,如果MRCA和选择发生时间间隔很小,那么就会很像hard sweep。特别是外界环境变化,使得一个有害突变突然出现了有利作用,因此该突变在受到选择时,其实频率很低,和hard sweep更加相似。如果MRCA和选择发生时间的间隔很大,那么这种soft sweep会呈现出完全不同的形式,变得“很软”。

对于多起源的soft sweep,经常能够观测到很多中等频率的变异位点。在hard sweep中,是通过重组恢复侧翼区域内的多态性,而重组多发生在突变和溯源之后,因为会引入单独的外部谱系分支,导致hard sweep中很多低频变异位点;而多起源的soft sweep通过多次突变保持受选择位点周边的多态性,其突变属于内部谱系分支,因而只会增加中等频率的变异位点数量

 

适应过程中的soft sweeps和hard sweep

识别和区分hardsoft sweep

明确的说,只有‘近期’发生的sweep事件才有可能在基因组水平上识别出一些发生的印记。如果sweep事件是发生的时间很久远,印记可能会消失殆尽,无法识别出。比如,如果通过等位基因频谱来识别(如Tajima’s D),那么sweep印记在0.1*Ne代之后就会消逝殆尽,难以识别;而且基于等位基因频谱的方法来识别sweep时,通常难以识别出soft sweep。如果是通过连锁不平衡(LD)或单倍体型来识别,印记在0.01*Ne代之后就会消失殆尽。而且,如果想要观测到十分明显的印记,那么还需要足够大的选择压力(4Nesb >> 100)。对于soft sweep,如果它太soft(软)了,(比如,很多个重复突变产生的soft sweep,或者其实频率很高的SGV),也很难能够把它和中性位点区分开。

要想区分hard和soft sweep,如果soft  sweep是单一起源的,那么区分hard和soft很难,除非是一个位点受到选择时等位基因频率已经在种群中很高(5%-20%),同时它受到的选择压力要很强。在实际中,要区分一个单一起源的soft sweep和hard sweep,通常还要结合其他补充证据。对于多起源的soft sweep(重复突变),其和hard sweep的区分要容易一些。比如基于单倍体型的方法,H12,就能够很有效地区分出hard和soft。

 

适应过程中的soft sweeps和hard sweep

对产生sweep条件模拟的结果

如果只考虑单一位点,如果这个位点在选择开始之前是极端有害突变,选择开始之后是轻微有利,那么这时在θ(=4Neµ)< 0.1时(即群体中突变很少),sweep的形式几乎都是hard sweep,θ>0.1时,sweep中会开始出现很多多起源的soft sweep(下图)。

适应过程中的soft sweeps和hard sweep

如果是一个位点正向选择开始之前是轻微有害的,而开始选择时候是极端有利的,那么这种情况出现源自SGV的适应发生的概率就会大大增加。单一起源的soft sweep比例增加,不过起源于SGV的hard sweep依然很少(见下图)。

适应过程中的soft sweeps和hard sweep 

如果我们考虑的不是一个位点,而是同时考虑多个位点或者一段序列,只有群体中的突变更少,hard sweep的出现比例才会更大,如果群体中突变过多,将会有很大一部分sweep是soft  sweep。如果这些位点在选择开始之前是极端有害突变,选择开始之后是轻微有利,那么将会有很大一部分sweep是hard sweep,和单一位点的情况很相似。如下图

适应过程中的soft sweeps和hard sweep

如果这些位点正向选择开始之前是轻微有害的,而开始选择时候是极端有利的,那么将会有很大一部分sweep是起源于SGV,soft sweep会占很大比例。如果该序列区域突变率特别高(θ>3),会出现非常“软”的soft sweep,这是很难在检测到sweep印记了。

适应过程中的soft sweeps和hard sweep

简而言之,对于一个多起源的softsweep,其发生的概率仅仅取决于该位点的突变率(突变率越大,是soft sweep的概率越大),与该位点受到的选择压力没有关系。而对于一个hard sweep或者单一起源的soft weep,其出现的概率取决于该位点的突变率和周边位点的突变率,以及选择压力(突变率越小,有利选择压力越大,是hard sweep或者单一起源soft sweep的概率越大)。

 

适应过程中的soft sweeps和hard sweep

种群结构对sweep的影响

如果一个很大的种群,其中亚群之间基因交流很少,那么为了适应相同的环境,可能会出现相似的进化过程,也叫做“平行适应“(paralleladaptation)。那么对于这一个大群体,可能就会呈现出多起源的soft sweep。具体来说如果亚群之间的迁徙率4Nem> θ(突变率),则出现hard sweep的概率要增大;反之,更有可能出现soft  sweep。这也提示我们,如果采样局限在一个亚群中,可能显示的是hard sweep,如果采样是针对整个大群体,我们可能会得到soft sweep

 

适应过程中的soft sweeps和hard sweep

变硬的soft sweep

如果由于遗传漂变或者瓶颈事件,可能会导致soft sweep中的一种单倍体在种群中出现压倒性优势,这时,soft sweep看起来会像hard sweep。当然,也有可能是在一个单倍体型上出现了一个新的有利突变,导致该单倍体型在群体中频率增加,soft sweep变成hard sweep。

 

适应过程中的soft sweeps和hard sweep

变软的hard sweep

如果在hard sweep发生的过程中,发生了基因转换,即受选择的单倍体型连接到了其他单倍体型上,这种情况下,hard sweep就变得像多起源的soft sweep。基因转化也是基因重组的一种形式,会导致出现过多的低频位点,这和多起源的soft sweep不同,多起源的soft sweep会出现过多的中等频率的位点。


=== 总结 ===

最早人们认为适应源于突变,一个受到正向选择的突变产生一个hard sweep,在基因组上留下明显受到选择的印记。但实际上,这这种情况是很少发生的。更多的情况下,选择源于各种基因资源,包括SGV、复发性的突变和迁徙等,进而使得适应的发生非常迅速。

突变θ(=4Neµ)是决定sweep类型的一个重要参数,但是θ的估计十分复杂,不同的位点和区域有不同的θ,所以θ的变异范围很大。而且,实际中,sweep并不是非软(soft)即硬(hard),比如,有很多soft sweep在进行过程中,会有“硬化”现象。


=====  THE END =====

文献来源:Hermisson, J., & Pennings, P. S. (2017). Soft sweeps and beyond: understanding the patterns and probabilities of selection footprints under rapid adaptation. Methods in Ecology and Evolution, 8(6), 700-716.

适应过程中的soft sweeps和hard sweep


上一篇:MS5611气压计数据采集(模拟IIC)/温度采集/相对高度求解


下一篇:WLAN-3数据转发方式