郑重声明:原文参见标题,如有侵权,请联系作者,将会撤销发布!
Abstract
大多数基本行为,如移动手臂抓住物体或走进隔壁房间探索博物馆,都是在几秒钟的时间尺度上进化的;相反,神经元动作电位则是在几毫秒的时间尺度上发生的。因此,大脑的学习规则必须弥合这两个不同时间尺度之间的差距。现代的突触可塑性理论假设,突触前和突触后神经元的共同激活在突触上设置了一个标记,称为资格迹。只有在标记设置时存在一个额外的因素时,这个标记才会导致权重变化。第三个因素,发送奖励、惩罚、惊讶(Surprise)或新奇(novelty)信号,可以通过神经调节剂的阶段性活动或特定的神经元输入信号特殊事件来实现。虽然理论框架是在过去几十年中发展起来的,但在过去几年中才收集到支持秒时间尺度上资格迹的实验证据。在这里,我们回顾了在突触可塑性三因素规则的背景下,支持突触资格迹与第三个因素结合作用的四个关键实验,作为neoHebbian三因素学习规则的生物学实现。
Keywords:资格迹,Hebb规则,强化学习,神经调节剂,惊奇(Surprise),突触标记,突触可塑性,行为学习
1 Introduction
人类能够学习诸如按下按钮、挥动网球拍或闯红灯等新奇的行为;他们还能够形成对重大事件的记忆,学会辨别花朵,并在探索新奇环境时建立一个心理地图。记忆形成和行为学习与突触连接的变化有关(Martin et al., 2000)。对于记忆来说,长期持续的突触变化是必要的,可以由Hebbian协议产生。该协议将突触前末端的激活与突触后神经元的电压或发放状态的操纵结合起来(Lisman, 2003)。长期增强(LTP)的传统实验方案(Bliss and Lømo,1973;Bliss and Collingridge,1993)、长期抑郁(LTD)(Levy and Stewart,1983;Artola and Singer,1993)和尖峰计时依赖性可塑性(STDP)(Markram et al.,1997;Zhang et al.,1998;Sj¨ostr om et al。,2001)忽略了神经调节器或其他门控信号等其他因素可能是允许突触改变的必要条件(Gu,2002;Hasselmo,2006;Reynolds and Wickens,2002)。早期涉及神经调节剂的STDP实验主要集中在调节剂因子的强直浴应用上(Pawlak等人,2010)。然而,从形式学习理论的角度来看,调节因素的时机同样至关重要(Schultz and Dickinson,2000;Schultz,2002)。从理论上看,在神经调节剂控制下的STDP导致了三因素学习规则的框架(Xie and Seung,2004;Legenstein et al.,2008;Vasilaki et al.,2009),其中合格性轨迹代表了Hebbian关于突触前和突触后神经元共同激活的想法(Hebb,1949),同时可塑性的调节通过额外的选通信号通常由“第三因子”表示(Crow,1968;Barto,1985;Legenstein等人,2008)。第三个因素可以表示诸如“报酬减去预期报酬”(Williams,1992;Schultz,1998;Sutton and Barto,1998)或意外事件的显著性(Ljunberg and amd W.Schultz,1992;Redgrave and Gurney,2006)等变量。
在之前的一篇论文(Fr'emaux和Gerstner,2016)中,我们回顾了2013年底前可用的三因素规则的理论文献和实验支持。然而,近年来,实验程序取得了显著进展,首次提供了合格痕迹和三因素学习规则的直接生理证据,因此有必要对三因素规则进行更新。在下文中,我们——一组理论家——回顾了五篇实验论文,表明纹状体(Yagishita et al.,2014)、皮层(He et al.,2015)和海马体(Brzosko et al.,2015、2017;Bittner et al.,2017)中合格痕迹的支持。最后,我们将对计算神经科学领域中理论预测的自相矛盾性发表几点看法。
2 Hebbian rules versus three-factor rules
学习规则描述了突触前神经元j和突触后神经元i之间突触接触强度的变化。兴奋性突触接触强度可以由突触后电位的幅度来定义,该幅度与脊柱体积和AMPA受体的数量密切相关(Matsuzaki等人,2001)。突触包含复杂的分子机制(Lisman,2003;Redondo and Morris,2011;Huganir and Nicoll,2013;Lisman,2017),但为了论证的透明性,我们将尽可能简单地使用数学符号,并仅用两个变量来描述突触:第一个变量是突触强度wij,测量为脊髓突触后电位的体积或幅度,第二个是突触内变量eij,在标准电生理实验中不直接可见。我们认为,内部变量eij代表棘头内相互作用分子的亚稳态瞬态,或突触后密度中的多分子亚结构,作为突触标志,表明突触已准备好增加或减少其脊椎体积(Bosch等人,2014)。eij的精确生物学性质对于理解下面回顾的理论和实验并不重要。我们称eij为“突触标志”或“合格追踪”,称wij为突触接触的“突触重量”或“强度”。突触标志的变化表示“候选重量变化”(Fr'emaux等人,2010),而wij的变化表示突触重量的实际、可测量的变化。在我们讨论三因素规则之前,让我们先讨论一下赫比式学习的传统模型。
2.1 Hebbian learning rules
Hebbian学习规则是诱导突触长时程增强(LTP)或长时程抑制(LTD)实验结果的数学总结。合适的实验方案包括对突触前纤维的强细胞外刺激(Bliss和Lømo,1973;Levy和Stewart,1983),在突触前尖峰到来时对突触后电压的操纵(Artola和Singer,1993),或尖峰计时依赖性可塑性(STDP)(Markram等人,1997;Sj¨ostr om等人,2001)。在Hebbian学习的所有数学公式中,突触标志变量eij对突触前尖峰到达和突触后变量(如突触位置处的电压)的组合非常敏感。在Hebbian学习规则下,静止神经元突触处反复的突触前棘波到达不会引起突触变量的改变。同样,在没有突触前棘突的情况下,突触后电位的升高不会引起突触变量的改变。因此,Hebbian学习对于突触变化总是需要两个因素:一个是由突触前信号(如谷氨酸)引起的因素;另一个是取决于突触后神经元状态的因素。
这些因素是什么?我们可以认为突触前因子是谷氨酸在突触间隙中或与突触后膜结合的时间过程。注意,我们将在下面使用的术语“突触前因子”并不意味着突触前因子的物理位置在突触前终末内——只要它只取决于可用神经递质的数量,该因子很可能位于突触后膜内。突触后因子可能是突触棘中的钙(Shouval et al.,2002;Rubin et al.,2005)、与钙相关的第二信使分子(Graupner and Brunel,2007)或仅仅是突触部位的电压(Brader et al.,2007;Clopath et al.,2010)。
我们提醒读者,我们总是用索引j指突触前神经元,索引i指突触后神经元。为了简单起见,我们称之为突触前因子xj(代表突触前神经元的活动或突触间隙中谷氨酸的含量)和突触后因子yi(代表突触后神经元的状态)。在Hebbian学习规则中,突触标志eij的变化需要xj和yi
其中,η是常数学习率,τe是衰减时间常数,g(yj)是突触后变量yi的一些任意的、潜在的非线性函数。因此,突触标志eij充当突触前活动xj和突触后神经元yi状态之间的相关检测器。在一些模型中,在一个实验的时间尺度上(τe······)没有衰减或衰减可以忽略不计。
让我们讨论两个例子。在发育皮层可塑性的Bienenstock-Cooper-Munro(BCM)模型中(Bienenstock等人,1982),突触前因子xj是突触前神经元的放电率,g(yi)=(yi-θ)yi是一个二次函数,yi是突触后放电率和θa阈值率。因此,如果突触前和突触后的神经元都以高速率xj=yi>θ一起放电,那么突触标志eij增加。在BCM模型中,与大多数其他传统模型一样,突触标志的改变(即突触的内部状态)会瞬间导致重量eij–→wij的变化,因此实验方案会立即导致可测量的重量变化。根据BCM规则和其他类似规则(Oja,1982;Miller和MacKay,1994),如果突触前和突触后神经元都高度活跃,则突触重量增加,实现口号“一起开火,一起连接”(Lowel和Singer,1992;Shatz,1992);参见图1A(i)。
2.2 Three-factor learning rules
2.3 Examples and theoretical predictions
3 Experimental evidence for eligibility traces
3.1 Eligibility traces in dendritic spines of medial spiny striatal neurons in nucleus accumbens
3.2 Two distinct eligibility traces for LTP and LTD in cortical synapses
3.3 Eligibility traces in hippocampus
4 Discussion and Conclusion
4.1 Policy gradient versus TD-learning
4.2 Specificity
4.3 Mapping to Neuromodulators
4.4 Alternatives to eligibility traces for bridging the gap between the behavioral and neuronal timescales
4.5 The paradoxical nature of predictions in computational neuroscience