Neuronal Circuit Policies

对线虫的抽头撤回(TW)神经回路进行建模,该回路负责蠕虫,对机械触摸刺激的反射反应。该电路称为抽头抽头(TW),它包含9个神经元类,这些神经元类通过化学和电突触连接在一起。然后预测了电路的突触极性(是兴奋性的还是抑制性的),这表明在存在触摸刺激的情况下,电路实现了前向和后向反射之间的竞争行为。

实现三个任务:
1.倒立摆的控制 2、控制汽车登上陡坡 3.泊车

这项工作中的主要贡献
证明在标准控制和RL设置下,秀丽隐杆线虫脑的紧凑神经元回路模型作为可解释的连续时间递归神经网络的性能。证明了在学习的神经元网络中神经元的功能是可以解释的。

对蠕虫所居住的培养皿的机械暴露刺激(即敲击)会导致动物以向前或向后运动的形式产生反射反应。该响应被称为抽头-抽出反射,而被识别为是这种行为基础的电路被称为抽头-抽出(TW)神经回路(Rankin等,1990)。该电路如图1所示。它由四个感觉神经元,PVD和PLM(后触摸传感器),AVM和ALM(前触摸传感器),四个中间神经元类(AVD,PVC,AVA和AVB)和两个子组组成运动神经元,抽象为前向运动神经元FWD和后向运动神经元REV。神经元经常通过兴奋性和抑制性突触链接相互突触。已经显示出TW电路的感觉神经元由于输入抽头而被激活,并且通过调节性中间神经元PVC和AVD将刺激传递至命令神经元AVA和AVB。然后通过这两个命令神经元之间的竞争来调节TW反射,从而导致向前的前景反应(AVB的激活主导AVA的反应)或反向的前景反应。在整篇论文中,我们说明了如何在标准RL设置中部署此类递归神经元网络。我们首先概述如何建模神经元和突触以建立TW回路。

神经元模型

Neuronal Circuit Policies
电荷在单个细胞的扩散导致神经细胞点位变化,细胞膜的点位动力学方程:
Neuronal Circuit Policies
其中Cm, Gleak, Vleak是神经元的参数, Iin表示细胞膜的外部电流, 使用该公式来控制神经元的内部动力学。
为了与环境互动,我们分别介绍了感觉和运动神经元模型。感觉成分由两个神经元Sp,Sn和可测量的动态系统变量x组成。当x为正值时,Sp激活,而当x为负时,Sn激活。在数学上,神经元Sp和Sn的电势作为x的函数可以表示为
Neuronal Circuit Policies
这将系统变量x的区域[xmin,xmax]映射到[-70mV,-20mV]的膜电位范围。请注意,电位范围的选择应接近神经细胞的生物物理学,其中静息电位通常设置在-70 mV左右,而当神经元的电位在-20 mV附近时,可以认为神经元处于活动状态。

类似于感觉神经元,运动成分由两个神经元Mn,Mp和可控制的运动变量y组成。 Y的值由y:= yp + yn an计算
Neuronal Circuit Policies
这将神经元电位Mn和Mp映射到范围[ymin,ymax]。以这种方式对图1中的FWD和REV电机类别进行建模。

突触模型

化学突触是两个神经元通过释放神经递质来交换信息的点。化学突触电流取决于代表其电导强度的非线性分量,该非线性分量是突触前神经元电势Vpre的函数,其最大权重w(代表突触的最大电导)为,
Neuronal Circuit Policies
此外,突触电流线性地取决于突触后神经元的膜电位Vpost,因此可以表示为
Neuronal Circuit Policies
通过改变E(突触的反转电位),可以实现与其突触后神经元的抑制性或兴奋性连接。电突触(间隙连接)是两个神经元之间的物理连接,通过恒定电导ωˆ进行建模,其中基于欧姆定律,它们在神经元j和i之间的双向电流可以计算为
Neuronal Circuit Policies
为了模拟由这种动态模型组成的神经网络,我们采用了隐式数值求解器(Press等,2007)。正式地,我们以混合方式实现了ODE模型,该模型结合了隐式和显式Euler方法。有关模型实现和参数选择的具体讨论,请参见补充材料,第2节。

注意,求解器的一个目的是在实时控制系统中使用。因此,为了降低复杂度,我们的方法实现了固定步长求解器。每个时间步Δt的求解器复杂度为O(|#神经元| + |#突触|)。求解器以C ++实现,在其中我们构造了TW电路来执行特定的控制任务。现在,我们需要规范化一个学习平台,以针对所需的控制问题调整电路的参数。
Neuronal Circuit Policies
在等式中(2)补充ωex,i,ωinh,i,ωgj,i分别代表兴奋性突触,抑制性突触和间隙连接的整体电导,其中ωex,i = gex,i(vpre),ωinh,i = ginh,i(vpre),并且ωgj,i = ωˆ。变量及其边界以及等式中的常量。 (2)补充,汇总于表2。
Neuronal Circuit Policies
正式,等式(2)补充是通过将隐式和显式欧拉方法结合起来的混合方式实现的;整体神经元方程,等式。 (1)用隐式Euler方法近似主文本,而用等式代替部分。 (7)正文和等式。 (8)正文是通过明确的欧拉方法估算的。实现这种混合求解器的动机是使生成的模拟神经元网络的算法可分为以下步骤:
Neuronal Circuit Policies

执行的任务

Neuronal Circuit Policies

可解释性

Neuronal Circuit Policies

上一篇:Redis eviction policies


下一篇:php – Laravel授权政策未被调用