《deep learning for AI》文献翻译及总结

这篇论文回顾了深度学习的起源、成就以及未来的挑战,主要涵盖以下内容:

  1. 深度学习的基础概念与关键成就
    • 深度学习起源于对大脑中简单非线性神经元网络的研究,其基本思想是通过调整连接强度来学习复杂的内部表示,以完成诸如对象识别和语言理解等任务。
    • 关键方法是使用多层神经网络,通过梯度下降优化目标函数的值,以提高网络在大规模训练集上的性能。
    • 文中还提到了一些突破性成果,如在语音识别和图像分类领域的显著进展,这些成就为深度学习奠定了技术基础。
  2. 从符号化表达到分布式表示
    • 符号AI强调逻辑推理和基于规则的推理,而深度学习则关注从数据中学习表示。
    • 深度学习通过向量化的神经活动表示概念及其关系,实现了自动泛化能力,使系统能够类比推理,从而模仿人类的直观推理。
  3. 深度学习架构的改进
    • 随着硬件的进步(尤其是GPU的出现)以及开源深度学习框架(如TensorFlow和PyTorch)的发展,深度神经网络的训练变得更加高效。
    • 论文提到的一些关键技术,包括残差网络(ResNet)、图像变形、dropout 和批量归一化,为深度学习在计算机视觉等领域取得的成功提供了支持。
  4. 无监督与自监督学习
    • 人工标注数据的成本较高,无监督学习和自监督学习能够有效利用未标注数据,通过“填空”或预测部分数据来学习特征表示。
    • 自监督学习特别在自然语言处理领域取得显著进展,模型可以通过预测缺失词汇的方式学习上下文相关的词义表示。
  5. 对比学习与生成对抗网络(GANs)
    • 对比学习通过将相似样本的距离减小、不同样本的距离增大,来学习良好的特征表示。
    • GANs 使用生成器和判别器之间的对抗过程,使生成器学会产生更真实的样本,这种方法在图像合成、风格迁移等应用中表现出色。
  6. 未来挑战与改进方向
    • 小样本学习:当前的监督学习和强化学习需要大量的数据和试验,远不如人类的泛化能力强。
    • 分布外泛化:深度学习模型在面对训练数据分布以外的新数据时表现较差,这是实际应用中的一大挑战。
    • 系统2任务:目前深度学习在感知任务(系统1任务)方面较为成功,但在需要有意识步骤的推理任务(系统2任务)方面仍有很大改进空间。
  7. 多时间尺度的适应与元学习
    • 引入快速权重机制为神经网络带来了短期记忆能力,使其能够在递归调用中重用神经元,实现更高级的推理能力。
    • 多时间尺度的适应机制也在“学习如何学习”或元学习中得到应用,这类学习方式使得模型在面对新任务时能够快速适应。
  8. 因果发现与概念泛化
    • 人类能够通过少量观察理解因果关系,而深度学习尚未具备这种能力。文章提出通过优化分布外泛化来训练神经网络,从而发现因果依赖关系。
  9. 符号AI与深度学习的融合
    • 作者建议未来的AI系统可以结合符号AI的逻辑推理能力和深度学习的分布式表示优势,从而实现更高效的大规模学习、梯度驱动的适应性以及对不确定数据的处理能力。

总之,这篇论文系统性地总结了深度学习的核心概念、技术进展以及在各个领域的应用前景,同时指出了当前存在的技术瓶颈和未来可能的发展方向,特别是在自监督学习、因果推理、符号化推理等方面。

————————————————————————————————————————————————

AI的深度学习

深度学习通过使用多层活动向量作为表示,并通过目标函数的随机梯度来调整连接权重,以此解答神经网络如何学习复杂表示的问题。目标函数用于衡量网络的性能表现。令人惊讶的是,这样一种概念上相对简单的方法,在处理大型训练集并消耗大量计算资源时,表现得异常有效。似乎关键因素就在于网络的“深度”:浅层网络并不能达到同样的效果。

我们回顾了深度学习的基本概念以及几年前取得的一些突破性成就。在此,我们简要描述了深度学习的起源,概述了最近的一些进展,并探讨了未来的挑战。这些挑战包括在缺少或没有外部监督的情况下进行学习,应对与训练数据分布不同的测试样本,以及利用深度学习方法解决那些需要人类有意识地通过一系列步骤来完成的任务。卡尼曼将这些任务称为“系统2”任务,相对于那些更直观、更自动化的“系统1”任务(如物体识别或即时自然语言理解),后者通常显得轻而易举。

一、从手工编码的符号表达到学习型的分布式表示

人工智能有两种截然不同的范式。逻辑驱动的范式将顺序推理视为智能的核心,通过手工设计的推理规则来实现计算机中的推理,这些规则作用于手工编码的符号表达以形式化知识。而大脑启发的范式则将从数据中学习表示视为智能的核心,旨在通过手工设计或逐步演化的方式制定规则,以调整模拟神经元网络中连接的强度,实现学习。

在逻辑驱动的范式中,符号本身没有内在的结构意义:其含义源于与其他符号的关系,这些关系可以通过符号表达式集合或关系图来描述。相比之下,在大脑启发的范式中,外部符号通过转化成为神经活动的内部向量,这些向量具有丰富的相似性结构。通过为每个符号学习合适的活动向量,以及通过非线性变换填补符号串中的缺失元素,活动向量能够有效建模符号串的内部结构。

这种方法最早由Rumelhart等人通过玩具数据进行了演示,随后Bengio等人对真实句子进行了实验验证。其中,BERT是一个非常具有影响力的例子,它利用自注意机制来动态连接不同单元的组,后续内容将对此进行详细描述。

使用神经活动向量来表示概念,并通过权重矩阵来捕捉概念之间的关系的主要优势在于,它能够实现自动泛化。例如,如果“星期二”和“星期四”被表示为非常相似的向量,那么它们对其他神经活动向量的影响也会非常相似,从而促进了类比推理。这表明,直观的类比推理是人类的主要推理模式,而逻辑的顺序推理则是后期发展出的能力,我们将在后续内容中对此进行讨论。

二、深度学习的崛起

深度学习在2000年代初重新点燃了神经网络研究,关键在于引入了一些新要素,使训练深层网络变得更加容易。GPU的发展和大规模数据集的可用性是深度学习的重要推动力。此外,开源且灵活的软件平台(如Theano、Torch、Caffe、TensorFlow和PyTorch)的出现极大地加速了这一进程,这些平台都支持自动微分,从而使得复杂深度网络的训练以及最新模型的复用更加便捷。然而,深度学习的真正突破在于深层次网络结构的组合,这使得更复杂的非线性得以实现,并在感知任务中取得了令人惊讶的优异表现。

为什么深度重要?虽然“更深的神经网络更强大”这一直觉在现代深度学习之前就已经存在,但真正推动深度学习显著进展的是在网络架构和训练方法上的一系列突破。然而,为什么深层网络在建模输入-输出关系方面能更好地泛化呢?关键在于,深度不仅仅意味着更多的参数。在相同参数数量下,深层网络通常比浅层网络泛化能力更强。这一点在实践中也得到了验证。计算机视觉中最受欢迎的卷积神经网络架构之一是ResNet家族,其中ResNet-50是最常见的版本,拥有50层深度。此外,一些在此未详细讨论但对深度学习至关重要的技术也发挥了重要作用,例如图像变形、Dropout和批量归一化。

我们认为深度网络的卓越表现源于它们利用了一种特殊的组合特性:每一层的特征通过多种方式组合,从而在下一层中生成更加抽象的特征。

对于感知类任务,这种组合特性表现得非常出色,而且有充分的证据表明生物感知系统也利用了这种机制。

无监督预训练:当标记的训练样本数量相对于神经网络的复杂度较少时,首先使用其他信息来源创建特征检测器的多层结构是合理的,然后再利用有限的标注数据进行微调。在迁移学习中,这种信息来源通常是另一个具有充足标注数据的监督学习任务。而且,还可以通过堆叠自编码器,在完全没有标注的情况下生成特征检测器的层次结构。

首先,我们学习第一层特征检测器,用以重建输入。接着,我们学习第二层特征检测器,能够重建第一层特征的活动。通过这种方式学习多层隐藏层后,我们尝试从最后一个隐藏层的活动中预测标签,并通过所有层反向传播误差,以微调那些在无标注情况下最初学到的特征检测器。虽然预训练可能会提取出一些与最终分类无关的结构,但在计算资源相对便宜而标注数据昂贵的情况下,只要预训练能够将输入转换为更易于分类的表示,这样的过程依然是合理的。

除了提升泛化能力外,无监督预训练通过合理初始化权重,使得使用反向传播微调深度神经网络变得更加容易。预训练对优化的影响在过去非常重要,因为它帮助克服了深度网络难以训练的传统观念,但随着ReLU和残差连接的使用,这种重要性已经有所减弱。然而,预训练对泛化的影响依旧非常显著,它使得我们能够利用大量无标注数据来训练超大规模模型,例如自然语言处理中的大规模语料库。预训练和微调的基本原则已经成为深度学习工具箱中的重要方法,无论是在迁移学习中,还是作为现代元学习的一部分,都有重要的应用。

ReLU 的神奇成功:深度网络的早期突破依赖于对使用逻辑 Sigmoid 或双曲正切函数的层进行无监督预训练。修正线性单元(ReLU)很早就在神经科学中被提出,并应用于一些受限玻尔兹曼机(RBM)和卷积神经网络的变体中。令人意外且令人欣喜的是,ReLU 及其众多现代变体,通过修正非线性使得反向传播和随机梯度下降在深度网络训练中变得更加容易,而无需逐层预训练。这项技术突破帮助深度学习在物体识别方面超越了之前的方法。

语音与物体识别的突破:声学模型将声波转换为音素片段的概率分布。Robinson通过使用转置器的努力,以及Morgan等人使用DSP芯片的尝试,早已表明,如果具备足够的计算能力,神经网络在声学建模上可以与最先进的技术相媲美。2009年,两位研究生利用Nvidia GPU展示了预训练的深度神经网络在TIMIT数据集上的表现略微超越了最先进的技术。这一发现重新激发了多家顶尖语音研究团队对神经网络的兴趣。2010年,几乎相同的深度网络被证明在大词汇量语音识别中超越了最先进的模型,且不需要特定于说话人的训练。到2012年,谷歌开发了一种显著改进了安卓设备语音搜索性能的版本,这也是深度学习颠覆性潜力的早期示例。

几乎在同一时间,深度学习在2012年ImageNet竞赛中取得了巨大的突破,几乎将对1000类自然图像的识别错误率减半。这一成就的关键在于Fei-Fei Li及其团队对超过一百万张标注图像的训练集的努力,以及Alex Krizhevsky高效利用多块GPU的能力。当前硬件(如GPU)鼓励使用大批次训练,以减少从内存中多次提取权重的开销。在线随机梯度下降通过每次只使用一次权重,使得收敛速度更快。未来的硬件可能直接在原地使用这些权重,而不需要每次从内存中提取它们。

深度卷积神经网络引入了一些新颖的元素,例如使用ReLU加速学习过程,以及使用Dropout防止过拟合。然而,本质上它依然是一种前馈卷积神经网络,类似于Yann LeCun和他的团队多年开发的网络。计算机视觉社区对此次突破的反应非常积极。由于卷积神经网络的卓越性能得到了无可争议的证明,整个社区迅速放弃了传统的手工设计方法,全面转向深度学习。

三、近期进展

在这里,我们有选择性地讨论了一些深度学习领域的最新进展,显然省略了许多重要的主题,例如深度强化学习、图神经网络和元学习。

软注意力与Transformer架构:深度学习在序列处理方面的一个重大突破是引入了乘法交互,尤其是软注意力机制。这种进展对神经网络工具箱进行了彻底的革新,使神经网络不再只是简单的向量变换机器,而是能够动态选择处理的输入,并将信息存储在可微分的联想记忆中。此类架构的一个关键特性是,它们可以在不同的数据结构(如集合和图)上有效地进行操作。

软注意力机制可以被层中的模块使用,以动态地选择上一层中的向量,并将其组合以计算输出。这样可以使输出独立于输入的顺序(将输入视为一个集合),或者利用不同输入之间的关系(将输入视为一个图)。

Transformer架构已经在许多应用中成为主流,它堆叠了多个“自注意力”模块。每个层中的模块使用标量积来计算其查询向量与该层中其他模块的键向量之间的匹配度。这些匹配度会被归一化,使其和为1,然后利用所得的标量系数形成对上一层中各个模块产生的值向量的凸组合。最终的向量会成为下一阶段计算的输入。模块可以采用多头(multi-headed)设计,这样每个模块可以计算多个不同的查询、键和值向量,从而使每个模块可以接收多个不同的输入,每个输入以不同方式从前一阶段的模块中选取。这样一来,模块的顺序和数量在这种操作中变得无关紧要,从而可以在向量集合上进行操作,而不仅仅是传统神经网络中的单一向量。

例如,在语言翻译系统中,当输出句子中的某个词时,可以选择关注输入句子中的相应词组,而不受其在文本中的具体位置影响。尽管乘性门控(multiplicative gating)在坐标变换和某些强大的循环网络形式中是一个经典概念,但它的现代形式使其得以广泛应用。从另一个角度来看,注意力机制的作用是使得信息可以通过动态选择的模块进行路由,并以全新的方式组合这些模块,从而提升对分布外数据的泛化能力。

Transformer模型在性能上取得了显著的提升,彻底变革了自然语言处理领域,并且现在已经在工业界广泛应用。这些系统通常通过自监督的方式进行预训练,以预测文本片段中缺失的词汇。

令人意外的是,Transformer 已成功用于符号化求解积分和微分方程。一个非常有前景的趋势是将 Transformer 应用于卷积神经网络之上,以实现图像中的目标检测和定位,达到了当前最先进的性能。Transformer 能够以可微分的方式执行后处理和基于目标的推理,从而使整个系统可以进行端到端训练。

无监督学习和自监督学习。尽管监督学习在各种任务中都取得了成功,但通常需要大量人工标注的数据。同样地,当强化学习仅依赖奖励信号时,也需要大量的交互次数。这些学习方法往往会生成任务专用的系统,在超出训练领域时通常表现出脆弱性。减少学习任务所需的人工标注样本或交互次数,并提升模型在域外数据上的稳健性,对低资源语言翻译、医学图像分析、自动驾驶和内容过滤等应用至关重要。

人类和动物似乎能够通过观察以任务无关的方式,学习大量关于世界的背景知识。这种知识支撑了常识,使人类能够在仅需少量练习后,就掌握复杂的任务,例如驾驶。人工智能未来的一个关键问题是:人类如何仅凭观察就能学到如此多的知识?

在监督学习中,一个属于 N 个类别的标签平均最多传达 log ⁡ 2 ( N ) \log_2(N) log2(N)比特的信息。在无模型的强化学习中,奖励信号同样只能传递少量的信息。相比之下,音频、图像和视频等高带宽模态隐含地传达了大量关于世界结构的信息。这激发了一种被称为自监督学习的预测或重建方法,通过预测数据中被掩盖或损坏的部分来“填补空白”。自监督学习在训练 Transformer 模型方面取得了很大成功,能够提取出捕捉到单词或词片段语境依赖意义的向量,这些向量在后续任务中表现出色。

对于文本,Transformer 被训练来从一组离散的可能性中预测缺失的词语。但在高维连续域(如视频)中,某一视频片段的合理后续情节集合庞大且复杂,要正确表示这些合理后续的分布本质上仍是一个未解决的问题。

对比学习。解决此问题的一种方法是使用潜变量模型,为视频片段及其可能的后续情节分配一个“能量”值(即一种对不合理程度的度量)。

给定输入视频 X X X和一个建议的后续片段 Y Y Y,我们希望通过能量函数 E ( X , Y ) E(X,Y) E(X,Y)来判断 Y是否与 X兼容。当 X和 Y兼容时, E ( X , Y ) E(X,Y) E(X,Y)取较低值;否则,取较高值。

能量函数 E ( X , Y ) E(X,Y) E(X,Y)可以通过深度神经网络计算,该网络在给定X的情况下,通过对比学习的方式进行训练:赋予与X兼容的Y值(例如来自训练集中的 E ( X , Y ) E(X,Y) E(X,Y)对)低能量值,而对与X不兼容的其他Y值赋予高能量值。对于给定的 X,推理的目标是找到一个 Y ^ \hat{Y} Y^,使得 E ( X , Y ^ ) E(X,\hat Y) E(X,Y^)最小化,或者从那些具有低 E ( X , Y ) E(X,Y) E(X,Y)值的 Y Y Y集合中进行采样。这种基于能量的表示方法,通过描述 Y Y Y X X X的依赖关系,使得可以生成多样的、多模态的合理延续结果集合。

对比学习中的关键难点在于选择合适的“负样本”,即那些需要提升能量值的 YYY 点。当可能的负样本数量不多时,我们可以直接考虑所有负样本。这也是 softmax 所实现的机制,因此在这种情况下,对比学习简化为在有限的符号集上进行标准的监督学习或自监督学习。然而,在实际的高维连续空间中,负样本的数量非常多,一个向量 Y ^ \hat{Y} Y^可以有多种方式不同于Y。为了改进模型,我们需要关注那些本应具有高能量、但当前能量较低的Y值。早期选择负样本的方法基于蒙特卡罗技术,例如用于受限玻尔兹曼机的对比散度(contrastive divergence)和噪声对比估计(noise-contrastive estimation)等方法。

生成对抗网络(GANs)通过训练生成神经网络来产生对比样本。具体而言,它通过将神经网络应用于已知分布(例如高斯分布)中的潜在样本来实现。生成器训练自己生成输出 Y ^ \hat{Y} Y^,使得模型对这些输出赋予低能量值 E ( Y ^ ) E(\hat{Y}) E(Y^)。生成器可以通过反向传播来获取 E ( Y ^ ) E(\hat{Y}) E(Y^)关于 Y ^ \hat{Y} Y^的梯度,从而进行优化。

在训练过程中,生成器和模型是同步进行的,模型尝试对训练样本赋予低能量,同时对生成的对比样本赋予高能量。这种对抗性训练方式,使得生成器能够不断提高生成的对比样本的质量。

通过对比学习使表示一致对比学习提供了一种发现良好特征向量的方法,而无需重构或生成像素。其核心思想是训练一个前馈神经网络,使其在输入为同一图像的不同裁剪部分或同一对象的不同视角时,生成非常相似的输出向量;而在输入为不同图像的裁剪部分或不同对象的视角时,生成不同的输出向量。两个输出向量之间的平方距离可以视为一种能量值,对于兼容的样本对,该能量值会被降低;而对于不兼容的样本对,该能量值会被提升。

近期有一系列研究使用卷积神经网络来提取一致的表示,展示出在视觉特征学习中的良好效果。正样本对由同一图像的不同版本组成,这些版本通过裁剪、缩放、旋转、颜色偏移、模糊等方式进行变换。而负样本对则是由不同图像的不同版本组成,这些图像可以通过一种称为“难负样本挖掘”(hard negative mining)的方法从数据集中精心挑选,或简单地使用小批量中其他图像的所有变换版本。网络较高层的隐藏活动向量随后被用作线性分类器的输入,并在监督学习的方式下进行训练。这种“孪生网络”方法在标准的图像识别基准测试中取得了优异的表现。最近,两种孪生网络方法(SwAV 和 BYOL)成功避免了对比样本的需求。SwAV 通过量化一个网络的输出来训练另一个网络;而 BYOL 则通过平滑其中一个网络的权重轨迹,避免了崩溃的发生。

变分自编码器(VAE)是一种流行的自监督学习方法。它由一个编码器和一个解码器网络组成,其中编码器将图像映射到潜在编码空间,解码器从潜在编码生成图像。VAE 通过在传递给解码器之前向编码器的输出添加高斯噪声来限制潜在编码空间的信息容量。这类似于将许多小的噪声球体打包进一个最小半径的较大球体中。信息容量的限制取决于有多少小的噪声球体可以装进该大球体中。这些噪声球体相互排斥,因为为了实现较好的重构效果,代表不同样本的编码需要有小的重叠。在数学上,该系统通过对潜在编码和噪声分布的边缘化,最小化*能。然而,直接对参数进行*能最小化在计算上不可行,因此需要依靠统计物理中的变分近似方法来找到*能的上界。

四、深度学习的未来

深度学习系统的性能通常可以通过简单地扩大规模得到显著提升。随着更多的数据和计算资源的投入,模型通常能够表现得更好。例如,具有1750亿参数的语言模型GPT-3(尽管其规模相比人脑中的突触数量仍然很小)在文本生成上明显优于仅有15亿参数的GPT-2。类似地,聊天机器人如Meena和BlenderBot也在随着规模的增大而不断提升性能。

目前大量的努力都集中在模型的扩展上,这确实可以大幅改进现有系统。然而,仅靠扩大规模无法克服当前深度学习的根本缺陷。

将人类学习能力与当前人工智能进行比较,揭示了几项改进方向:

  1. 监督学习需要大量的标记数据,而无模型的强化学习需要过多的试验次数。相比之下,人类能够在极少的经验下很好地泛化。
  2. 当前的系统对分布变化的适应性不如人类。人类可以仅凭少量示例快速适应变化,而人工智能系统在这方面还相对脆弱。
  3. 现有的深度学习主要在感知任务上表现良好,这些任务通常属于所谓的“系统1”任务,即快速、自动化的处理。将深度学习应用于需要一系列有意步骤的“系统2”任务,是一个充满潜力的研究方向,目前仍处于起步阶段。

需要改进的方面。从早期开始,机器学习理论家就专注于独立同分布(iid)假设,该假设认为测试数据应来自与训练样本相同的分布。然而,这在现实世界中并不现实:例如,由于各种智能体的行为导致世界变化,或学习智能体的认知范围逐渐扩展,带来不断需要学习和探索的新事物。因此,现实中数据的非平稳性使得这种假设并不成立。在实践中,这一局限导致当前最先进的AI系统在实验室中表现优异,但在实际应用中性能往往会有所下降。

增强对分布变化的鲁棒性。在面对分布变化时,我们希望实现更强的鲁棒性(称为分布外泛化),这实际上是减少样本复杂性(即在新任务中实现良好泛化所需的样本数量)这一更广泛目标的特例,比如在迁移学习和终身学习中,或在分布或世界状态和奖励关系发生变化时。当前的监督学习系统在学习新任务时需要的样本数量远多于人类,而无模型的强化学习更是如此,因为每一次奖励试验传递的信息比带标签的示例更少。已有研究指出,人类可以以一种比普通独立同分布泛化更直接、更强大的方式进行泛化:只要新的组合符合我们已学会的高级语法和语义模式,我们就能正确解读已有概念的新组合。近期的研究帮助我们了解不同神经网络架构在系统泛化能力上的表现。未来我们如何设计具备这些泛化能力的机器学习系统,使其更好地实现分布外的快速适应?

从同质层到表示实体的神经元群组。神经科学的证据表明,邻近神经元的群组(称为超柱)紧密连接,并可能表示一种更高层次的向量化单元,能够传递一组协调的数值,而不仅仅是一个标量。这一理念是胶囊网络架构的核心,同时也是软注意力机制的本质特征。在软注意力机制中,集合中的每个元素都与一个向量相关联,可从中提取出键向量和值向量(有时还有查询向量)。这种向量级单元可以被理解为一个对象的检测及其属性(如姿态信息)的表示。近期的计算机视觉研究探索了卷积神经网络的扩展,其中层级结构的顶层代表输入图像中检测到的一组候选对象,并通过类似于Transformer的架构对这些候选对象进行操作。赋予对象及其部件内在参考框架的神经网络,能够利用部件间的几何关系来识别对象,但也更容易受到对抗性攻击的影响,这种攻击利用了人类和神经网络在识别对象时所用信息之间的显著差异。

多重时间尺度的适应。大多数神经网络仅具有两种时间尺度:权重在多个样本上缓慢适应,而活动则随着每个新输入快速变化。引入一种快速适应并快速衰减的“快速权重”机制,可以带来新的计算能力。尤其是,它创造了一种高容量的短期记忆,使得神经网络能够执行真正的递归,即在递归调用中重复使用相同的神经元。这是因为在更高层调用中,它们的活动向量可以通过快速权重中的信息来重建。多重时间尺度的适应同样出现在“学习如何学习”或元学习中。

我们的隐性(系统1)处理能力似乎能够在规划或推理时,帮助我们预测潜在的良好或危险的未来。这引发了一个问题,即系统1网络如何在更高层次(系统2)上引导搜索和规划。这种机制可能类似于 AlphaGo 中的价值函数,用来引导蒙特卡洛树搜索。

引入归纳偏置以引导学习方向。机器学习研究依赖于归纳偏置或先验知识,以便在学习过程中朝着符合某些世界假设的方向发展。系统2的处理特性和认知神经科学的相关理论提出了多种此类归纳偏置和架构,这些可以用来设计新的深度学习系统。那么,我们如何设计深度学习架构和训练框架,以整合这些归纳偏置呢?

因果发现能力与神经网络的因果推理。幼儿具备进行因果发现的能力,这表明这可能是人类大脑的一种基本属性。最近的研究表明,通过在干预变化下优化分布外泛化,可以用来训练神经网络,以发现因果依赖关系或因果变量。那么,我们应该如何构建和训练神经网络,以使其能够捕捉到世界中的这些潜在因果特性?

这些开放问题所指引的方向,如何与20世纪的符号AI研究计划相关联?显然,该符号AI计划的目标是实现系统2的能力,例如推理、将知识分解成可以在计算步骤中轻松重组的部分,以及操作抽象变量、类型和实例的能力。我们希望设计能够处理实值向量的神经网络,以保留深度学习的优势,例如可微分计算、大规模高效学习、基于梯度的适应性、高层概念在低层次感知和动作中的落地、处理不确定数据以及分布式表示的能力。

上一篇:保障农民工工资?就靠它!


下一篇:java面试2.0