【新智元导读】目前,还没有人能够真正理解深度网络在目标分类任务方面的运行方式和原理。主要原因是对深度网络在分类任务中所做的“工作”还没有一个很好的衡量标准,一篇最近发表的关于“通用感知流形”理论的论文试图解决这个问题。
这篇论文于7月5日发表在《Phisical Review X》上,题为《Classification and Geometry of General Perceptual Manifolds》。论文作者为哈佛大学工程和应用科学系的SueYeon Chung, 宾夕法尼亚大学工程与应用科学系的Daniel D. Lee以及哈佛大学大脑科学中心的Haim Sompolinsky。
用统计力学理解机器学习,分析分层网络的表示
文章提出,当神经元群对与相同感知目标的不同物理特征(如方向、姿势、规模、位置和强度等)相关的感觉信号集合做出反应时,就会出现感知流形(Perceptual manifold)。对目标的识别和区分需要以对流形内部变化不敏感的方式对流形进行分类。神经元系统对不变目标的分类和识别是大脑理论和机器学习中的基本问题。
文章研究读出网络(readout network)从其流形表示中对对象进行分类的能力,开发了一种统计力学理论,用于对任意几何形状的流形进行线性分类,并表明该理论与圆锥分解在数学上显著相关。文中表明,位于流形上的特殊锚点可以定义半径和维度的新几何学量度,这可以解释各种几何形状的流形的分类能力。
这个通用理论已经在许多有代表性的流形上得到证明,包括典型的严格凸流形的l2椭圆体流形,代表具有有限样本的多面体的l1球流形,以及代表由于调节连续*度而产生的非凸连续结构的环状流形。同时我们也阐明了标注稀疏性对一般流形分类能力的影响,表明了标注稀疏与流形半径之间存在广泛的比例关系。文章使用新开发的算法计算多种二分法的最大边际解,通过数值模拟证实了理论预测。此文提出的理论及其扩展提供了一个强大而丰富的框架,可用于将线性分类的统计力学应用于由感知神经元响应产生的数据以及针对目标识别任务训练的人工深度网络中。
我们的大脑能够准确地对我们看到的物体进行分类,就算这些不同的物体的属性参数(比如亮度、形态和背景特征)彼此间存在巨大差异,对大脑而言也往往不成问题。机器学习的最新进展已经产生了与我们的大脑具有相似能力的神经网络。然而,对生物和人工智能系统为何能达到如此高的识别准确性,研究人员对此问题在数学上还不够理解。本文展示了如何使用统计力学理论来解释这个问题的基本原理,这些原理是神经回路面对巨大的物理上可变性时,仍能具备识别和区分目标的能力的基础。
本文将特定对象的神经表示中的可变性经几何建模为流形。在网络的特定阶段能够被成功分类的流形数量的增长与神经表示的维度成正比,但具体比例取决于流形的形状。我们的理论可以分析在网络中变化和传导的流形表示的结构,最终将其成功分类。
本文提出的理论利用图形学量度来描述神经流形的形状,这些量度能够预测何时可以分离筛选出随机标记的流形集。这些测量导致了具有任意几何形状的流形的数量,并且可以有效地计算;我们用它们来分析神经反应的原型流形模型。
本文提供了一个新的理论框架来理解和分析由分层神经网络形成的表示,可能会促进关于感知系统如何有效地编码和处理感官信息的新见解。
长期以来,感知学习的统计力学理论为理解单层神经架构及其内核扩展的性能和基本局限性打下了基础。然而,以前的理论仅考虑了不存在图形架构的、有限数量的随机点,并且无法解释由于物理参数变化引起的可变性增加,而呈现为不同流形的大规模、可能是无限数量的输入时,线性分类器的性能下降问题。本研究中提出的统计力学理论,可以解释一般流形的线性分类的能力和局限性,并用于阐明层次感觉系统中神经表征的变化。我们相信这一理论的应用及其推论的扩展将为人们如何有效地编码和处理感官信息的感知系统提供新的见解。
识别流形的通用理论:哪种网络条件可以识别出流形
此文在Reddit论坛的机器学习板块引发了一些很有意思的讨论。不过,Reddit上有小伙伴表示论文的专业用语让他看起来“就像个5岁小孩,求大神解释”。下面有好几位热心观众用比较通俗的用语和示例对此文给出了自己的解释。
比方说,你平生第一次见到一只猫,即使这只猫离你很远,又蜷曲着身子,但从它的体型形状上判断,仍然能够知道这是只猫。这篇论文提出的方法,就是要教会机器也掌握类似的识别方式,从目标的几何形状上来猜测,这是什么东西。也就是说,给计算机看一堆图形,然后让它猜测剩余部分是什么样子的,而不用从每个角度来观察目标。
其中一位ID为“Hanmilton”的坛友给出了比较系统和详实的回复(如上图)。他首先声明,自己并不是这篇论文的作者,但曾有幸听过作者之一的学术报告。他认为,这是一篇偏数学的论文,但其结论是颇具“革新性”的,接着在留言中从研究背景、重要性、应用意义上对文章进行了概述和分析。新智元对相关内容做了编译,一起来看看:
他表示,论文中的图1(下图)基本上提供了关于神经空间中“流形”概念的启发性观点。在神经空间中,我们对一只猫或狗的每个观察的方向/角度/位置变化都可以视作一个由神经元放电频率构成的平面或“流形”。图中蓝色对应为狗,粉色对应为猫。如果这两个区域没有交集,神经网络就能够分辨出猫和狗。
他认为,对目标的“神经流形”表示是深度网络理解目标和大脑识别/看见目标的框架。
2.论文其余部分是建立一个通用理论,告诉你哪种网络条件可以识别出流形,哪种则不能识别。比如,你什么时候能分辨出猫和狗,什么时候分不出来。论文中花了不少的篇幅来构建关于流形如何存在于子空间内的理论架构,如何用数学来描述(如下图)。
3.文中用了一些实例来证明这个理论。其实可以使用猫和狗的,但作者使用了更为通用的形状:球形、椭圆体和环状。
- 文章表明,该理论可以根据流形的特点来预测哪些流形可以识别,哪些识别不出。可以看到,在给定的维度上(比如D=20),随着半径的扩大,可识别度会下降,也就是说,这能够显示出在给定数据下所构建的网络的极限。
相关链接:
https://www.reddit.com/r/MachineLearning/comments/8zjnuu/r_a_new_theory_to_analyze_neural_manifolds_in/
https://journals.aps.org/prx/abstract/10.1103/PhysRevX.8.031003
论文原文:
https://journals.aps.org/prx/pdf/10.1103/PhysRevX.8.031003
原文发布时间为:2018-07-21
本文来自云栖社区合作伙伴新智元,了解相关信息可以关注“AI_era”。
原文链接:【深度学习再突破】让计算机一眼认出“猫”:哈佛提出新高维数据分析法