郑重声明:原文参见标题,如有侵权,请联系作者,将会撤销发布!
Neural Networks, (2020): 88-100
Abstract
以快速流的形式生成大量数据的应用正变得越来越普遍,因此有必要以在线方式学习。这些条件通常会施加内存和处理时间限制,并且它们通常会变成不断变化的环境,其中的变化可能会影响输入数据的分布。这种变化会导致在这些流数据上训练的预测模型变得过时并且不能适当地适应新的分布。特别是在这些非平稳场景中,迫切需要新算法能够尽快适应这些变化,同时保持良好的性能分数。不幸的是,大多数现成的分类模型如果在不断变化的环境中使用,并且无法正确扩展,则需要重新训练。脉冲神经网络已成为模拟大脑行为和学习潜力的最成功方法之一,并利用它们来承担实际的在线学习任务。此外,脉冲神经网络的一些特定风格可以克服在发生漂移后重新训练的必要性。这项工作旨在通过作为一个全面的概述来合并这两个领域,推动进一步发展,将脉冲神经网络纳入在线学习场景,并成为非专家的友好切入点。
Keywords: Online learning, spiking neural networks
1. Introduction
由于从几乎任何来源收集数据并进行分析以实现基于数据的洞察力,从而实现成本和时间减少、新产品开发、优化产品或智能决策的可行性,大数据一词在过去十年中获得了进步的动力,其中包括利润。在这些大数据场景中,一些特性可能会起到相关作用:存储整个数据集不可行,传统算法无法处理高速产生的数据,学习过程中可能会发生数据分布的变化。越来越多的应用基于这些持续可用的训练数据(流学习),并应用于实际场景,例如手机、传感器网络、工业过程控制和智能用户界面等。其中一些应用会产生越来越普遍的非平稳数据流,并且生成数据的过程可能会随着时间的推移而发生变化,从而导致要建模的模式发生变化(概念漂移)。这导致在这些流数据上训练的预测模型变得过时并且不能适当地适应新的分布。特别是在线学习(OL)场景中,每个时刻只向学习算法提供一个样本,迫切需要新算法尽可能快地适应这些变化,同时保持良好的性能分数。在过去几年中,存在概念漂移的OL一直是一个非常热门的话题,并且因其众多公开的挑战而在社区中仍然存在积极辩论。数据挖掘社区更喜欢将存在概念漂移的OL称为数据流挖掘。
许多基于机器学习(ML)技术的流学习算法已经开发出来。不幸的是,大多数现成的模型如果在不断发展的环境中使用,则需要重新训练,并且由于其学习算法而无法正确扩展。人工神经网络(ANN)在过去几年中已被用于处理这些快速发展的信息流。从本质上讲,它们是一种受生物学启发的范式,它模仿大脑获取和处理感官信息的过程。他们在生物学上最合理的神经元模型之一是所谓的脉冲神经网络(SNN)的关键组成部分,这是一种广受欢迎的知名模型,能够捕捉在真实生物神经元中观察到的信息动态,并且将多个信息维度(例如时间、空间、频率、相位以及处理大量数据)表示和集成到单个模型中。SNN背后的理论目前大多被接受来描述现实的类脑信息处理,这另外简化了它们在超快速和可靠的硬件平台上的实现。
如今被视为第三代人工神经网络,SNN的出现是由于需要更好地了解哺乳动物大脑的信息处理技能,为此社区致力于开发更复杂的生物联结系统。一些SNN在OL研究界尤其出名,因为它们具有持续增量学习的能力,这说明它们对非平稳和不断发展的环境具有持续的适应性,以及它们作为漂移检测器的能力。此外,他们还展示了捕获流数据中时间变量之间的时间关联的能力。
从上面公开的所有基本原理来看,两个领域的合并激发了进一步发展,将SNN用于OL场景,重点是那些需要概念漂移检测和适应的场景。这项工作旨在为这两个领域的非专家提供合适的文献切入点,以及未来在该方向上投资的研究工作的催化材料;它的组织方式如下:第2节和第3节分别介绍了OL场景和SNN的挑战和未来工作,第4节深入研究了这两个领域的融合。最后,第5节得出与本研究相关的结论。
2. Online Learning
在流学习中,数据可能以数据块(批学习)或在线方式到达,即一次一个样本(OL)。在批处理学习中,提供了一组完全可访问的样本(批处理),并且允许学习算法在构建/更新模型之前扫描批处理。然而,在OL中,每个时刻只向学习算法提供一个样本,每次新样本到达时都会增量更新。与传统的批学习设置相比,OL环境强加了不同的计算约束:
- 每个样本在到达时只处理一次,模型必须能够在收到样本后立即按顺序处理样本,而不会危及存储空间和处理时间的限制;
- 每个样本的处理时间必须小且恒定,不能超过新样本到达的速度;
- 该算法应仅使用预先分配的有限内存量;
- 每次扫描数据流时都必须有一个有效的模型; 和
- 学习算法必须生成一个模型,该模型与在批学习场景中构建的模型等效。
在批学习中,学习算法的评估过程由用于训练和测试的样本集决定。在这方面为OL提出的问题是如何构建一段时间内的准确性图。最常用的方案之一是先测试后训练,其中每个样本在用于训练之前先对模型进行测试,然后可以增量更新准确率。该方案的优点是可以在内存受限且没有用于测试的保留集时应用,从而充分利用可用数据集。接下来,我们介绍存在概念漂移的OL问题,这可能是OL中最具挑战性的方面,是过去十年中非常热门的主题研究。