《中国人工智能学会通讯》——9.8 发展趋势

9.8 发展趋势

目前哈希学习已被广泛关注并在某些应用领域取得了初步成效, 但还有很多重要的问题有待解决。我们认为以后的工作可以从如下五个方面进行进一步探索。

(1)目前哈希学习理论分析方面的工作还很少。 用哈希码表示数据后 , 数据相当于进行了有损压缩。在后续的处理中 , 比如检索或者挖掘过程中 ,基于哈希码表示的数据得到的模型能在多大程度上逼近从原始数据得到的模型 , 即精确度如何 , 目前还没有相关的理论分析。另外 , 针对一个具体问题或应用 , 到底需要多少位编码才能保证结果达到一定的精确度 , 目前都是根据在验证集上的实验结果来进行选择 , 是否存在一些理论上的指导也非常值得研究。

(2)在基于松弛的两步学习策略中,虽然按位参数优化策略能自动地弥补量化过程中损失的信息 , 但目前大部分模型的目标函数并不适合于这种优化方式。为其他模型设计能弥补量化过程信息损失的优化策略 , 还需要进行进一步的研究。另外 ,基于图的哈希学习(图哈希学习)中,需要构建样本对之间的关系来指导哈希码的学习。例如 , 在基于图的监督哈希学习中,如果样本 i 和 j 属于同一类 ,则 Y(i, j)=1, 否则 Y(i, j)=0。 然后再基于 Y 矩阵来建模。如果要利用所有样本对之间的关系,存储和计算开销都至少是训练样本数的平方级。 哈希学习研究近几年之所以这么热 , 正是因为它能够被用来处理大数据。 当存在海量的训练数据 , 图哈希学习模型的参数训练和优化过程将变得非常慢,甚至不可行。我们近期在可扩展的快速图哈希学习方面取得了初步的进展[60] ,但该工作只是针对非监督场景和一类特殊的目标函数。针对其他的图哈希学习模型,如何设计快速的参数优化算法 , 也是有待解决的关键问题之一。还有,在基于松弛的两步学习策略中,虽然最近出现的量化策略[28,47,61]已经取得了比传统量化策略更好的性能 , 但相关工作还不多,没有形成系统的研究。

(3)相对于基于松弛的两步学习策略,离散哈希学习更接近于哈希学习的原始目标。因此,在相同的训练集规模上,离散哈希学习方法的表现往往优于基于松弛的两步学习策略。但离散哈希学习面临的问题是参数优化的复杂度较高,从而导致能处理的训练集规模有限。因此,如何设计快速的离散优化策略,将是离散哈希学习中最重要,也是最具挑战性的问题。

(4)深度哈希学习中最具有前景的思路是将特征学习过程和哈希码学习过程整合到一个统一的端到端的框架中,让这两个过程相互提供反馈。现有的很多深度哈希学习方法只是直接采用或者简单改进已有的深度网络结构来完成特征学习。针对哈希学习任务,是否需要设计专门的深度网络结构,还值得我们进一步探索和验证。此外,深度哈希学习也面临着计算复杂度高的问题。目前大部分深度哈希学习方法采用的训练集规模都较小(几千个样本点的规模)。因此,设计快速的学习策略以有效利用更大规模的训练数据,也是深度哈希学习中值得进一步探索的关键问题。

(5)在有些大数据应用中,数据会以在线(流式)的方式或者分布式的方式收集和存储,因此,需要设计在线哈希学习[62-63]和分布式哈希学习[64]算法来处理此类应用。目前这两方面的工作还不多,还有很多值得深入探索的问题。

上一篇:从六大方面谈谈智能交通行业发展趋势


下一篇:深度学习入门笔记系列 ( 一 )