在本节中,我们回顾了有关视听(AV)融合的最新结果。我们还将讨论一些挑战,并报告解决这些挑战的方法。AV融合中的一个重要问题是模态如何相互作用和相互影响。本节将在AV语音处理(尤其是语音识别)的背景下解决此问题,其中一个问题是模态既相互作用,又有时彼此不同步。有时会出现的另一个问题是,尽管在训练时可用,但测试时可能会丢失其中一种模式。我们将从多视图学习领域回顾解决该问题的方法,该目标是在利用丰富的多模式培训数据的同时分别学习每种模式的模型或表示。除了多视图学习,我们还讨论了深度学习(DL)在AV融合中的最新应用。我们最终得出结论,并提供对AV融合领域未来的评估。
(说明多模态的作用是提高稳定性和感知单模态感知不到的东西)
文章首先介绍了多模态的意义是多种模态提供的信息协同使用,协助系统完成任务。当另一模态的数据补充整体信息时,我们可以说数据集成和融合是有意义的。冗余还可以用来提高可靠性。来自多种模态的互补信息允许感知环境中仅使用单独运行的每个个体模态的信息无法感知的特征。视听融合是多模态融合的方向之一:其中输入源是音频和视频。两种方式相关联并传达互补信息。例如,面部可见度有利于语音感知。在研究关节运动与声道形状和语音声学之间的关系方面,脸部运动,声道形状和语音声学等,这里可以参照语音驱动人脸动画论文。
(一些音视频融合研究方向,感觉能做的东西不少)
语音和视频融合在一起的应用有很多,例如语音识别[8] – [15],说话者识别[16],[17],生物特征验证[18] – [23],事件检测[ 24],概念检测[25] – [27],人或物体跟踪[28] – [35],主动说话者定位和跟踪[7],[36] – [40],音乐内容分析[41],会议细分[42],情感识别[43]-[45],独白检测[46],视频检索[47],人机交互[48],[49],新闻视频中的故事细分[50],视频拍摄检测[51],语音活动检测(VAD)[52]和源分离[53]-[55]。显然,在某些应用中,不仅可以使用视觉发音器,还可以使用面部表情甚至整个身体的发音器。类似的,在某些应用中,音频(不仅仅是语音信号)与视频信号融合在一起。
本节介绍概念并提出一些挑战,重点解决音视频中单个模态的质量和可信度,文章第二节介绍了特征提取的步骤和融合的类别,第三部分讨论了主要融合方法,第四部分介绍了当前的融合音视频的挑战,第五部分提出如何解决第四节的挑战,最后总结并评估。
在本节中,我们介绍了主要概念并回顾了具有挑战性的AV信息融合问题的最新工作。有很多关于该主题的评论文章(即[10],[22]和[56]-[64]),我们的意图是在这些文章停下来的地方继续我们的评论。我们提出了在融合这两种方式时遇到的一些挑战,在其他融合问题中也遇到了其中的一些挑战。我们讨论并比较了应对此类挑战的不同方法,并为该领域和该领域的未来研究方向提供了重要的观点。我们要解决的这些挑战中的一些挑战是每种模式在不同环境条件下的有效性,换句话说,视音频系统对每种模式的质量,可靠性和置信度的适应性。我们还解决了音频和视频流之间的异步问题,包括不同的感应率以及语音和音频线索之间的自然异步。我们还将回顾该领域的最新进展和方法。特别是,我们专注于将深度视图和多视图学习用于AV信息融合。本节的结构如下。在第二部分中,我们描述了特征提取步骤和融合类别。在第三部分中,我们讨论了一些主要的融合技术,即支持向量机(SVM),动态贝叶斯网络(DBN),隐马尔可夫模型(HMM)和卡尔曼滤波器。在第四节中,我们描述了融合音频和视频流的一些挑战。在第五部分中,我们回顾了解决AV融合中的一些挑战所采用的方法,并提出了针对它的两种最新方法,即深度学习和多视图学习。我们在第六节中得出结论并提供有关该领域未来的评估。