4.22 让机器具有视觉注意功能
视觉注意(Visual Attention)是指心理资源被有选择性地分配给某些视觉认知加工过程,使得这些过程对信息的加工更加快速、准确。视觉注意功能对于协调人的各种视觉认知加工过程非常重要。人类每时每刻都接受着大量的外界信息,处于被“信息轰炸”的状态。据估计,每秒钟大约有 1 亿位的信息量投射到人眼视觉感光神经上[1] ,这远远超出了大脑能够完全直接处理和理解的范围。我们有限的心理资源和神经资源不可能同时、同等地处理如此大规模的信息,只能选择性地处理那些优先级相对较高信息,而忽视那些优先级较低的信息。视觉注意的作用正是体现于此。
同样地,在数字世界里,与视觉数据的生产及处理需求相比,我们在现实物理计算系统方面所取得的进展相对滞后,现有视觉数据处理的能力和资源相对而言仍非常有限。在数据体量的层面上,以天津市为例,根据正在启动实施的《天津市社会治安防控体系视频监控网络规划设计实施方案(2015—2017)》,规划全市视频监控探头总数 110 万个,联网探头 11.5 万个,每天产生数据约 23.21 PB 1 。在智能化层面上,以周克华案侦破过程为例,长沙市警方投入超过 2 000 人警力回看视频,视频总时长相当于 83 万部电影2 。
由上述现状与趋势可以看出,赋予计算系统一定的选择能力,从而优化资源分配,提高信息处理效率,极具必要性和紧迫性。视觉显著性(Visual Saliency)分析即是一种可以赋予机器以视觉注意功能的技术,它能够将人们可能感兴趣的,或者更具判别价值的信息成分,从影像中分离出来,以便后续进行更深入的处理与分析。
需要说明的是,视觉显著性的概念有两种基于不同动因的理解——认知驱动或计算驱动。前者是通过模拟的方式理解人的视觉注意选择过程,验证视觉注意的行为及心理机制(结合心理物理学、功能性磁共振成像、高密度脑事件相关电位等相关数据所建立的模型)。而本文主要关注另一类动因下的视觉显著性模型,即从计算机科学的角度出发,意图提供一种信息优选技术。有关认知驱动的视觉显著性分析模型的介绍可参见文献 [2]。