基于视觉的战斗检测监视摄像机(Vision-based Fight Detection from Surveillance Cameras)
基于视觉的动作识别是计算机视觉和模式识别最具挑战性的研究 课题之一。 它的具体应用,即从公共区域、*等的监控摄像头中检 测打架事件,是为了迅速控制这些暴力事件。本文针对这一研究问题, 探索了基于 LSTM 的解决方法。 此外,还利用了注意层。 此外,还收 集了一个新的数据集,其中包括来自监控摄像机视频的战斗场景,可 在 YouTube 上获得。 此数据集可公开提供 1。 通过对 HockeyFight、 Peliculas 和新收集的战斗数据集的广泛实验,观察到该方法集成了 Xception 模型、Bi-LSTM 和注意,提高了战斗场景分类的最新精度。 索引术语-深度学习,动作识别,战斗检测。
I. 导言暴力检测作为一个研究课题受到越来越多的关注,因为它有 许多实际的用例。 由于不幸的是,电影或媒体中的暴力场景 已经司空见惯,而且由于年轻一代可以很容易地获得这些媒体 内容,因此一组研究活动正在自动检测媒体内容中的暴力活动。 另一个主要用例是检测公共区域的暴力活动,如地下, 街道,公共汽车,医院,福利机构等。 以便自动警告公职人 员并对他们采取快速行动。 暴力活动包含广泛的活动,例如 破坏、爆炸和战斗。 在这项研究中,我们重点讨论了战斗活 动。 战斗事件被定义为两个或两个以上的人,他们的战斗程度必须受到干扰。
相关方法包括特征提取和分类两部分。 主要应用两种不同 的方法进行特征提取:计算视频的光流信息和计算基于深度卷 积神经网络的表示。 由于卷积神经网络(CNN)在各种计算机视 觉中的成功证明 应用,基于 CNN 的方法 是高度优先的最近的工作。 长期短期记忆(LSTM)用于建模时 间信息,因为它们通过记忆能力发现连续帧之间的关系。 总 之,CNN+LSTM 网络以其高性能被广泛应用于动作识别中。
在本研究中,为了增强基于 CNN+LSTM 的战斗检测任务方法, 利用战斗场景对改进的 Xception CNN 进行了训练。 因此,预 计这个 CNN 更熟悉输入序列,并从它们中提取更相关的特征。 在分类层中,利用双向 LSTM(Bi-LSTM)和自保持层开发了一种 新的方法来提高性能。 此外,还收集了一个新的监视摄像机 战斗数据集。
论文的其余部分组织如下。 第二节概述了相关工作。 在第 3 节中,解释了所提出的方法的技术细节。 第四节介绍并讨论 了实验结果。 在第 5 节中总结了所获得的结果,最后在第 6 节中总结了本文的结论。
II. 相关工作动作识别最常见的深度学习解决方案之一是双流卷积网络 [1]。 在该方法中,使用两个 CNN,一个用于空间特征提取, 它从单个图像中学习动作,另一个用于时间特征提取,它从多 帧的光流矢量中学习。 然后,将两个网络的输出组合在最后。
Sudhakaran 和 Lanz 更倾向于使用卷积 LSTM 进行分类,以便以 更好的方式[2]区分帧之间的时空变化。
徐等人。 在图像字幕中使用注意力,方法是关注能够提供关于场景[3]中发生的事情的重要信息的对象。 Sharma 等人。 在动作识别中使用注意来处理对输出[4]影响最大的特征。 本工作采用 GoogleLeNet[5]进行特征提取,采用具有注意机制的多层深层 LSTM 进行分类。 根据实验结果,注意层增强了 LSTM的性能。 Song 等人。 将 LSTM 应用于骨架数据,其中视频序 列中的受试者被表示为骨架,以识别人类的行为。 此外,它 们从注意层中受益,以便在帧[6]之间的时空变化方面关注样 本骨架最活跃的关节。
Liu 等人。 介绍了一种新类型的 LSTM,它被命名为全局上 下文-AwareAttentionLSTM[7]。 该方法是为了对骨架数据进 行三维动作识别而开发的,其的是利用迭代注意方法选择样 本中信息最丰富的关节。 此外,它评估全局上下文,同时从 框架中学习,与常规的 2DLSTM 不同。 Dong 等人。 通过使用 多流 CNNs[8]检测人与人之间的暴力行为。 首先,CNNs 提取 时空特征,然后再添加一个流来学习视频的加速度。 因此,考虑到场景[8]的活动,可以对序列进行分类。Singh 等人。通 过多流 CNN[9]从视频序列中提取不同类型的特征。 在检测到帧中的人后,他们在被跟踪的人上构造一个包围框,并使用几 个流从包围框和一般帧的内部获取运动特征。 然后将特征输 入到双向 LSTM 中,用于对动作进行分类。 Ullah 等人。 使用 各种 CNN 架构从视频序列[10]的帧中提取特征。 特征从第二 层到最后一层网络,并由双向 LSTM 分类。 3D 卷积神经网络也被用于视频序列[11][14]中的动作识别。 Peixoto 等人。 使 用 3D CNN 和 CNNLSTM 在视频中进行暴力检测。 然后,将这两 个网络的输出与另一个网络相结合,可以区分暴力[15]的不同 概念。
在文献中,有几个公开的暴力检测数据集。 例如, Technicolor 展示了他们的好莱坞电影数据集,其中包含来自 31 部电影[16]的暴力和非暴力序列。 Peliculas 数据集包含 来自 You Tube 或电影[17]的各种战斗和非战斗视频。 曲棍球 数据集包括来自冰球比赛[17]的战斗和非战斗视频。 另一个 数据集是暴力流数据集,它包含多个暴力场景[18]。UCFCrimes 数据集包括不同的犯罪场景,如抢劫、氩、入室盗窃等。 以及战斗[19]。 最近在 2019 年[20]发布的数据集包含带有战斗
实例的监视摄像机视频。 为了补充这些数据集,在本研究中, 使用来自 YouTube 的监视摄像机脚构建了一个战斗数据集。
III. 拟议的方法
在下面的小节中,提出了该方法的特征提取和分类部分。
a. 特征提取模型
对各种类型的 CNN 架构进行特征提取部分的测试,如 VGG16[21]和 Xception[22]。 VGG16 以 224×224 像素分辨率图像作为输入。 它在末端有 三个完全连接的层。 特征取自第二完全连接层。 另一方面, Xception 接受 299×299 像素分辨率输入。 特征最后一个全 局平均池层中提取。 此外,一个额外的 CNN 被训练用于战斗检测,它被命名为 Fight-CNN。 使用 Hockey 数据集中的视频序列的战斗和非战 斗帧进行训练。 经过训练的 CNN 具有 Xception 体系结构,但 最后一层被映射成两个类。 此外,为了从战斗场景中捕捉更 多的相关特性,内核大小也被拓宽了。 具有 Xception 的新网 络小于参数为 1100 万的常规模型。 在分类层之前,它有两个 完全连接的层,并且从第一个完全连接的层中提取特征。在发送用于特征提取的视频之前,从视频序列中采样帧。使 用均匀采样,从每个视频中选择 5 或 10 帧。 然后,使用三次 插值将这些帧调整到网络体系结构的输入大小。
b. 分类模式
在分类部分,使用 Bi-LSTM,因为它可以学习过去和当前信 息之间的依赖关系。 然后,包括一个注意层,以确定输入的 重要部分。
1) 长期短时记忆是一种用于序列学习任务[23]的方法。 LSTM 的内存使用能力不同于常规递归神经网络(RNN)。 它在模 块中的内存门使得保留必要的信息和忽略不相关的信息成为 可能。 通过考虑以前的数据,门根据其相关性选择传递或抛 出数据的某些部分。换句话说,LSTM 中的门了解新信息在多大 程度上取决于以前的信息。 因此,可以学习序列元素之间的 关系。 在这种情况下,数据由图像序列组成,网络可以连接 在与视频不同时间拍摄的帧中的信息。 在此过程中,系统在 检查当前帧时记住前一个帧。 系统学习在视频处理过程中发 生的时间变化,这些变化提供了重要的信息来识别这些动作。 在 LSTM 实验中,使用了一个 LSTM 层、三个密集(1024、50、 2)和三个激活层(relu、Sigmoid、Softmax)的 LSTM 模型。 在 体系结构的最后,softmax 层与两个类一起使用,而不是用 Sigmoid 进行二进制分类。 因此,可以观察到输出中的预测置 信度。 因此,将均方误差作为损失函数,得到了比交叉熵损 失函数更好的结果。
2) Bi-LSTM:不同于常规的 LSTM,它只在根据先前信息确定 输入的序列中具有前向流,Bi-LSTM有一个额外的向后流[24]。 完成前向学习后,从最后一个元素到第一个元素处理一个后向学习。 因此,在每个单元中,都保存过去和未来的信息,并通过考虑这些信息来确定产出。在用 Bi-LSTM 进行实验时,使用具有规则 LSTM 的相同体系结构与附加的 Bi-LSTM 层而不是 LSTM 层一起使用。 此外,为了减少过度拟合,还应用了辍学。
3) 注意层:注意机制首先由 Bahdanau 等人介绍。 在 2014 年[25]并通常用于 RNN 中的自然语言处理,以决定在处理当前 单词时必须对其他单词给予多少关注。 它也用于视觉问题, 如图像字幕[26][28]和目标检测[29]。 当注意层与双向 LSTM 一起使用时,它计算每个单元的权重 来解释序列中的每个元素。 计算每个元素的后向和前向层值, 并影响其他元素的输出。 注意层决定每个输出应该受到其他 输入的影响。 在观察过去和未来的信息后,它生成一个权重 矩阵,该矩阵用于计算输出。 自我关注[30]是本研究中使用的另一种关注机制。 作者将 注意力应用于输入数据,并试图以更方便的形式表示它,方法 是在按顺序处理元素的同时,将注意力集中在数据的重要部 分。例如,本研究中的输入数据是来自十个帧的特征向量。注 意层在输入上执行,并考虑到注意矩阵和输入向量之间的关 系,生成新的特征向量。 之后,将新的特征向量发送到下一 层进行分类。 拟议系统的概述见图。 1
IV. 实验结果
在下面的小节中,我们首先解释使用的数据集和实验设置。 然后,我们给出并讨论了实验结果。
A.数据集
1) 曲棍球比赛数据集:数据集包含冰球比赛中的战斗和非 战斗场景。总共有 1000 个视频样本,其中 500 个是战斗序列, 其他 500 个是非战斗序列。 视频长两秒,帧大小不变。 视频 的背景都是相似的,它们包含背景运动。
2) Peliculas Dataset:它包括好莱坞电影中的打斗场面, 足球比赛中的一些非战斗场面,以及其他事件。 总共有 200个视频。 其中 100 个是战斗视频,100 个是非战斗视频。 视 频的持续时间是两秒,帧的大小可能不同。 视频中的环境和 人是不同的,因为他们来自电影场景。 这些视频也有背景运 动。
3) 监视摄像机对抗数据集:此数据集是为本研究收集的。即 使有一些战斗或暴力特定的数据集,这些数据集的主要样本是 从电影或曲棍球比赛中提取的,它们对应于不同类型的场景。 这些数据集可以帮助学习操作本身,但它们并不完全适合于指 定的任务。 曲棍球比赛现场记录中的演员看起来一模一样, 背景本身变化不大。
然而,在监视应用中,场景中的人总是不同的,每个摄像机的 镜头背景也不同。 在电影和曲棍球比赛中,背景是移动的,因为拍摄技术,如放大/缩小。 另一方面,监控摄像机大多静 止,录音中的背景更稳定。 从图中可以观察到差异。 2, 3, 4. 因此,一个包含来自监视摄像机镜头的战斗/非战斗序列的新 数据集将补充现有的数据集。 在监控摄像机数据集中,总共有 300 个视频,其中 150 个是战斗序列,150 个是非战斗序列。 监控摄像头的足迹主要是从 You Tube 收集的,一些监控摄像头数据集,如 CamNet[31]和 Synop sis 数据集[32],[33]用于提取非对打视频切割。 在收集视频后,从它们中切割 2 秒长的战斗/非战斗序列。 视频有 不同的大小和不同的帧数。 因此,帧在发送到 CNNs 之前被调 整大小。 然后,通过考虑视频的总帧数,采用均匀采样,如 图所示。 1. 表 1 总结了使用的数据集中的样本数量。 无花果。 5. 来自收集的数据集的各种战斗场景。数据集中有各种类型的战斗场景,如踢、拳、用物体击打和 摔跤。 由于安全相机脚包含不同的光线和着色条件,这些变 化也被考虑在内,以进一步增加数据集的多样性。 此外,从 不同的地方收集安全相机步行,如咖啡馆,酒吧,街道,公共 汽车,商店等。 这样,数据集中的多样性就得到了保证。 战 斗场景独立于监视摄像机的环境,如图所示。 5. https://github.com/sayibet/fight-detection-survdatase t.访问b. 结果
每个实验都是针对每三个数据集进行的:Hockey、Peliculas 和监视摄像机数据集。 对于特征提取部分,对 VGG16 和 Xception 体系结构进行了测试。 此外,还使用 Hockey 数据集 的战斗场景训练了修改后的 Xception 体系结构,并将其命名
为 Fight CNN。
对于分类部分,常规 LSTMS 和 Bi-LSTMS 与 VGG16 和 Xception 模型一起进行了测试。 通过 Xception 和 Fight-CNN 测试的注 意层增强了网络。 对于每个 CNN,考虑了两个分类器,即具有 注意力的 Bi-LSTM 或没有注意力的 Bi-LSTM。 在 CNN 和 LSTM 实验中,为了观察帧数对精度的影响,帧数在 5 到 10 之间变 化。
历元数为 20,批处理大小为 10 用于 Fight-CNN 实验,100 用于 VGG16 和 Xception 实验。 数据集被分成 80%用于培训, 20%用于测试。 实验结果在表 2-3-4 中以测试精度表示。 由于 Fight-CNN 是用 Hockey 数据集的场景进行训练的,所 以 Fight-CNN 在 Peliculas 上的测试结果不如表 2 所示。 Peliculas 数据集的战斗场景样本数量很少,所以精度是受到虚假预测的高度影响。 因此精度标准差高于其他。 在训 练结束时,Bi-LSTM 方法的损失值大多低于常规的 LSTM 模型。 正如表 2 所观察到的,与其他方法相比,添加注意层显著提高了精度。 曲棍球数据集实验表明,Bi-LSTM 比常规 LSTM 具有优势,如 表 3 所示。 当与 Xception 和 Fight-CNN 实验进行比较时,注意层再次显示了它的效果。 结果表明,Fight-CNN 与 Bi-LSTM 和注意力的结果是有希望的。 由于我们在 Fight CNN 中使用 的 Xception 网络结构参数很少,因此与常规的 Xception 网络 相比,它的精度较低。 另一方面,Fight-CNN 包含的参数数量 较少,提取特征的速度比常规 Xception 网络快。 如表 4 所示,监视摄像机数据集的结果不如其他数据集的结 果好。 由于该数据集中样本的多样性很高,模型不能很容易 地推广到该数据集。
结果表明,与 Xception 模型相比,Fight-CNN 在数据上提供了 更好的特征提取。 由于 CNN 熟悉它所训练的战斗场景,它可 以更容易地提取重要的特征。 注意层以其聚焦能力再次提高 了常规 Xception 和 Fight-CNN 的准确性。 在大多数情况下,每个视频参数的帧数与精度没有直接的相 关性。 然而,与每个视频使用 10 帧相比,每个视频使用 5 帧 对特征提取步骤的计算负载较少。
V.讨论
该方法得益于 CNN 对帧的特征提取。 双向 LSTM 的双向学习 和注意层,也可以确定对序列的每个部分给予的注意量,以提 高准确性。因此,所提出的方法已经超过了最先进的性能。此 外,还使用 Fight-CNN 测试了一个新的模型,这是 Xceptio模型的一个修改版本。 比 LSTM 在动作识别方面表现出比常规 LSTM 更好的性能,这 也在[8]、[9]的相关研究中得到了说明。 此外,[3]、[4]、 [6]的研究表明,注意层提高了序列学习的性能。 本研究验证 了这一发现,并表明使用 Bi-LSTM 和注意是一种很有前途的方
法来分类战斗场景。 实验结果还表明,数据集包含的多样性越多,对战斗场景的 分类就越具有挑战性。 由于收集的监视战斗数据集包含不同 类型的战斗事件,来自不同的地点,在不同的条件下,它对最 先进的行动识别系统提出了重大挑战。
六。 结论
本研究的主要目的是以快速、准确的方式从监控摄像机中检 测战斗场景。 该方法采用注意层和 Bi-LSTM 网络相结合的方法,提高了检测精度,提供了良好的检测效果。 此外,利用 预先训练的 Fight-CNN 进行特征提取,证明了其在监视摄像机
数据集实验中的有效性。 该研究的另一个重要贡献是收集的监视摄像机战斗数据集, 这对自动战斗检测提出了进一步的挑战。 该监视摄像机数据 集可以通过添加来自街道或地下车站的安全摄像机步行的新 样本来扩展。