视频摘要（1）——

2023-10-13 20:15:40

一、两种模式

视频概要往往为静态视频摘要模式，即通过一系列关键帧（对象）组成相应的语义单元，概括表示镜头内容，并支持视频快速导航。

特点：静态视频摘要只考虑其关键帧（对象），忽略了音频信息，生成摘要的速度比动态的快；

缩略视频为动态视频摘要模式，即保持了视频内容随时间动态变化的视频固有特征，一般是智能选择能够刻画原视频内容的小片段加以编辑合成。

特点：动态视频摘要表现的内容比静态视频摘要丰富，通常以镜头的方式表示，融合了图像、声音和文字等信息。

二、视频略览
1、关键帧表示

目前在基于 MPEG-1/2 的数字视频索引与检索模型中，主要是基于关键帧（代表帧）表示视频序列的概略信息。关键帧是从视频中抽取的一些静态图像，用于表示镜头的内容，以此实现视频内容的快速浏览，并能够与视频索引技术等相结合，进行基于内容的视频检索与分析，其浏览方式包括故事板、场景转移图等。（基于故事板的浏览方式为将提取后的关键帧以缩略图的形式按照时间顺序显示和浏览。缩略图的周围还伴随关键帧相关属性，包括该镜头持续时间和摄像机运动等。）

方法：

基于采样的方法，即首先通过镜头分割技术将视频转换为镜头的集合，然后选取镜头的第一帧为关键帧。

该方法实现最简单，运算量小，但是对摄像机快速运动的镜头表现能力有限。

当前的关键帧表示主要为基于聚类的方法。其原理为对当前帧，计算其与已知的聚类中心的距离，若大于预设的阈值，则为新类中心，否则加入距离最近的类，并重新计算该类中心。

关键帧表示方法可以分为基于视频特征相似性聚类和基于多模式。

1 基于视频特征相似性聚类

基于视频特征相似性聚类的原理为关键帧聚类时，其视

频低层特征有一定的相似性，且时序比较一致。比如lin[5]

基于主颜色进行相似匹配,其它还有基于匹配块、基于颜色直

方图等。但是视频帧低层特征相似距离小并不一定表示帧本

身的内容相似，故基于语义的相似度量将是视频分析研究的

重点之一。

2 基于多模式

基于多模式的方法主要是模仿人类感知能力进行精简

视频内容表示,一般是综合视频音频、文本等进行分析。因为

在电影、体育等视频中场景切换时，视频与音频内容往往同

时变化，所以当镜头边界的音频和视频特征同时变化较大

时，该镜头边界为新的场景边界。

在视频摘要中高效

集成多模式特征，是值得研究的方向。

三、视频梗概

视频梗概与视频略览的关键帧浏览方式不同，由一些浓缩视频内容的视频片段（镜头）组成。

视频概述（Summary sequence）

视频概述提供整个视频内容的大致内容的粗略印象，侧重于摘要内容的全面。

和精彩片段（Highlight）

精彩片段则包含原始视频中最吸引人的部分，侧重于提取视频的最重要片段。

视频概述

显得冗长，而视频精彩片段的提取是当前研究的热点之一。

早期的关键帧表示[4]为基于采样的方法，即首先通过镜头分割技术将视频转换为镜头的集合，然后选取镜头的第一帧为关键帧。该方法实现最简单，运算量小，但是对摄像机快速运动的镜头表现能力有限。当前的关键帧表示主要为基于聚类的方法。其原理为对当前帧，计算其与已知的聚类中心的距离，若大于预设的阈值，则为新类中心，否则加入距离最近的类，并重新计算该类中心。关键帧表示方法可以分为基于视频特征相似性聚类和基于多模式。

视频摘要（1）——

码农公寓

相关文章