关于视频理解

2024-04-04 16:24:35

video understanding（视频理解）

整理一

整理网站：https://www.zhihu.com/question/64021205

video understanding中的相关领域

video classification ：视频分类（最底层）
temporal action proposal/detection：临时行动建议/检测
spatial action detection：空间行动检测
video+language：视频+语言
video QA：视频 QA

video 与 image 的本质差异：
video有temporal information（时间信息）
研究方向(问题定义)，方法设计：围绕temporal
temporal information提供temporal context (时序上下文)
好处：帮助对视频的识别和推理
坏处：信息冗余，提高计算量

扩展
最底层：video classification （视频分类）
下一个层次：temporal action detection（时态动作检测）
优秀链接：https://zhuanlan.zhihu.com/p/31501316（Temporal Action Detection (时序动作检测)方向2017年会议论文整理）
offline detection（离线检测）：有整个视频的情况下
online action detection （在线操作检测）：只有到目前为止的视频
online action detection（在线操作检测）看成action anticipation（操作检测）的一个子问题，也就是预测时间为0的action anticipation
逐渐火热：spatio-temporal detection\segmentation（时空检测_分段）
再下一个层次：video+language（视频➕语言）
localization by language（按语言本地化）类似于image上的phrase grounding/object referring（短语接地/对象引用），这个方向刚开始，也许有得做。
优秀链接：https://zhuanlan.zhihu.com/p/35235732（Video Understanding 新方向介绍：Grounding Activities and Objects by Language in Videos）
video qa区分于image qa，还是它的temporal性质使得信息量增加了很多，这个层次应该是围绕temporal modeling+language去突破。个人感觉这个层次还有很长的路要走，
毕竟video的基础设施（classification detection）做的还不够好。

整理二

视频分析最难的是temporal information modeling（时态信息建模）
用光流计算量会很大，
解决：RNN做时间信息建模
现在video captioning（视频字幕）的性能很高，所以论文越来越难。
Video QA刚刚开始，刷性能更容易，从做论文的角度来说，要相对容易一些。

整理三：video understanding 分为下面四类.

video classification（视频分类），或者是action recognition（动作识别）
activity localization（活动本地化）或者是action detection（行动检测）：从一个十分钟的视频中找出事件发生的起止时间
video和NLP结合：video caption（视频字幕） ,video QA（视频 QA）
video 的 piexl semantic classfication：video semantic segmentation（视频语义分割）,也叫作video scene pharsing(视频场景解析)

整理四

video understand（视频理解），是visual analysis（视觉分析）的第三个层次，比较高层次的研究方向。

video classification（视频分类），最基础，属于运动/行为类型。video classification（视频分类）和action recognition（行动识别）有很多重叠
video clips proposal（视频剪辑建议），类似于检测里面的region proposal（区域提案），该方法是将视频中的短片段抽取特征，然后作为candidate送入后面的决策网络
event detection（事件检测），在几十万各种各样的视频中，包含有指定(复杂)事件的一些视频，需要用算法找出最可能包含这些事件的视频。
video captioning（视频字幕），对指定的视频输出一段描述文字。

lee__7 发布了52 篇原创文章 · 获赞 4 · 访问量 8756 私信关注

码农公寓

video understanding（视频理解）

整理一

整理二

整理三：video understanding 分为下面四类.

整理四

相关文章