关于视频理解

video understanding(视频理解)

整理一

整理网站:https://www.zhihu.com/question/64021205

video understanding中的相关领域

  1. video classification :视频分类(最底层)
  2. temporal action proposal/detection:临时行动建议/检测
  3. spatial action detection:空间行动检测
  4. video+language:视频+语言
  5. video QA:视频 QA

video 与 image 的本质差异:
video有temporal information(时间信息)
研究方向(问题定义),方法设计:围绕temporal
temporal information提供temporal context (时序上下文)
好处:帮助对视频的识别和推理
坏处:信息冗余,提高计算量

扩展
最底层:video classification (视频分类)
下一个层次:temporal action detection(时态动作检测)
优秀链接:https://zhuanlan.zhihu.com/p/31501316(Temporal Action Detection (时序动作检测)方向2017年会议论文整理)
offline detection(离线检测):有整个视频的情况下
online action detection (在线操作检测):只有到目前为止的视频
online action detection(在线操作检测)看成action anticipation(操作检测)的一个子问题,也就是预测时间为0的action anticipation
逐渐火热:spatio-temporal detection\segmentation(时空检测_分段)
再下一个层次:video+language(视频➕语言)
localization by language(按语言本地化)类似于image上的phrase grounding/object referring(短语接地/对象引用),这个方向刚开始,也许有得做。
优秀链接:https://zhuanlan.zhihu.com/p/35235732(Video Understanding 新方向介绍:Grounding Activities and Objects by Language in Videos)
video qa区分于image qa,还是它的temporal性质使得信息量增加了很多, 这个层次应该是围绕temporal modeling+language去突破。个人感觉这个层次还有很长的路要走,
毕竟video的基础设施(classification detection)做的还不够好。

整理二

视频分析最难的是temporal information modeling(时态信息建模)
用光流计算量会很大,
解决:RNN做时间信息建模
现在video captioning(视频字幕)的性能很高,所以论文越来越难。
Video QA刚刚开始,刷性能更容易,从做论文的角度来说,要相对容易一些。

整理三:video understanding 分为下面四类.

  1. video classification(视频分类),或者是action recognition(动作识别)
  2. activity localization(活动本地化)或者是action detection(行动检测):从一个十分钟的视频中找出事件发生的起止时间
  3. video和NLP结合:video caption(视频字幕 ) ,video QA(视频 QA)
  4. video 的 piexl semantic classfication:video semantic segmentation(视频语义分割),也叫作video scene pharsing(视频场景解析)

整理四

video understand(视频理解),是visual analysis(视觉分析)的第三个层次,比较高层次的研究方向。

  1. video classification(视频分类),最基础,属于运动/行为类型。video classification(视频分类)和action recognition(行动识别)有很多重叠
  2. video clips proposal(视频剪辑建议),类似于检测里面的region proposal(区域提案),该方法是将视频中的短片段抽取特征,然后作为candidate送入后面的决策网络
  3. event detection(事件检测),在几十万各种各样的视频中,包含有指定(复杂)事件的一些视频,需要用算法找出最可能包含这些事件的视频。
  4. video captioning(视频字幕),对指定的视频输出一段描述文字。
关于视频理解关于视频理解 lee__7 发布了52 篇原创文章 · 获赞 4 · 访问量 8756 私信 关注
上一篇:DeepSORT的细节


下一篇:基于图像的虚拟试衣:Image Based Virtual Try-On Network from Unpaired Data