论文精读——Monocular Real-time Hand Shape and Motion Capture using Multi-modal Data
第二周的第二篇文章,来自去年五月的CVPR 主要是针对手势的实时识别,在写到这的时候知识粗略的看了一下简介, 给我的第一感觉是这篇文章有较强的工程价值,因为是实时的且输入的内容是图片,但是不知道网络规模,具体的还是要等精读过后才知道。
废话不多说,进入正文部分了:
#############################################################################
文章来源
题目:Monocular Real-time Hand Shape and Motion Capture using Multi-modal Data
基于多模态数据的单目实时手形和运动捕捉
引用:Zhou Y , Habermann M , Xu W , et al. Monocular Real-Time Hand Shape and Motion Capture Using Multi-Modal Data[J]. 2020.
链接&下载地址:
百度学术:https://xueshu.baidu.com/usercenter/paper/show?paperid=1q0x0240v15q04b0tj6u0pu0mr358352&site=xueshu_se
下载地址:https://arxiv.org/abs/2003.09572 (网址后面直接+.pdf 就是下载地址哦)
论文我也已经下载好上传到了CSDN中,可以点下方直接下载:
一些相关连接
开源代码:
性能比较(paper with code):
文章简介
内容简介:
Monocular Real-time Hand Shape and Motion Capture using Multi-modal Data
基于多模态数据的单目实时手形和运动捕捉
We present a novel method for monocular hand shape and pose estimation at unprecedented runtime performance of 100fps and at state-of-the-art accuracy. This is enabled by a new learning based architecture designed such that it can make use of all the sources of available hand training data: image data with either 2D or 3D annotations, as well as stand-alone 3D animations without corresponding image data. It features a 3D hand joint detection module and an inverse kinematics module which regresses not only 3D joint positions but also maps them to joint rotations in a single feed-forward pass. This output makes the method more directly usable for applications in computer vision and graphics compared to only regressing 3D joint positions. We demonstrate that our architectural design leads to a significant quantitative and qualitative improvement over the state of the art on several challenging benchmarks. Our model is publicly available for future research.
我们提出了一种新的单目手的形状和姿势估计方法,在前所未有的运行性能100fps和最先进的精度。这是由一种新的基于学习的体系结构实现的,这种体系结构的设计使得它能够利用所有可用的手部训练数据源:带有2D或3D注释的图像数据,以及没有相应图像数据的独立3D动画。它具有一个三维手关节检测模块和一个反向运动学模块,该模块不仅可以回归三维关节位置,还可以将它们映射到单个前馈过程中的关节旋转。与仅回归三维关节位置相比,这种输出使得该方法更直接地应用于计算机视觉和图形学。我们证明,我们的建筑设计在几个具有挑战性的基准上,在数量和质量上都比最先进的水平有了显著的提高。我们的模型可以公开用于将来的研究。
(上面的仅是摘要与摘要翻译)
主要贡献&创新点
阅读印象&感想
-
是一个有外部参考集的网络模型,且可以接受的外部参考集很多。在做热区估计时用2D标签图片,在做3D回归时用3D标签图片做,在做手势捕捉的时候用运动捕捉的训练集做,最后得出来了一个可以综合输入进行训练的网络,并且以此作为输出
-
接上一点: 我认为本文的另一个过人之处是他对网络的组成分工特别明确,这也是该网络在保证轻量级的同时能够达到如此精度的一个主要原因之一,而且这种想法非常有创新性和新颖性(可能其他领域已有这种方法)
作者提出的整个IKNet +DetNet看下来,我觉得能够对网络大致分为四块:
第一块:resnet 50 基底 用于处理2D图像,做特征提取部分的工作
第二块:2D Detecter 通过 对于给定标签的2D手势为输入,这一块主要的任务是做回归预测,通过heatmap预测出骨骼的关键点
第三块:3Ddetecter 以预测的关键点heamap为输入,通过手在3D图像中的姿态训练集的经验训练网络。这一块的主要任务是做基于2D heatmap 的3D姿态估计与重建 得到的输出为骨骼关键点在3D场景下的组合与姿态图
第四块 : 也就是IKNet 的部分 以3D的骨骼关键点作为输入,通过MOCAP data作为训练,用于估计手势姿态重建以及动态追踪。输出可进行动态捕捉3D手势姿态估计
(第五块):重建和对比,通过最后生成的3D模型在2D 图像上的投影作为对比,从而评估网络性能与精度。 -
一个疑问:接上一点,在不同部分作者给了不同的数据集进行训练,但是这是如何办到的?换句话说,作者是如何在一个网络中让不同的数据集对网络的不同部分分别进行训练的? 还是分开训练完了之后拼在一起的??
》》》需要求助请教大哥 -
该网络本身的结构并不冗杂,虽然层次比较多,但是模型规模与参数量按照示意图来看应该都是非常小的。因此该模型是一个轻量化的神经网络模型,也正因如此可以有如此快的反应速度。
-
事实上,作者已经没有将神经网络作为一个“黑盒”使用了,而是通过有目的的按照网络的结构进行划分与投喂,从而上网络的不同部分得到不同的训练,从而实现特定的功能。
-
站在这个角度不难理解为什么该网络位姿估计的精度高了,因为对于一个多流程的任务,单一的数据集和信息输入肯定是不够的。
-
作者的实验机器是基于一个NVIDIA GTX1080Ti实现的,其中DetNet需要 8.9毫秒,IKNet需要 0.9毫秒进行一次前馈。因此实现了超过 100fps的最先进的运行时性能。 但是这个指标并没有比较,因此读到这一点的时候还是感觉有一点坑的,因为不知道
-
事实上,这篇文章的另一个研究价值所在是他还是有很多应用前景的,比如我目前就想到了能够利用单目技术代替传感器来实现人手姿势形态的复原工作,并且可以达到实时性,具有较强的展示效果和应用前景。
#########################################################################
内容总结&关键点提炼
关键词:
Multi-modal Data 多模态数据
本文采用了多模态数据
Hand Shape and Motion Capture
IKNet & DetNet
关节位置估计&关节旋转恢复joint position estimation joint rotation recovery
弱监督 weakly supervised
mocap data
一个较为常见且著名的运动捕捉数据集
Inverse Kinematics 逆运动学
表示是关节旋转。因此,我们在网络中从关节位置推
断关节旋转,也称为反向运动学 (IK)问题。为此,我们
Loss (神经网络中常见)
Ablation Study
消融实验,在计算机视觉领域中,往往提及消融实验来验证本文的创新点。
比如你弄了个目标检测的pipeline用了A, B, C,然后效果还不错,但你并不知道A, B, C各自到底起了多大的作用,可能B效率很低同时精度很好,也可能A和B彼此相互促进。
Ablation study/experiment就是用来告诉你或者读者整个流程里面的关键部分到底起了多大作用,就像Ross将RPN换成SS进行对比实验,以及与不共享主干网络进行对比,就是为了给读者更直观的数据来说明算法的有效性。
在原理上有些像控制变量法