Human Pose Estimation:Learning Specific Features for Related Parts 为相关的parts学习具体特征
文章指出,人体姿态估计(HPE)本质上是一个同构的多任务学习问题,人体每个部位的定位是一个不同的任务。之前所有基于cnn的HPE方法都想当然地认为所有身体部位的特征都应该完全共享。如:最近的HPE方法普遍地学习了所有部件的共享表示,从该表示中线性回归所有部位的位置。
作者进行统计分析,表明并不是所有的部位都是相互关联的related to each other。在相关任务之间共享一个表示可以产生更紧凑的模型和更好的泛化能力。而对于那些不相关或弱关联的任务,共享特征则会降低其性能(也称为negative transfer)。
作者首先提出一种数据驱动的方法,根据相关部位共享的信息的多少来对它们进行分组。然后引入了基于部位的分支网络来学习每个组的特定表示。
图1。Top:之前的方法利用cnn充分学习所有身体部位的共享特征,并将它们的位置以空间坐标或热图的形式进行线性回归。
中间:右脚踝的位置与各部分位置的相互信息。
下图:我们的统计分析(3.1节)表明,并不是所有的部分都是相互关联的。由于对不相关的任务共享一个表示会降低它们的性能,因此本文试图识别出相关的部位,并研究为它们学习特定的特征是否有助于提高姿态估计。
1.Introduction
具体来说,cnn的前几层学习低层次的特征,如Gabor filter和颜色斑点,这是许多数据集和任务[54]通用general的,因此可以安全地分享给所有的parts。更高层次的语义,出现在更深的层次(如身体部位)。一些部位(如膝盖)的提示,为定位其他相关部位(如脚踝)提供了重要信息和约束条件。
怎么识别相关的parts并对其进行分组?
作者提出两种策略:
- 基于人体结构,手工制作的[41,38,59]。直觉上来说,自然连接着的部位是相关的。
- data driven,它将每个部位的位置视为一个随机变量。我们从公共数据集[1]估计它们的概率分布,并根据它们的相互信息对相关部位进行分组。
(作者证明了第二种策略更优)
然后介绍了一种part-based分支网络PBN。它包括一个来学习对所有身体部位通用的共享表示的主干trunk网络,以及一些后续branch来学习特定于每组相关部位的高级特特征。如图一。