1. 研究问题
大多数现有的姿态检测网络从由串联连接的高到低分辨率网络产生的低分辨率表示中恢复高分辨率表示,可能会导致预测热图的精度损失。
2. 研究方法
所提出的高分辨率网络(HRNet)在整个过程中保持高分辨率表示,首先,不同于传统的串联连接由高到低分辨率网络,HRNet并行连接由低到高分辨率子网,保持高分辨率而不是由低到高恢复分辨率,因此预测的热图可能在空间上更准确。然后进行重复的多尺度融合,使得每个从高到低的分辨率表示一遍又一遍地接收来自其他并行表示的信息,从而产生丰富的高分辨率表示。因此,预测的关键点热图可能更准确。
2.1 网络结构
人体姿态估计,又名关键点检测,旨在从大小为 W × H × 3 的图像 I 中检测 K 个关键点或部位(例如肘部、手腕等)的位置。最先进的方法将此问题转化为估计 K 个大小为 W’ ×H’ 的热图,{H1,H2, . . . ,HK},其中每个热图 Hk 表示第 k 个关键点的位置置信度。
本文的HRNet包含由两个降低分辨率的跨步卷积组成的茎,一个主体输出具有与它的输入特征图相同分辨率的特征图,以及一个回归器,用于估计选择关键点位置并将其转换为全分辨率的热图。如下图所示。
2.2 Sequential multi-resolution subnetworks
现有的姿态估计网络是通过串联连接高到低分辨率的子网络来构建的,其中每个子网络形成一个阶段,由一系列卷积组成,并且在相邻子网络之间有一个下采样层,以将分辨率减半。
设
N
s
r
N_{sr}
Nsr 为第 s 阶段的子网,r 为分辨率指标(其分辨率为第一个子网分辨率的
1
/
2
r
−
1
1/2^{r−1}
1/2r−1)。具有 S(例如 4)个阶段的从高到低的网络可以表示为:
2.3 Parallel multi-resolution subnetworks
本文从一个高分辨率子网作为第一阶段开始,逐渐将高到低分辨率的子网络一个一个地添加起来,形成新的阶段,并将多分辨率子网并行连接起来。因此,后一阶段并行子网的分辨率由前一阶段的分辨率和一个额外的较低的分辨率组成。一个示例网络结构,包含 4 个并行子网,如下所示,
2.4 Repeated multi-scale fusion
本文引入了跨并行子网的交换单元,以便每个子网重复接收来自其他并行子网的信息。如下图所示。
设输入为S个特征图{
X
1
,
.
.
.
,
X
s
X_1,...,X_s
X1,...,Xs},输出为S个特征图{
Y
1
,
.
.
.
,
Y
s
Y_1,...,Y_s
Y1,...,Ys},则输入和输出的关系是
以上是在同一个阶段进行多尺度融合的事例。对于跨阶段融合,交换单元有一个额外的输出
Y
s
+
1
Y_{s+1}
Ys+1,如下所示。
其中,
a
(
X
i
,
k
)
a(X_i,k)
a(Xi,k)包含从输出
X
i
X_i
Xi上采样或下采样到分辨率
k
k
k,如果
i
=
k
i=k
i=k,则
a
(
X
i
,
k
)
a(X_i,k)
a(Xi,k)是一个恒等映射,即,
注:对于跨阶段融合,这里的公式与网络结构有点区别,公式是直接将上一阶段的最小分辨率的输出直接进行降采样,但网络结构中是将上一阶段的所有分辨率的特征图进行融合。这里应该都可以,区别不是很大。
3. 实验结果
4. 结论
(1)HRNet可产生准确且空间精确的关键点热图,原因是:①全程保持高分辨率,无需恢复高分辨率; ②反复融合多分辨率表示,呈现可靠的高分辨率表示。
(2)在COCO 关键点检测数据集和 MPII 人体姿态数据集的姿态估计结果证明了网络的有效性。
(3)在 PoseTrack 数据集上的姿势跟踪也表现优异。