论文笔记——Regression Forest Based RGB-D Visual Relocalization Using Coarse-to-Fine Strategy
文章摘要
视觉重新定位在计算机视觉和机器人技术中起着重要作用。但是,特征上的歧义使其仍然具有挑战性。在本文中,提出了一种新颖的基于回归森林的视觉重新定位方法,该方法以从粗到精的方式执行。使用拓扑回归树来预测摄像机所处位置的“粗略”子场景。接下来采用像素坐标对应回归树来完成相机像素坐标预测。通过仅考虑预测子场景中的预测,执行了“精细”摄像机重新定位,同时进一步使用图像分割来完善像素坐标预测,这有助于生成更好的姿势假设。
背景
~~~~ ~~~ 随着科技的发展,通过机器人进行导航的应用越来越广泛。为了实现导航的目的,在许多机器人应用中都需要实时定位和制图系统(SLAM系统)。在许多SLAM系统中,视觉重定位起着关键性的作用。它将通过将当前观察结果与全局地图进行比较来估计摄像机(机器人)的全局位姿,由于保证机器人在导航或制图中位姿追踪是非常必要的,所以目前对视觉重定位的方法进行了广泛的研究。当前使用较为广泛的方法是将手工特征的的3D世界坐标与其特征描述子直接存储在全局地图中,然后通过特征检索和PnP方法来确定相机位姿。然而手工视觉特征坐标的直接应用遭受视觉歧义的严重困扰,并且根据其描述子获取坐标并不容易。因此如何缓解特征歧义问题是实现视觉重定位中需要解决的一个重要问题。
具体方法
A.回归模型训练
~~~~
~~~
用RGB-D摄像机扫描环境后,世界坐标预测问题通常可以描述为回归模型。考虑到视觉特征的歧义,将回归模型构造为 :
其中其中I表示RGB图像,D是深度图像,p是2D像素坐标,
m
p
m_p
mp是p的对应3D世界坐标,θ是模型参数集。在训练阶段,{p,
m
p
m_p
mp}是成对的训练数据,其中根据训练RGB-D序列的地面真实姿态获得。在回归过程中,本质上就是构建回归模型以学习和之间的对应关系,用来预测p的3D世界坐标。
通过提取从训练序列中采样帧的SURF特征和相应的3D世界坐标来训练点回归树,提取PHOG特征和相应的3D世界坐标以及时间戳来训练拓补回归树。
B.候选子场景预估
~~~~
~~~
在训练阶段,训练序列中的所有帧都被馈送到拓扑回归树中。首先,为每个帧
I
k
I_k
Ik计算PHOG描述符
G
k
G_k
Gk。然后,训练样本集可以表示为:
其中
t
k
t_k
tk是
I
k
I_k
Ik的时间戳,N是训练帧的数量,
N
k
N_k
Nk是从中
I
k
I_k
Ik提取的SURF特征的数量。
拓扑回归树旨在学习一组PHOG描述符,可以很好地分割整个环境,一旦训练过程完成,包含训练帧时间戳子集的第h个叶节点可以称为S
h
l
e
a
f
h \atop {leaf}
leafh,那么每个节点都可以看作是一个子场景。
C.像素坐标预测
~~~~ ~~~ 在获得预测的子场景之后,森林继续使用点回归树预测提取的SURF特征的坐标。设F为被提取的SURF特征集,将F馈送到点回归森林中,并且可以获得每个特征的一组预测。表示为:
代替使用所有预测M进行相机重新定位,应用由粗到精的策略。为了在一个候选子场景
A
h
A_h
Ah中进行重新定位,选择时间戳包含在
A
h
A_h
Ah中的预测。将
A
h
A_h
Ah中的预测集公式表示为:
之后就可以根据
M
h
M_h
Mh进行重新定位。这样在每个候选场景中,摄像机重新定位可以看作是共同估计最优摄像机位姿
T
∗
T^∗
T∗和最佳内部预测子集
C
∗
C^∗
C∗的问题。
D.内部子集估计
~~~~
~~~
构造一个图模型来表示对应预测点之间的关系,以
(
s
i
,
θ
h
(
υ
(
p
i
)
)
)
(s_i,\theta_h(\upsilon(p_i)))
(si,θh(υ(pi)))为节点,无向图模型可以表示为
G
=
(
V
,
E
)
G=(V,E)
G=(V,E),其中V为有限的一组节点,E为一组边。每个节点对应一个空间坐标预测,用0表示外部点,用1表示内部点。
对于相应两个点
s
i
1
s_{i_1}
si1和
s
i
2
s_{i_2}
si2,定义
C
i
1
,
i
2
C_{i_1,i_2}
Ci1,i2来测量其空间相干性,表示为:
其中
d
(
.
)
d(.)
d(.)是欧几里得距离。如果两个相邻节点均为内点,则相邻两个节点应满足空间相干性。利用图像分割算法可以快速找到内点,将内点添加到
C
∗
C^∗
C∗中。
E.位姿假设的生成与优化
~~~~
~~~
在内部点集
C
∗
C^∗
C∗中执行RANSAC算法以生成位姿假设。在每次采样迭代中,对三个点进行采样并获得其坐标预测,以达到最佳的几何一致性。此后生成位姿假设。将所有候选子场景中获得的令人满意的能量值的位姿假设进行合并,然后选择前K个最佳位姿假设并计算观察到的点云和目标点之间的距离,匹配距离最短的被选为最佳位姿估计
T
∗
T^∗
T∗。我们基于
T
∗
T^∗
T∗检查所有像素坐标对应预测的正确性,如果满足:
则将的预测视为错误预测,之后再利用回溯过程纠正基于 T ∗ T^∗ T∗的错误坐标预测。
F.相机重定位
~~~~
~~~
在回溯之后,应用NICP算法进一步对齐预测的对应点。最佳位姿变换定义为:
然后,使用阻尼高斯-牛顿算法细化位姿假设
T
∗
T^∗
T∗。最后通过摄像机最优位姿
T
∗
T^∗
T∗来实现摄像机的重定位。
实验结果
~~~~
~~~
本文在7Scenes 和12Scenes数据集进行了相机重新定位,以证明所提出方法的性能。
结论
~~~~
~~~
在基于回归森林的方法中,特征模糊性是相机重新定位的主要挑战。 我们的方法在两个公共数据集上实现了性能改进。 此外,为了提高特征对应推理性能,我们将预测的特征对应集建模为图形,并集成了图割优化方法以提高RANSAC性能。
本文利用传统的描述符进行环境学习和视觉重新定位,包括PHOG和SURF。 由于已经证明基于深度学习的功能对视点变化更鲁棒,因此将来本文的的方法框架中可以采用基于深度学习的方法。 此外,本文将继续改进所提出的方法,以概括其在不同情况下的重新定位能力,并部署在机器人上以实现完整的SLAM。