YOLO-6D论文的一些相关知识

1.什么是端到端的训练或学习?
传统的图像识别问题往往通过分治法将其分解为预处理,特征提取和选择,分类器设计等若干步骤。分治法的动机是将图像识别的母问题分解为简单、可控且清晰的若干小的子问题。不过分步解决子问题时,尽管可以在子问题上得到最优解,但子问题上的最优解并不意味着就能得到全局问题的最后解。
深度学习提供了一种端到端的学习范式,整个学习的流程并不进行人为的子问题划分,而是完全交给深度学习模型直接学习从原始数据到期望输出的映射。
对深度模型而言,其输入数据是未经任何人为加工的原始样本形式,后续则是堆叠在输入层上的众多操作层,这些操作层整体可以看作一个复杂的函数FCNN, 最终的损失函数由数据损失data loss和模型参数的正则化损失(regularization loss)共同组成,模型深度的训练则是在最终损失驱动下对模型进行参数更新并将误差反向传播至网络各层。

2.算法思路:
YOLO只预测出2D包围盒顶点,而该论文提出的网络,即作者受到2D物体检测算法YOLO的启发设计的CNN网络,能预测物体3D包围盒顶点的2D投影点,从而可以预测更多的2D投影点;
之后根据这些2D投影点对应的3D点,通过PnP算法估计物体的6DoF位姿。

上一篇:基于Yolo-V3对卫星图像进行储油罐容积占用率的研究


下一篇:比Tiny YOLOv3小8倍,性能提升11个点,4MB的网络也能做目标检测