18M 超轻量图像识别系统，商品、车辆、人脸识别一网打尽！

2023-12-29 19:34:22

图像识别作为深度学习算法的主流实践应用方向，早已在生活的各个领域发挥作用，如安全检查和身份核验时的人脸识别、无人货架和智能零售柜中的商品识别，这些任务背后的关键技术都在于此。

图1 PP-ShiTu应用于商品识别效果示意（开发者应用展示）

然而实现理想的识别效果并不是一件简单的事：

针对海量数据问题而言，如何实现一个通用的方法在不同的数据集中都有很好的表征能力？

不同物体间的差别可能极其微小，即使是同种物体，也会受到外界干扰呈现不同形态，究竟如何进行有效区分？

识别需求更新频繁，使用单一的分类或者检测模型只能不断增加训练集重训模型，怎样才能降低开发成本，快速跟上迭代步伐？

PP-ShiTu核心技术解读

针对以上技术难点，PaddleClas推出的通用图像识别系统PP-ShiTu均可以完美解决，它不仅有高水平的特征学习能力，对新出现的类别也可以在不用重新训练算法的情况下，直接通过配置检索库的方式实现识别。

⭐ 项目链接 ⭐

网页链接

PaddleClas所有源码及教程均已开源，欢迎大家使用，并Star鼓励~

这样的特殊能力，得益于PP-ShiTu引入目标检测、度量学习、图像检索等技术，并将每个模块性能最大化，才构建成了统一、通用的图像识别系统：

图2 PP-ShiTu架构示意图

主体检测：不同于一般的目标检测，主体检测是将目标物体和背景区分开来，能够有效减少干扰特征。PP-ShiTu中所采用的是目标检测模型PP-PicoDet，不仅预测速度超快，精度上也达到了SOTA，为后续的准确识别打下坚实基础；

图3 PP-PicoDet在 COCO2017-val上的 mAP 对比

特征提取：作为图像识别系统的重点工作，PP-ShiTu是采用CPU级轻量化骨干网络PP-LCNet，并结合度量学习arcmargin算法，对高相似物体的区分效果远超单一模型，不仅准确率超越大模型ResNet50，预测速度还能快3倍！再加上经过18w类数据集打磨的预训练权重，不用再费心选择，一个模型就可以实现多场景覆盖。