PaddleOCR，一款文本识别效果不输于商用的Python库！

2021-09-07 00:09:04

Hello 大家好呀，我是小张~

本期将给大家介绍一个 Github 项目，用于OCR文本识别的；在之前的教程中，关于用 Python 实现OCR 识别，写过两篇文章：

一篇是关于 python 与 Tesseract ，详情可参考：介绍一个Python 包，几行代码可实现 OCR 文本识别； tesseract 是基于传统机器学习方法实现的，对于英文字符识别还是挺棒的，但中文字符的识别效果就差强人意了~~

还有一篇是介绍了一个用于文本识别的 Github 项目Easy-OCR，相关用法详情可参考：关于文本OCR检测、分享一个基于深度学习技术的Python库

Easy-OCR 是基于深度学习技术开发的，识别效果要优于 Tesserart，支持识别70+个国家语言，除了文本识别之外还能对文本块区域完成检测功能，并用线框将相关区域标注在原图上

但测试后发现，该库对于某些路标识别效果并不是很精确~

这篇文章呢，将介绍一个新的 Github 项目，同样用于 OCR 识别、该项目名叫 PaddleOCR，是 Paddle 的一个分支；PaddleOCR 基于深度学习技术实现的，所以使用时需要训练好的权重文件，但这个不需要我们担心，因为官方提供的有~

本小节是对 PaddleOCR 项目的简单介绍，如果只对使用步骤感兴趣的同学可以跳过本小节看第三节部分~~~

经测试 PaddleOCR 识别效果非常优秀，下面两张图片是从官网介绍中截取的几张图片

图一

图二

为了测试该项目的识别性能、随后我在网上找了一张关于优惠卷的图片，图片中文字情况比较复杂，垂直、斜体等；还有中英文相结合，甚至还有小数点

最终测试效果如下，无论左边图片文本复杂度有多高，图中文字基本都能识别到，非常Nice

码农公寓