有个需求需要从图片中提取中文,就想到了谷歌的Tesseract
参考链接:https://www.howtoforge.com/tutorial/tesseract-ocr-installation-and-usage-on-ubuntu-16-04/
1.apt install tesseract-ocr
2.安装简体中文包
apt install -y tesseract-ocr-chi-sim
(安装所有语言包:apt install -y tesseract-ocr-chi-all)
查看已安装的语言包:
3.使用
识别下面这张图片:
识别出的内容为(没有全部截图):
4.使用pytesseract
https://pypi.org/project/pytesseract/
有具体使用案例,基本使用非常简单。