OCR 文字识别

2024-01-16 10:44:34

安装OCR 开源库 Tesseract

Tesseract 相比百度等在线库，最大优势是可以在本地运行
在这个页面下载最新的binary ，习惯用最新的安装包，
tesseract-ocr-w64-setup-v5.0.0-alpha.20201127.exe
双击安装并勾选需要的语言支持包，主要是一些训练好的类似eng.traineddata的文件
如果再安装过程中报错，不用管它，点OK即可，因为网络连接问题会导致语言包安装不到位
可以在如下页面下载语言包

https://github.com/tesseract-ocr/tessdata/ -->
https://codeload.github.com/tesseract-ocr/tessdata/zip/refs/heads/master

将语言包中的.traineddata放入tesseract安装目录的tessdata目录下

测试Tesseract

显示版本

"C:\Program Files\Tesseract-OCR\tesseract.exe" -v
tesseract v5.0.0-alpha.20201127
leptonica-1.78.0
libgif 5.1.4 : libjpeg 8d (libjpeg-turbo 1.5.3) : libpng 1.6.34 : libtiff 4.0.9 : zlib 1.2.11 : libwebp 0.6.1 : libopenjp2 2.3.0
Found AVX2
Found AVX
Found FMA
Found SSE
Found libarchive 3.3.2 zlib/1.2.11 liblzma/5.2.3 bz2lib/1.0.6 liblz4/1.7.5
Found libcurl/7.59.0 OpenSSL/1.0.2o (WinSSL) zlib/1.2.11 WinIDN libssh2/1.7.0 nghttp2/1.31.0

显示已经支持的语言

"C:\Program Files\Tesseract-OCR\tesseract.exe" --list-langs
List of available languages (2):
eng
osd

命令行参数参考

https://github.com/tesseract-ocr/tesseract/blob/master/doc/tesseract.1.asc

测试一张简单图

原图：图上右键存图保存为03.png
结果

"C:\Program Files\Tesseract-OCR\tesseract.exe" 03.png 03 --dpi 300
Tesseract Open Source OCR Engine v5.0.0-alpha.20201127 with Leptonica

码农公寓

安装OCR 开源库 Tesseract

测试Tesseract

命令行参数参考

测试一张简单图

相关文章