安装OCR 开源库 Tesseract
- Tesseract 相比百度等在线库,最大优势是可以在本地运行
- 在这个页面下载最新的binary ,习惯用最新的安装包,
tesseract-ocr-w64-setup-v5.0.0-alpha.20201127.exe
- 双击安装 并勾选需要的语言支持包,主要是一些训练好的类似eng.traineddata的文件
- 如果再安装过程中报错,不用管它,点OK即可,因为网络连接问题会导致语言包安装不到位
- 可以在如下页面下载语言包
https://github.com/tesseract-ocr/tessdata/ -->
https://codeload.github.com/tesseract-ocr/tessdata/zip/refs/heads/master
- 将语言包中的.traineddata放入tesseract安装目录的tessdata目录下
测试Tesseract
- 显示版本
"C:\Program Files\Tesseract-OCR\tesseract.exe" -v
tesseract v5.0.0-alpha.20201127
leptonica-1.78.0
libgif 5.1.4 : libjpeg 8d (libjpeg-turbo 1.5.3) : libpng 1.6.34 : libtiff 4.0.9 : zlib 1.2.11 : libwebp 0.6.1 : libopenjp2 2.3.0
Found AVX2
Found AVX
Found FMA
Found SSE
Found libarchive 3.3.2 zlib/1.2.11 liblzma/5.2.3 bz2lib/1.0.6 liblz4/1.7.5
Found libcurl/7.59.0 OpenSSL/1.0.2o (WinSSL) zlib/1.2.11 WinIDN libssh2/1.7.0 nghttp2/1.31.0
- 显示已经支持的语言
"C:\Program Files\Tesseract-OCR\tesseract.exe" --list-langs
List of available languages (2):
eng
osd
命令行参数参考
https://github.com/tesseract-ocr/tesseract/blob/master/doc/tesseract.1.asc
测试一张简单图
- 原图: 图上右键存图 保存为03.png
- 结果
"C:\Program Files\Tesseract-OCR\tesseract.exe" 03.png 03 --dpi 300
Tesseract Open Source OCR Engine v5.0.0-alpha.20201127 with Leptonica