OCR 文字识别

安装OCR 开源库 Tesseract

  • Tesseract 相比百度等在线库,最大优势是可以在本地运行
  • 在这个页面下载最新的binary ,习惯用最新的安装包,
    tesseract-ocr-w64-setup-v5.0.0-alpha.20201127.exe
    OCR  文字识别
  • 双击安装 并勾选需要的语言支持包,主要是一些训练好的类似eng.traineddata的文件
  • 如果再安装过程中报错,不用管它,点OK即可,因为网络连接问题会导致语言包安装不到位
  • 可以在如下页面下载语言包

https://github.com/tesseract-ocr/tessdata/ -->
https://codeload.github.com/tesseract-ocr/tessdata/zip/refs/heads/master

  • 将语言包中的.traineddata放入tesseract安装目录的tessdata目录下
    OCR  文字识别

测试Tesseract

  • 显示版本

"C:\Program Files\Tesseract-OCR\tesseract.exe" -v
tesseract v5.0.0-alpha.20201127
leptonica-1.78.0
libgif 5.1.4 : libjpeg 8d (libjpeg-turbo 1.5.3) : libpng 1.6.34 : libtiff 4.0.9 : zlib 1.2.11 : libwebp 0.6.1 : libopenjp2 2.3.0
Found AVX2
Found AVX
Found FMA
Found SSE
Found libarchive 3.3.2 zlib/1.2.11 liblzma/5.2.3 bz2lib/1.0.6 liblz4/1.7.5
Found libcurl/7.59.0 OpenSSL/1.0.2o (WinSSL) zlib/1.2.11 WinIDN libssh2/1.7.0 nghttp2/1.31.0

  • 显示已经支持的语言

"C:\Program Files\Tesseract-OCR\tesseract.exe" --list-langs
List of available languages (2):
eng
osd

命令行参数参考

https://github.com/tesseract-ocr/tesseract/blob/master/doc/tesseract.1.asc

测试一张简单图

  • 原图: 图上右键存图 保存为03.png
    OCR  文字识别
  • 结果
    OCR  文字识别

"C:\Program Files\Tesseract-OCR\tesseract.exe" 03.png 03 --dpi 300
Tesseract Open Source OCR Engine v5.0.0-alpha.20201127 with Leptonica

上一篇:基于 VirtualBox + Ubuntu 16 搭建 Kubernetes 集群


下一篇:【基因组注释】GMAP安装使用问题