mac下安装tesseract-OCR(Mac下还是有lib依赖的问题,有时间再解决)

1、先下载需要的软件包

OCR工具:  Tesseract-OCR3.0.1  source code    tesseract-ocr-3.01.eng.tar.gz 破验证码用英文就够了。

图像处理工具:  Leptonica  1.68

png识别工具:  libpng

jpeg识别工具 :libjpeg

tif识别工具:   libtiff

2、安装步骤

1-  安装libpng,libjpeg,libtiff

以下是命令:

./configure

make

sudo make install

2-安装Leptionica

以下是命令:

./configure   --with-libjpg --with-libtiff --with-libpng

make

sudo make install

make的时候如果发现错误,提示

pngio.c:119: error: ‘Z_DEFAULT_COMPRESSION’ undeclared here (not in a function)

去wiki上搜了一把发现是 pngio.c这个文件有个BUG,在MAC下无法找到zlib1g包修改Leptionica/src/pngio.c在  #include "png.h"后插入一下代码即可

以下为命令代码:

#ifdef HAVE_LIBZ

#include "zlib.h"

#endif

3- 安装Tesseract-OCR

以下为命令

./autogen.sh

./configure

make

sudo make install

如果发现错误,可以改成以下命令:

./autogen.sh
export LIBLEPT_HEADERSDIR=/usr/local/include
./configure --with-extra-libraries=/usr/local/lib
sudo make install

4- 安装语言包

解压tesseract-ocr-3.01.eng.tar.gz到/usr/local/share/tesseract就可以了。

3、try ocr

  1. MacBook-Pro:work my$ tesseract pin.jpg  out -l eng
  2. Tesseract Open Source OCR Engine v3.01 with Leptonica
  3. MacBook-Pro:work my$ more out.txt
  4. Bvcs

至此,已经tesseract已经可以正常工作了。

剩下我们写段代码去通过命令行调用就可以实现图片的识别了。

tesseract自己提供的训练好的语言包不能保证百分百识别出验证码图片,这个可以通过抓取一定量的验证码来进行

训练,以更加精准的识别,官方有文档和工具如何进行

http://code.google.com/p/tesseract-ocr/wiki/TrainingTesseract3

转自(略有修改):http://holybless.iteye.com/blog/1338717

上一篇:Mac 下安装 jdk


下一篇:Python开发项目:大型模拟战争游戏(外星人入侵)