一、最近在学习python爬虫的时候需要用到tesseract,但书上的给的教程对我并不适用,坑了好久天,才终于成功。
二、方法:
1、由于我看的是静谧博主的那本书。他给的教程在python3安装有问题。
2、步骤:
(1)首先安装tesseract按照默认安装,可以不用下载所有的语言。
(2)pip install pytesseract pillow.(静谧博主教程可能用的python2,对于Python3包名改了)
下面是最大的坑。。。
(1)显示tesseract.exe不存在,我在网上看说要将tesseract.exe的文件路径添加到环境变量中。最好将用户和系统环境变量都加上,然后打开site-pakges下的pytesseract文件下的tesseract.py文件下,将
tesseract_cmd = 'C:/Program Files (x86)/Tesseract-OCR/tesseract.exe'
改为上面格式。如果是没有按照默认安装,需要改为你自己的安装路径。
(2)pytesseract.pytesseract.TesseractError: (1,’Error opening data file /usr/local/share/tessdata/eng.traineddata’) 出现这个错误。
报错会提示将TESSDATA_PREFIX= C:/Program Files (x86)/Tesseract-OCR添加到环境变量中,最好是将变量在用户和系统都添加,不知道为什么添加一个还是会报错。
3、测试:
import pytesseract
from PIL import Image
image = Image.open('F://python/image.png')
code = pytesseract.image_to_string(image)
print (code)
完工!!!(希望能帮到你)