两个软件在附件
第一步,下载安装包。百度直达
第二步,把软件安装位置放在path变量中去D:\program files (x86)\Tesseract-OCR这时可以通过tesseract -v验证安装是否成功
第三步,安装语言包也就是把下载的文件放在下面的文件夹 ,下面的chi_sim.traineddata就是中文语言包
第三步.新增一个系统变量
第四步进行识别
tesseract im.jpg result -l chi_sim 命令
注意: im.jpg 是当前命令目录下的文件, result 是将会生成的txt名称, 后-l chi_sim是掉用中午语言包,如果不写,默认是采用英文语言包
生成的文件如下,可以看此识别出了图片中大部分的汉字,对我们处理数据还是相当有用的。