tesseract识别图片中的中文最新最稳教程

2023-11-05 19:28:22

两个软件在附件
第一步，下载安装包。百度直达
第二步，把软件安装位置放在path变量中去D:\program files (x86)\Tesseract-OCR这时可以通过tesseract -v验证安装是否成功
第三步，安装语言包也就是把下载的文件放在下面的文件夹，下面的chi_sim.traineddata就是中文语言包
第三步.新增一个系统变量

第四步进行识别
tesseract im.jpg result -l chi_sim 命令
注意： im.jpg 是当前命令目录下的文件， result 是将会生成的txt名称，后-l chi_sim是掉用中午语言包，如果不写，默认是采用英文语言包

生成的文件如下，可以看此识别出了图片中大部分的汉字，对我们处理数据还是相当有用的。