使用tess4J操作图像识别文字,只需要下载相关Jar包,再把项目封装好就可以运行了,可移植性比较好。tess4J在识别数字合英文中的性能比较好,但是在中文识别中,无论速度还是识别率还是较弱,如果有需要,使用的时候,需要注意。
使用步骤:
1.下载jar包
下载tess4j源码包:https://sourceforge.net/projects/tess4j/
tessdata下默认为英语库,中文库下载地址:https://github.com/tesseract-ocr/tessdata/blob/master/chi_sim.traineddata
其他库的下载地址:https://github.com/tesseract-ocr/tessdata
2.maven依赖添加
- <dependency>
-
</dependency>
3.测试调用
public static void main(String[] args) {
File picFile = new File("E:/pic/image.jpg");
ITesseract instance = new Tesseract();
instance.setLanguage("chi_sim");
String ocrResult=null;
try {
ocrResult = instance.doOCR(picFile);
} catch (TesseractException e) {
// TODO Auto-generated catch block
e.printStackTrace();
}
System.out.println(ocrResult);
}