java调用tess4j识别图片文字

使用tess4J操作图像识别文字,只需要下载相关Jar包,再把项目封装好就可以运行了,可移植性比较好。tess4J在识别数字合英文中的性能比较好,但是在中文识别中,无论速度还是识别率还是较弱,如果有需要,使用的时候,需要注意。

使用步骤:

1.下载jar包

下载tess4j源码包:https://sourceforge.net/projects/tess4j/

tessdata下默认为英语库,中文库下载地址:https://github.com/tesseract-ocr/tessdata/blob/master/chi_sim.traineddata

其他库的下载地址:https://github.com/tesseract-ocr/tessdata
java调用tess4j识别图片文字

 

 

 2.maven依赖添加

  •         <dependency>  

  •             <groupId>net.sourceforge.tess4j</groupId>  
  •             <artifactId>tess4j</artifactId>  
  •             <version>3.2.1</version>  

 

  •         </dependency>     3.测试调用  

    public static void main(String[] args) {
    File picFile = new File("E:/pic/image.jpg");

    ITesseract instance = new Tesseract();
    instance.setLanguage("chi_sim");
    String ocrResult=null;
    try {
    ocrResult = instance.doOCR(picFile);
    } catch (TesseractException e) {
    // TODO Auto-generated catch block
    e.printStackTrace();
    }
    System.out.println(ocrResult);
    }

 

上一篇:Tesseract For Java为可执行jar设置Tessdata_Prefix


下一篇:《你必须知道的.NET》读书笔记一:小OO有大智慧