Java使用Tessdata做OCR图片文字识别【搬代码】
package com.jht.demo.until;
import net.sourceforge.tess4j.ITesseract;
import net.sourceforge.tess4j.Tesseract;
import net.sourceforge.tess4j.TesseractException;
import java.io.File;
public class OCRChineseExample {
public static void main(String[] args) {
// 初始化Tesseract实例
ITesseract instance = new Tesseract();
// 设置训练数据的路径(tessdata/configs/path)
// instance.setDatapath("C:\\Program Files\\Tesseract-OCR\\tessdata");
instance.setDatapath("E:\\tessdata\\tessdata");
// 设置OCR的语言
instance.setLanguage("chi_sim"); // 中文简体
try {
// 读取图片文件
// String imgPath = "C:\\path\\to\\your\\image.png";
String imgPath = "D:\\桌面\\1.png";
String result = instance.doOCR(new File(imgPath));
System.out.println(result);
} catch (TesseractException e) {
e.printStackTrace();
}
}
}