tesseract ocr是一个开源的文字识别引擎,Android系统中也可以使用。可以识别50多种语言,通过自己训练识别库的方式,可以大大提高识别的准确率。
为了节省大家的学习时间,现将自己近期的学习总结成一个简单的实例程序,作为Android系统中使用tesseract的Demo演示并附有详细的说明文档。并将自己用C#开发的识别库训练工具提供给大家,其中包括全部的源代码。这样,大家就可以方便的训练特定字体和字形的识别库了。
经过训练后的纸牌识别,识别率达到了100%
注意“王”我在训练时,故意识别为“!”。对于纸牌识别这种小范围识别生成的识别库体积小,因此识别速度很快。
训练工具的使用
训练工具使用非常简单,只需两步即可得到我们的识别库MyLang.traineddata