OCR经典pipeline的发展

Yolo+CRNN--->CTPN+CRNN--->SegLink+CRNN--->East+CRNN--->ABCnet(Bezier曲线文本检测+CRNN变体)

检测头问题:
1.由于文字的特殊性,导致通用的目标检测容易在文本中间识别文本行的子集
2. CTPN:适合水平反向的文本检测
3. SegLink适合水平和倾斜。
4.East认为1和2这种先检测字符单元,再将检测到的单元合并成区域的做法无形降低检测效率。因此直接进行区域级的检测,适合于仿射透射等任意角度方向的文本区域检测。
5.ABCnet解决是弯曲文本检测性能差的问题,利用曲线拟合去找到文本区域,提取对应区域ROI。

文本检测的发展趋势:
0.识别头一致认可CRNN识别器
1.从检测水平文字到检测弯曲任意形状文本
2.从检测单元到聚合单元的检测方法到单阶段文本检测的变化
3.从需要字符单元级的标注训练到单词级的标注训练

工业上这种水平场景的文本检测,依然以CRNN为主,刷榜靠识别中引入attention

小任务:实现用CTPN+CRNN训练模型,用pytorch的C++前端部署。

上一篇:各大AI开放平台


下一篇:易语言调用大漠Ocr文字识别游戏角色坐标