CTPN代码研读系列:
1. 数据集的使用以及模型
2. utils/prepare/label
3. utils/dataset/data_provider
(本内容为自己理解,如有错误欢迎指正)
基础信息介绍:
本系列代码为ctpn的tensorflow版本研读:
博主的论文原文研读(中文版):https://blog.csdn.net/qq_35307005/article/details/86773268
github代码地址:
https://github.com/eragonruan/text-detection-ctpn
论文原文地址:
https://arxiv.org/pdf/1609.03605.pdf
demo:
http://textdet.com/
作者参加的比赛为ICDAR2013 的MLT(自然场景多语言文本检测竞赛)
使用的数据集也是这个。
1.输入的数据集标签
gt_img_859.txt
数据集格式:
从左到右,分别为
x1,y1,x2,y2,x3,y3,x4,y4(四个检测框的x,y坐标),语种,识别出的字符
1192,1862,2424,1895,2405,2428,1185,2366,english,8512
846,1280,1092,1379,1088,1478,831,1390,english,###
299,1123,585,1222,536,1370,240,1291,english,###
2.输出的数据标签
img_859.txt
238,376,239,479
240,376,255,479
256,377,271,480
272,377,287,481
288,378,303,482
304,378,319,482
320,378,335,483
336,379,351,484
352,379,367,485
368,380,383,486
384,380,399,487
400,381,415,487
416,381,431,488
432,382,447,489
448,382,463,490
464,382,479,491
480,383,495,491
167,257,175,286
176,261,191,289
192,267,207,295
208,274,223,300
48,223,63,265
64,228,79,269
80,234,95,273
96,239,111,278
112,245,127,282
**更多的代码信息可以见我的github项目:**ocr_learing:
https://github.com/simplify23/OCR-learnning
可以参考学习的博客:CTPN部分代码研读
https://www.cnblogs.com/fourmi/p/8980298.html