CTPN代码研读（一）数据集的使用以及模型

2024-04-06 22:00:56

CTPN代码研读系列：

1. 数据集的使用以及模型
 2. utils/prepare/label
3. utils/dataset/data_provider

(本内容为自己理解，如有错误欢迎指正)

基础信息介绍：

本系列代码为ctpn的tensorflow版本研读：

博主的论文原文研读（中文版）：https://blog.csdn.net/qq_35307005/article/details/86773268
github代码地址：
https://github.com/eragonruan/text-detection-ctpn
论文原文地址：
https://arxiv.org/pdf/1609.03605.pdf
demo：
http://textdet.com/

作者参加的比赛为ICDAR2013 的MLT（自然场景多语言文本检测竞赛）
使用的数据集也是这个。

1.输入的数据集标签

gt_img_859.txt

数据集格式：
从左到右，分别为

 x1,y1,x2,y2,x3,y3,x4,y4（四个检测框的x,y坐标）,语种，识别出的字符

1192,1862,2424,1895,2405,2428,1185,2366,english,8512
846,1280,1092,1379,1088,1478,831,1390,english,###
299,1123,585,1222,536,1370,240,1291,english,###

2.输出的数据标签

img_859.txt

238,376,239,479
240,376,255,479
256,377,271,480
272,377,287,481
288,378,303,482
304,378,319,482
320,378,335,483
336,379,351,484
352,379,367,485
368,380,383,486
384,380,399,487
400,381,415,487
416,381,431,488
432,382,447,489
448,382,463,490
464,382,479,491
480,383,495,491
167,257,175,286
176,261,191,289
192,267,207,295
208,274,223,300
48,223,63,265
64,228,79,269
80,234,95,273
96,239,111,278
112,245,127,282

**更多的代码信息可以见我的github项目：**ocr_learing:
https://github.com/simplify23/OCR-learnning

可以参考学习的博客：CTPN部分代码研读
https://www.cnblogs.com/fourmi/p/8980298.html

码农公寓