“英特尔创新大师杯”深度学习挑战赛赛道1：通用场景OCR文本识别任务（上）task01

2023-10-11 08:44:28

“英特尔创新大师杯”深度学习挑战赛赛道1：通用场景OCR文本识别任务（上）

DataWhale七月份组队学习——基于AI Studio平台
https://aistudio.baidu.com/aistudio

文章目录

“英特尔创新大师杯”深度学习挑战赛赛道1：通用场景OCR文本识别任务（上）
背景
- 一、AI Studio
- 二、模型训练
下载模型
解压模型

背景

OCR （Optical Character Recognition，光学字符识别）是最早的计算机视觉任务之一。人类使用电子设备（图像采集装置）采集现实场景中打印的字符，然后通过检测字符的形状，用字符识别的方法将其翻译成计算机文字。随着技术的发展，OCR已经逐渐应用到社会的各种需求中。如今，我们可以在各个行业领域中看到OCR的广泛用途，包括：证件、车牌识别；物流分拣；智慧医疗；无纸化办公；文档检索等等。因此，在互联网时代中，OCR的应用算法，具有很大的商业价值。

在一些简单环境下，例如电子文档的识别，OCR的识别的准确率已经可以达到很高的水准。但是，OCR技术依然面临着很多难点，一些以往的算法在处理复杂图文场景里的文字时，依旧显得力不从心。因此，阿里云计算平台事业部团队联合英特尔举办此次OCR任务竞赛，旨在解决复杂场景中通用OCR识别的难点，以满足人们在不同行业应用中的需求。

一、AI Studio

AI Studio是百度提供的一个算力提供平台，提供GPU计算资源，可以免去cuda和paddle的环境配置过程。
目前在平台可直接领取100小时的算力卡。
下载文件

git clone https://gitee.com/coggle/tianchi-intel-PaddleOCR
cd tianchi-intel-PaddleOCR

二、模型训练

1.下载比赛图片

python3 down_image.py

2.下载预测模型

mkdir inference && cd inference/

下载模型

wget https://paddleocr.bj.bcebos.com/dygraph_v2.0/ch/ch_ppocr_server_v2.0_det_infer.tar
wget https://paddleocr.bj.bcebos.com/dygraph_v2.0/ch/ch_ppocr_mobile_v2.0_cls_infer.tar
wget https://paddleocr.bj.bcebos.com/dygraph_v2.0/ch/ch_ppocr_server_v2.0_rec_infer.tar

解压模型

tar -xf ch_ppocr_server_v2.0_rec_infer.tar 
tar -xf ch_ppocr_server_v2.0_det_infer.tar
tar -xf ch_ppocr_mobile_v2.0_cls_infer.tar

由于OCR包括多个步骤，此时我们只对其中检测的部署进行fientune，所以其他部署的权重也需要下载。

下载完成后可以验证是否可以成功预测：

python tools/infer/predict_system.py --image_dir="./1.jpg" --det_model_dir="./inference/ch_ppocr_server_v2.0_det_infer/"  --rec_model_dir="./inference/ch_ppocr_server_v2.0_rec_infer/" --cls_model_dir="./inference/ch_ppocr_mobile_v2.0_cls_infer/" --use_angle_cls=True --use_space_char=True

目前到此步出现cuba版本不匹配，后续我会把解决方法封上。

码农公寓

“英特尔创新大师杯”深度学习挑战赛 赛道1：通用场景OCR文本识别任务（上）