AI预标注，人工智能基础数据服务行业的新引擎丨曼孚科技

2023-12-31 23:33:28

现阶段，实现人工智能的方式主要以机器学习，尤其是深度学习方式为主。

机器学习的核心价值是通过特定算法分析已知数据，识别隐藏在数据中的可能性，并基于此独立或辅助使用者进行预测与决策。

而机器学习实现价值的前提是存在大量可供分析的结构化数据集，以此训练、修正、完善算法模型，再利用模型挖掘企业数据的真正价值。因此，为机器学习算法训练、优化提供高质量的基础数据服务成为当下人工智能行业的热点之一。

目前，人工智能基础数据服务行业主要以人力劳动方式为主，基础数据标注员通过双手为AI算法模型的训练提供了种类繁多，且高质量的结构化数据集。

但随着AI应用在场景化方向上快速扩展，这种传统的依靠人力的方式在执行效率以及产出质量上均暴露出众多问题，提高行业人机协作能力，重视AI对于基础数据服务行业的反哺作用，是下一阶段提升行业数据生产力的关键。

通过在不同数据处理阶段，如在采集阶段引入AI筛查，在标注阶段引入AI预标注，在审核质检阶段引入AI质检，可有效提高业务整体执行效率，并淡化人力在业务执行过程中的绝对影响力，间接提升数据质量。

我们以曼孚科技SEED数据服务平台为例，实例展示其在标注过程中提供的各类AI预标注功能。

一.框选物体检测

框选标注是数据标注领域最常见的标注类型之一，可细分为2D框选以及3D框选两种方式。

常用于自动驾驶、新零售、AI教育等具体场景，主要针对图像中的汽车、人体等执行框选操作。

传统执行方式下，框选操作全部由人工完成，对标注员的熟练度以及图像理解能力要求较高：

手动标注效果

SEED数据服务平台针对不同细分场景，设置了不同等阶的AI辅助自动框选功能，平台算法自动完成物体检测，实现一键自动贴边，标注效率成倍翻升：

SEED平台自动框选物体检测

二.多边形图像分割

多边形标注依据标注对象的数量多少，可分为单个物体多边形标注以及全景语义分割标注，其中全景语义分割广泛应用于自动驾驶，无人机等领域。

传统执行方式下，标注员需要手动描绘出标注对象的边界，耗时耗力，且贴边精准度很难达到像素级：

手动标注效果

SEED数据服务平台提供完备的高精图像分割辅助功能，可以实现像素级自动贴边，标注效率提升10倍以上：

SEED平台自动图像分割

三.OCR自动识别转写

OCR转写是将图像中的文字内容转写为带标签的文本信息，以供图像文字识别算法的训练与调用。

传统执行方式下，标注员需要手动拼写出图像中的文字：

手动转写效果

SEED数据服务平台提供的高级版OCR自动识别转写功能，可以实现自动识别转写，充分解放标注员的双手：

SEED平台OCR自动识别转写

四.3D点云物体检测

3D激光点云数据可以为自动驾驶提供精确的三维立体图像，是自动驾驶环境感知以及决策规划模块常用的数据类型之一。

不同于2D图像，激光点云数据为3维图像，需要分别标注出X轴、Y轴以及Z轴的边界，对标注员的3维空间想象能力要求较高。

传统执行模式下，标注员需要依次标注出X轴、Y轴以及Z轴的边界：

手动标注效果

SEED数据服务平台提供的3D物体检测以及自动贴合的功能，可以实现在3维空间的自动贴合，弱化标注员个人能力对于标注结果的直接影响，提升整体标注效率：

SEED平台3D点云物体检测

除了以上举例的AI预标注功能以外，曼孚科技SEED数据服务平台还提供诸如ASR自动语音转写、结构化文本检测、3D点云自动分割等AI辅助标注功能，全面覆盖图像、语音、文本、点云等不同数据类型，充分发挥人机协作在提升效率以及提升数据质量方面的独到优势。

不过，我们也需要注意，目前AI预标注扮演的更多是辅助类角色，尚不能完全代替人类执行全部数据标注操作。但算法预处理技术作为基础数据服务行业内的有益尝试，未来的应用空间将会十分广阔，甚至将成为AI基础数据服务行业精细化管理中鲜明的竞争壁垒。

码农公寓