征信报告OCR：结构化提取信息加速信贷业务审批

2022-03-14 04:31:24

征信报告是个人和企业征信历史的客观记录，也是信贷机构评估用户信用风险的核心依据，对信贷风控具有重要参考价值。在处理借贷业务时，信贷机构会通过用户既往信用记录分析、判断用户还款意愿，以便预见性地规避风险、减小坏账率。

然而，由于征信信息涉及个人隐私，央行征信中心不面向第三方机构开放征信数据，同时，在复杂的竞合关系下，各信贷平台也常常对打通信息孤岛共享数据持观望态度，导致信贷机构获取用户信用信息的门槛相对较高。

目前，办理贷款业务时，信贷机构只能在获得用户授权的情况下从央行征信中心调用征信报告，以便获得用户信用信息。拿到报告后，需要通过人工方式把核心信息一一录入风控模型，用于分析、评估潜在风险，进而作出相应决策。

下图是从央行征信中心下载的《个人信用报告（个人版）样本》。如图所示，报告涵盖了*部身份信息核查结果、个人基本信息、银行信贷交易信息、非银行信用信息等，信息量庞大。

（个人信用报告（个人版）样本）

问题在于，人工录入作业量大、相对耗时，难免影响贷款审批效率，造成意向客户的流失；抑或为实现快速放款，业务部门处理征信数据时删繁就简，因疏漏或主观判断造成风险评估不够精准。

基于这一现状，深源恒际推出征信报告信息结构化提取解决方案，帮助借贷平台提升服务效率、降低人力成本。

基于OCR识别技术，结合专项训练和自适应提取方法，深源恒际开发了征信报告专用识别模型，可自动识别、提取征信报告上的文字信息，并输出结构化文本，实现信息采录自动化。

在实际应用场景下，会出现诸多干扰识别效果的因素，如文本不清晰、旋转畸变等。为优化识别准确率、达到商用落地效果，深源恒际通过技术手段建立抗干扰机制，利用直线/表格线识别规则纠正文本畸变，通过分离印刷文本和打印文本提升字段提取准确率，结合启发式规则实现翻页文本合并，大幅提升模型的识别准确率。

测试数据显示，基于OCR完成整份征信报告的识别录入，用时约为20s-30s；而人工录入整份报告耗时约1-2小时，作业效率大幅提升。另外，在识别精度上，算法模型的字段准确率已达99%。

OCR技术在信贷业务中的应用，实现了征信报告识别录入自动化，优化业务流程的同时，也提升了业务处理效率，让信贷服务能够更加高效、便捷地触达用户。目前，深源恒际已在阿里云云市场平台上线了征信报告识别提取API，用户可点击访问link体验产品功能。

码农公寓