做了10年的各种管理系统,真是常规的有点倦怠了。去年在与客户交流的时候,被客户的信息中心嘲笑:“不就一个管理系统凭什么卖这么贵...”。真tm刺耳,确实需要来点不一样的了 。于是想做一个文档信息智能提取的功能,从pdf、word、图片中提取关键信息,减少管理系统的入录工作量,优化客户体验。
初步技术预研
1、数据读取
使用python读取pdf、word数据,这部分应该是成熟的技术。图片信息读取需要用到OCR,看看这个技术有没有免费接口或者开源的技术。
2、信息提取
首先采用基于关键字、规则的方式提取数据中的信息,a)找到行业相关的词库;b)对客户的合同等文档进行内容框架解析
其次查阅一下论文看看目前数据挖掘等基于统计的算法方面有没有什么好的解决方案
最后NLP看当前最新的一些论文及大厂的一些先进实践,有没有相关资料可供参考
3、精度提升
数据及标注可能是未来遇到的最大的问题,我们公司从上到下各级领导没有重视过数据。
4、插件化
计划是最好能做成一个小插件以jar包的形式集成进当前的系统。
后续将记录如何从最开始的python安装、论文资料查找、功能实现等各个步骤及自己的思考。可能理想很丰满,现实很骨感。希望2022这一年我能每天就坚持下去。