一转眼,2018年就快要成为历史了。回顾2018年中国IT界最热的词汇是什么?“人工智能”、“物联网”、“企业数字化转型”应该能够占据三甲。值得一提的是,无论是人工智能还是物联网也都以数据为核心,因此无论如何,数据已经成为IT的核心,成为中国企业转型升级的核心。
然而,人工智能行业的从业者有一句名言:“有多少人工,就有多少智能”——背后的意思大致是要获得智能,首先需要人工来治理数据。
换句话说,数据的治理,已经成为IT发展和企业发展的瓶颈之一。如今到底数据治理的市场是一个怎样的情况,是本文探讨的重点。
数据治理的本质是协调和服务
根据Gartner的定义,“数据治理”(Data Governance)是“一种技术支持的学科,其中业务和IT协同工作,以确保企业共享的主数据资产的一致性、准确性、管理性、语义一致性和问责制”。
举个例子,企业中经常能看到这样的现象:几个部门的主管在汇报工作时,同一指标的数据不尽相同,甚至可能截然相反,到底哪个数据是正确的数据?无从确认。造成这种现象的原因很多,比如统计口径问题、数据质量问题等等。
什么是治理?治理本身是源自于拉丁文的“掌舵”一词,强调协调而不是控制,是一个联合行动的过程,因此治理存在着权力依赖的多元主体之间的自治网络;另一层含义:治理的本意是服务,通过服务来实现管理的目的,这和云计算的模式十分吻合。
事实上,在云计算、大数据时代,业界公认的全球数据年复合增长率近似于摩尔定律的增幅,即每18个月数据量会翻一番;即便是传统的主数据,Gartner的预测是未来的年复合增长率至少在17%以上。
不仅如此,各类数据*享和开放的数据量会越来越多,因此共享管理规则和数据方案的实施,以及安全与隐私保护,都将是企业数字化过程中的核心问题。
数据治理正进入智能化阶段
说到数据治理的技术问题,我们有必要先来看一下Gartner的魔力象限。
在2017年10月发布的主数据管理解决方案的魔力象限中,处于领导者象限的是Informatica和Orchestra Networks(TIBCO),SAP、IBM等紧随其后;
而在2018年8发布的元数据管理解决方案的魔力象限中,Informatica和Collibra、IBM、Oracle等位于领导者象限,SAP、Infogix等紧随其后。
应该说,Informatica、IBM、SAP、Oracle等老牌数据治理和数据管理软件厂商,一直是这一领域的核心玩家。而近些年,随着云计算的大规模普及,AWS、微软、谷歌和阿里云等云计算IaaS提供商,也加入了数据治理的主流厂商行列。
在传统定义里,主数据(Master Data)是描述企业核心实体的共享数据,例如客户、供应商、账户和组织部门的相关数据,需要保持一致和统一的标识符和扩展属性。与记录业务活动、波动较大的交易数据相比,主数据(也称基准数据)变化缓慢。主数据管理一般称之为MDM。
而元数据(Metadata)主要是指中继数据,即描述数据的数据,主要是描述数据属性的信息,具备支持资源查找、文件记录、历史数据、存储位置等功能,比如文本标注也是一种元数据。
今天的大数据中80%都是非结构化数据,实际上主要是文本、图像、视频、音频这样的数据。对于企业来说,大量的非结构化数据比如视频、音频或者文字文件存留下来,如何变现价值,非常重要的一点就是要进行文本标注,而文本标注的一大难点,其实是实体和关系的标注,最终为行业知识图谱打好基础。这个标注过程如今仍然是费时费力的工作,但市场上也有IBM等大厂和明略数据等众多创新公司推出的文本数据标注抽取工具。
数据治理的智能化程度,
决定了企业数字化转型的加速度
事实上,即便像Informatica这样一家传统的ETL专家,而今也不再单纯谈ETL,而是更多关注企业的业务方向,帮助企业做数字化的转型。因为,无论是EIC、数据治理,还是面向客户信息的MDM、面向产品信息的PIM,这些都不再仅仅是面向技术人员使用的,而是要推荐给客户整体解决方案——比如通过CLAIRE这样的数据集成的人工智能引擎,自动化地来为客户提供服务。
国内在数据治理和知识图谱领域也出现了越来越多的准独角兽企业,譬如明略数据近日签约陕西农信,落地农信系统首个信贷知识图谱;助推华南区首个*知识图谱成功落地——在*场景中,通过对大量笔录做实体、事件、关系的智能化标注,可迅速构建笔录中的人、事、地、物、组织的关联关系,从而从文本数据角度快速构建*知识图谱,提高研判效率。
应该说,在今天以数据驱动数字化转型的Data 3.0时代,数据治理的智能化程度,决定了企业数字化转型的加速度——只有具备了智能化数据治理解决方案和专业服务能力的厂商,才能帮助企业加速实现以数据为驱动的数字化转型。
与此同时,治理的本意是服务,数据治理更应该通过服务来实现管理的目的。值得一提的是,明略数据日前推出了基于深度学习模型的文本数据标注抽取的SaaS工具——Raptor,明略数据成为目前极少数具备数据治理云服务能力的厂商之一,在数据治理平台化、智能化的道路上迈出了关键一步。
在笔者看来,相较于传统的用于特定业务应用的Data 1.0时代和支持业务流程的Data 2.0时代,今天的Data 3.0时代已经进入到了数据驱动企业数字化转型的新时代——数据成为了发动机,成为了主角。这时候,不仅数据价值比以往任何时候都更具有颠覆力,成为了经济发展的新动能;而且,助力企业挖掘数据价值的数据治理厂商,同样处于风口浪尖,或将迎来市场重新洗牌的2019年。