写在前面
5月18日,选型直播曾做过一期题为“移动+社交时代,如何治理大数据洪水?”的节目,在那期节目中,Informatica北方区总经理李晨先生系统地介绍了Informatica公司的背景、大数据治理的完整框架,以及最新的“智能数据湖”解决方案。
节目播出后,大家反响非常热烈,但又感觉意犹未尽。毕竟,关于数据的话题实在是太多,而一期节目的容量又非常有限。
为了弥补大家的遗憾,我们这次又特意请来了Informatica大中国区的首席架构师但彬先生,和大家接着聊数据和数据管理的话题。
如果说上期节目是对数据治理的一次全景展示的话,那么,这期节目但总将为大家切一些近景,带我们看看金融、教育、医疗、电力、航空等典型行业的典型用户,他们是怎么用数据管理工具激活企业数据价值的。
古人说:他山之石,可以攻玉。借鉴同行们的成功案例,是提高我们自身的数据治理水平的最简单、最有效的方式。
下面,就让我们一起来听,选型宝首席架构师李维良与Informatica大中国区首席架构师但彬的精彩对话吧。
李维良(主持人)
在数据管理这个大概念下,有哪些细分领域?在每个细分领域中,Informatica又布局了哪些产品?
但彬
我们常说IT(Information Technology信息技术),其中一半是I,也就是信息,尤其在今天,数据和信息变得越来越重要。从数据库(Database)到数据仓库(Data Warehouse)和数据挖掘,再到今天的大数据(Big Data)和数据治理,数据管理的概念一直在变化和延伸,而Informatica则一直是这一领域的辛勤耕耘者。
大家最初认识Informatica,大多是从Power Center和Power Exchange这样的数据集成软件开始的,认为它只是一个ETL工具。而今天,经过近25年的不懈努力,Informatica已经建立起了从智能数据平台到数据管理解决方案,从数据集成到数据质量管理、大数据管理、云数据管理等的完整的数据管理框架和产品线。
我们的数据管理框架分为三层。最下面是支撑层,称为 “ 智能数据平台 ”。为什么这样说呢?因为其中应用了很多AI(人工智能)技术,比如数据模式识别,它会智能地区分出,哪些是客户数据,哪些是交易数据。平台层通过企业级统一元数据管理、人工智能、数据监控、管理与计算等功能,为产品和解决方案提供统一的支撑。
在平台层之上,是产品和解决方案。这其中,除了经典的数据集成、数据归档、数据质量管理、数据安全、主数据管理等,我们近年来又不断推出了很多新的产品和解决方案,比如:企业信息目录(EIC),以及面向数据交换的DIH(Data Integration Hub)、面向流式数据处理的IIS(Informatica Intelligent Streaming)等。再比如,数据湖和数据治理在几年前还只是概念,现在也都被产品化了(IDL和Axon)。
李维良
您刚才提到了主数据、元数据、大数据、ETL等,请您先为大家普及一下这些基本概念。
但彬
在这几个概念中,大数据(Big Data)可能是大家了解最多的,它的特征可以用几个V来概括:Volume(大量)、Velocity(高速)、Variety(多样)、Value(低价值密度)和Veracity(真实性)。对大数据来说,量大并不是难题,真正具有挑战性的,是数据来源的多样性和数据结构的复杂性。当然,大数据的挑战,对我们来说,也是创新的机遇。
主数据和元数据是两个容易混淆的概念。主数据(MD Master Data)通常是相对于交易数据而言的,它描述了交易数据中的各种主体,比如:客户、商品等,而“某客户在某个时间以某个价格买了某件商品”则是交易数据。主数据有时也被称为基准数据,只有主数据得到正确的维护,才能保证交易数据的正确性和完整性。
元数据(Metadata)是描述数据的数据(Data about Data),是数据及信息资源的描述性信息。比如,一张数据表中的字段名称、字段长度和字段类型等定义数据结构的信息就是元数据。另外,业务术语也通常被纳入元数据的范畴,比如:余额、期末余额、应收、应付账款等。
另外一个理解主数据和元数据的方法,是借助OO(Object Oriented 面向对象)的思想。元数据是一个类(Class),而主数据是一个对象(Object),它是类的一个实例。元数据是一种定义,比如“员工”,它没有值;而主数据则是具体的员工,比如:张三、李四……
ETL是Extract-Transform-Load的缩写,这三个词的意思,分别是抽取、转换和加载。但是,现在我们说起ETL,已经不再局限于它原来的含义,而是包含了实时数据交互、增量数据发现等更多功能的ETL。今天,ETL基本可以看成是数据集成的代名词。
李维良
做为Informatica大中国区首席架构师,请您介绍一下,Informatica产品的技术架构是怎么样的?这样的架构有什么优势?
但彬
Informatica一直是非常重视底层架构的。大家可以看一下这张“Power Center 技术架构图”。这个架构不是现在才有的,而是十几年前就确立了的。当时,人们大多还在讨论如何从传统的面向过程编程转向面向对象编程,而Informatica已经开始尝试SOA(Service Oriented Architecture 面向服务的架构)了。
SOA架构的特点是服务化、松耦合。大家可以看到,Informatica的软件中有很多服务(Service),比如:Power Center集成服务、数据质量服务、元数据服务等等,这些服务可以灵活部署和扩展,并集*享Repository(一种元数据驱动的存储库)服务。
除了灵活、高效、健壮,这种架构的另一个优势是平台依赖性低,更适合跨平台使用。比如,我想从Unix切换到Windows,就很容易平滑过渡。在今天的大数据时代,我们也可以很容易地过渡到Hadoop分布式基础架构。因此,技术架构先进,也是我们能在今天占得先机的重要原因之一。
李维良
Informatica是一家有将近25年历史的国际化公司,那么,它是哪一年进入中国的?目前在中国的发展情况怎么样?
但彬
Informatica正式在中国设立公司是2005年,但在这之前,已经有很多中国企业通过代理等渠道获得并使用Informatica的产品了。因此,Informatica在中国市场的渗透和发展,主要是靠用户的需求和口碑带动的。
今天,经过十多年的发展,Informatica的产品和服务已经覆盖了国内的金融、电信、能源、商业零售、物流运输、公共服务等各个行业和部门。我们的产品,也从Power Center这样的单一工具,扩展到了包括数据质量管理、主数据管理、云数据管理、大数据治理等在内的系列产品和解决方案。
李维良
数据集成是企业数据管理的基础,您能否为大家介绍一下数据集成的应用场景和成功案例?
但彬
数据集成的应用确实非常广泛,比如数据仓库和BI(商业智能),它们都会催生对数据集成的需求。数据集成的另一个应用方向,就是数据交换,在这里,我想先举一个清华大学的例子。
清华大学是中国的知名学府,经过多年建设,校园信息化应用已基本覆盖了学校运行的各个方面。但是,由于在校园信息系统的建立过程中,缺乏顶层和统一的信息标准,致使信息流通不畅,数据不能共享,形成了一个个 “ 信息孤岛 ” 和 “ 应用孤岛 ”。
要解决这个问题,第一步就是要打通数据流通的渠道,就在这时,他们发现了Informatica的价值。首先,它可以实现各个系统之间的对接与沟通,能够完成各种数据格式之间的转换,而且,系统越是复杂多样,越能体现出Informatica的优势。
其次,清华大学很看重系统架构的灵活性和稳定性,他们希望各系统之间的数据访问能通过Web Service来完成。正好,Informatica的SOA架构可以把数据和数据的访问过程封装成服务,并为清华的校园系统提供底层的数据集成和数据交换支持,从而实现了真正的数字化校园。
还有一些企业或组织,是用Informatica的数据集成工具,完成了数据仓库的升级转型。这里,我正好有一个南京市儿童医院的案例。
南京市儿童医院原先已经建成了包括HIS、LIS、PACS、移动护理、病案管理、财务管理、物流管理和手术麻醉等几十个应用系统,这些异构系统间的数据非常分散,无法实现集中统一和标准化的管理。而且,紧耦合式的数据交互接口为应用开发和后期维护带来了很大困难,数据交换、信息共享的问题日益突出。
为解决这些问题,医院开始尝试使用一些开源工具来实现数据的集成和交换,但随着项目的深入,系统的性能和稳定性等问题慢慢凸显了出来。
经过反思和比较,医院最终选用了 Informatica的数据集成工具。利用Power Center和Power Exchange等软件,他们提升数据仓库系统,并基于数据仓库,建成了医院数据调用公共资源中心库,从而实现了实时的数据交互和信息共享,干净、标准的数据,为跨应用系统数据关联分析打下扎实的基础。
李维良
主数据是企业最核心的、最有价值的数据,针对主数据管理,请您为大家介绍一些应用案例。
但彬
主数据管理也是这两年很火的一个话题。如果说大数据能让人心潮澎湃的话,那么主数据则是一个能让你冷静下来思考的东西。一般来说,主数据不会像大数据那样,直接为企业带来让人眼前一亮的创新价值,但它所反映的问题,通常是和业务直接相关的,是企业数据真正的本质上的痛点。
关于主数据管理,我给大家介绍一个国泰航空的案例。国泰航空一直非常注重客户数据的管理,并已经在数据集成、数据标准化、数据模型建设等方面取得了很多成果,但是他们发现,企业在主数据管理方面,还有待进一步加强。
国泰航空的客户来源非常复杂,超过50%的客户是非会员或线上预订者,还有一些是来自非官方的旅游奖励计划。客户记录是企业内部能够跨业务、跨系统重复使用的高价值数据,但由于缺乏对应的制度、流程和系统支撑,导致各业务系统间主数据的不一致性日益明显,无法给分析人员提供统一口径的主数据信息和及时的差异比较。
为解决这些问题,国泰航空引入了Informatica MDM主数据管理平台,从而使企业的数据管理能力得到了全面的提升。Informatica MDM为国泰航空建立了客户统一视图,确保了客户记录的完整性和唯一性。通过高效查询和精准分析功能,业务人员能够及时洞察客户信息变化,实现个性化营销和服务。主数据管理平台还缩短了数据处理时间,节省了数据管理成本。
主数据管理的另一次成功应用,是帮助南方电网建成了数据资源管理平台。Informatica MDM产品能够用灵活的数据模型定义任何类型的主数据,允许南方电网快速、方便地进行二次开发,大大提升了工作效率。Informatica MDM 支持对数据模型、业务规则、安全和数据管理功能的完整配置,实现了对主数据整个生命周期的全面跟踪管理,从而能够帮助南方电网轻松适应不断变化的业务需求。
李维良
数据安全是企业CIO最关注的问题之一,针对数据安全,Informatica有哪些技术、产品和应用案例?
但彬
最近有两件事,大家可能还记忆犹新。一个是5月12日,WannaCry勒索软件病毒大面积爆发,让我们感到,安全威胁就在身边。第二件事,是 6月1日起《*网络安全法》开始正式实施。可以说,网络安全和数据安全,从来没有像今天这么重要。
信息安全的范畴很大,而Informatica则主要专注于敏感信息、隐私信息的保护。在这个领域,我们的主要产品包括:TDM(Test Data Management 测试数据管理)、DDM(Dynamic Data Masking动态数据遮蔽/脱敏)、Secure@Source(数据安全智能)等。
关于数据脱敏,我可以给大家介绍一下大连银行的应用案例。
做为一家业务发展十分迅速的金融机构,大连银行的业务系统积累了大量包含客户账户等敏感信息的数据,这些数据在银行的很多工作场景中都会用到,例如:业务分析、开发测试、审计监管,甚至一些外包业务等。如果这些数据发生泄露或损坏,不仅会给银行带来经济上的损失,更会大大影响用户对于银行的信任度。
为此,大连银行通过采用Informatica的数据脱敏解决方案,帮助他们管理对敏感数据的访问,建立了企业内部完善统一的脱敏机制与管理流程。通过创建可在内部和外部安全共享的真实但无法识别归属的数据,成功防止了信用卡卡号、电话号码等个人或组织机构信息的意外泄露。
Informatica成熟的数据脱敏解决方案,满足了大连银行对易用性、可用性、高可扩展性以及高效率等方面的要求。我们的DDM等产品,能够为任意格式的敏感数据创建数据脱敏算法,包括替换、随机化、顺序、时滞和取消,并且数据处理加工的速度更快,效率更高,原始数据可直接在内存中计算,不侵入应用程序或数据库,大大减轻了数据外泄的风险。
李维良
在云时代,企业数据的分布、数量等出现了很多新的变化,Informatica是如何应对这种变化的?
但彬
在云时代,客户数据问题确实变得更加复杂,但越是这样,越需要Informatica这样完整而专业的数据管理产品和解决方案。
积极拥抱云时代,向云端数据管理转型,也是这两年Informatica最重要的努力方向之一。目前,我们的产品已经可以全面支持云端数据管理,并为混合架构提供了成熟的解决方案,包括云集成、云安全、云交互、云主数据管理等等。
以CRM为例,我们的产品可以既可以连接本地CRM系统中的数据,也可以轻松连接Salesforce这样的云平台中的数据,从而屏蔽了底层的复杂性,使数据管理问题变得简单。
凭借我们在数据管理领域多年的积淀,Informatica很快就走在了云数据管理的前列。大家可以关注一下Gartner发布的iPaaS(Integration Platform as a Service 集成平台即服务)魔力象限,Informatica是处在Leader位置的。
李维良
对企业来说,数据管理工具最核心的价值是什么?
但彬
我们可以从两个角度去思考这个问题,一是做减法,它为我们解决了什么问题?二是做加法,它为我们带来了什么?
一方面,企业的数据越来越复杂,导致数据的使用成本越来越高,在这个日益高企的成本中,有很大一部分是隐性成本,比如人员工资等。而数据管理工具可以提高数据处理的效率,使复杂、繁琐的问题变得简单、快捷,从而将人解放了出来,也因此大幅降低了使用数据的成本。
另一方面,通过清理、匹配、优化、集成等一系列处理,数据管理工具使数据变得更一致、更有效,从而能够为业务提供更好的支撑,为创新提供更好的支持。
降低数据获取和使用的成本,提高数据价值的利用水平,是数据管理工具最核心的价值。
李维良
Informatica获得了众多中国用户的信任,您认为主要靠的是什么?
但彬
我认为,Informatica能获得国内大量用户的青睐,靠的是四大法宝:产品、技术、服务和伙伴。
Informatica与时俱进的产品和解决方案,覆盖了数据管理的各个细分领域,它们具有良好的稳定性、可用性,灵活性,可从多个角度,帮助用户激活数据价值。
在技术层面,我们有灵活、开放、极具前瞻性的基础架构,有性能卓越的核心算法。在今天的IT新时代,我们又将机器学习、模式识别等人工智能技术融入到产品之中,以不断创新的精神,努力满足客户日益复杂的数据管理需求。
在服务方面,我们建立了北京、上海和广州三大服务中心,有一个强大的售后服务团队,可通过电话、网站、微信等多种渠道,为客户提供7×24小时的服务支持。Informatica连续11年获得客户忠诚度第一的评价,这是非常了不起的。
第四个,也是最重要的因素,就是我们的合作伙伴。目前,我们在全国已经拥有了上百家合作伙伴,共同为不同行业和需求的客户提供有针对性的解决方案。同时、客户是需求的提供者,是最了解数据业务的人群,也是我们最好的合作伙伴。通过构建完整的生态体系,我们可以汇聚最专业的技术和人才,并形成最好的产品和解决方案。
李维良
对于那些有志于发掘企业数据价值的CIO们,您还有什么好的建议?
但彬
依据我个人的经验,我在这里给大家提供三个原则性的建议:
第一:大处着眼、小处着手。我们首先要有全局观,对企业数据管理的现时状况和未来目标要做到心中有数。以此为基础,我们需要制定一个切实可行的计划,将大的目标分解成阶段性的任务,一步一步去解决、去完成。
第二:认清难度、长期规划。在任何一个数据管理项目启动之前,我们都需要对项目的难度、周期、预算等做出正确的预判,并根据预判,制定一个长期的规划。很多数据管理项目的失败,都是由于初期低估了难度和预算。
第三:既重展示,也重数据。我发现,有些客户急于去做那些看得见的东西,比如华丽的报表,可是,仔细去看报表,数据却是错误的。Informatica更侧重底层数据的支撑,我们认为,对任何一个业务支持系统来说,数据就是血液,只有源源不断地提供健康血液,我们的信息系统、我们的企业才能保持旺盛的生命力。