Informatica孙大山:大数据下的生意经

ZDNet至顶网软件频道消息:目前,很多企业在完成数据收集后,就把这些数据闲置甚至丢弃了,这是非常可惜的,因为数据对于每个企业来说都是非常宝贵的资源。Informatica中国区资深技术顾问孙大山在做客ZDNet直播访谈时表示,“大数据遍布企业的方方面面,它不仅可以帮助企业规划自身资源,对企业内部做到更全面的内视;大数据也可以帮助企业更好地了解用户,通过数据分析推出一些以客户为导向的产品或以客户为针对性的服务。”

企业在做大数据项目时需要注意一点,那就是大数据并不是一朝一夕就能完成的工作。并不是说,你购买了一些机器,组建了一个Hadoop环境,就叫大数据了。除了设备上的投资,企业还需要在人员、在技术方面进行投资,同时,企业的组织架构也需要进行相应的调整,增设新的岗位去专门进行大数据的分析和研究。大数据的前期准备工作是很多的,不可急功切利。

面对大数据滚滚大潮,企业呈现出完全不同的两种态度:一类是过于保守,觉得自己企业规模太小、数据量太少,还用不上大数据;另一类又走入了另一个极端,认为大数据是万能的,能够解决各种各样问题。

对于大数据保守派,孙大山表示,其实,大数据离你并不遥远。有句话叫做数据无大小,大和小在于你审视或者利用数据的方式。大数据对企业来说,最重要的是一种数据的思维,也就是说,企业需要站在数据的角度去考虑问题。没有企业永远都不需要大数据,因为市场是瞬息万变的。可能你现在不需要大数据,但到了明天却发现竞争对手们都在用在大数据开展创新业务,到那个时候再去接受大数据就晚了。

对于大数据激进派,孙大山表示,在信息化的每个发展阶段都会有大量的数据处理要求,这其实都是大数据。大数据是企业信息化发展到当前这个阶段的必然结果,没有必要去神话它。

以下为演讲实录:

主持人:ZDNet各位网友大家好,欢迎收看我们本期的视频直播,今天我们请到的嘉宾是Informatica中国区资深技术顾问孙大山,孙先生,也跟我们网友打个招呼,欢迎您来作客。

孙大山:大家下午好。

主持人:我们今天这样关于数据管理的话题有一个主题叫大数据下的生意经,这个话题还挺有意思的,把大数据和生意结合在一起,第一个问题先请问您一下,大数据和企业生意之间它到底有什么样的关系,能不能帮我们网友阐述一下这两个之间是不是说大数据就能帮助企业挣钱了或者是怎么样,看看您的观点是什么?

孙大山:可以说大数据确实是现在时下最热门的一个话题,我前一段时间去外地出差,打车的时候出租车司机也跟我谈大数据,医疗大数据,社保大数据,所以我觉得现在真的是出了门人人都在说大数据。

但是,对于大数据的认识,其实我觉得可能很多的朋友也是一头雾水,到底什么才算是大数据,到底大数据对我们来说有什么用,这个问题其实我觉得在IT圈内都是一个众说纷纭的事情,说实在的对于大数据,对于不同的行业不同的企业来讲,大数据的应用大数据的作用其实都不一样,从我个人认为,我觉得大数据从整体的企业角度来看,其实它可以遍布我企业的方方面面,包括企业对于用户的了解,客户的了解,包括你对你自己资源的掌握和锁定,包括你对你这种生产规划,包括你对你企业的管理,决策的判断。

另外,包括像服务,其实这些方面大数据都能够帮上我们企业的忙,比如说我们可以用大数据去关联我的用户,客户,产品这些信息,对于这些信息,对于这些数据做到有机的串联,这样使你对于客户的认识更加立体,对于客户的数据描述更加显得丰满。

客户在你的面前或者在你的数据模型当中它就是活生生的,你对于客户的喜好客户的偏好,对于客户的一些行为分析,这些你都可以从数据当中来获取。这样的好处对于你来说,你可以去制定,可以推出一些以客户为导向的产品,推出一些以客户为针对性的服务,包括你了解客户。

另外,比如说你对于生产规划,对于企业的资源了解,你通过数据的认识能够知道你企业拥有哪些资源,这些资源如何来释放它的价值。另外从更深层面来讲,你甚至能够知道你有哪些潜在的资源,其实对于我们来讲对于我们企业来讲目前很多企业在完成了数据收集的目的之后,这个数据就被闲置甚至被丢弃,这是非常可惜的,数据对于我们来说是一个非常宝贵的资源。

所以在这一块你可以通过你的数据来去深挖你的业务,深挖你的资源。我觉得我们有一个例子可能听得是最多的啤酒和尿布的故事,这个例子我们可能听了有十几年二十年了,其实这个例子所反映出来的就是它从沃尔玛,从它的客户购物小票当中来去深层次挖掘出它已有的价值。

对于生产的规划,企业我们通过数据我可以对我的企业内部做到更加全面的内视,我可以去看到整个企业的流程框架当中存在哪些细节上的问题,针对这些细节的问题提出一些比较具有关联性比较具有一对一针对性的解决方案。

像服务,决策这些,我们有的客户可能会说我现在有商务智能,我现在有BI了,大数据和BI到底有什么关系?传统的BI对于我们来讲是一个逆向的思维,也就是说我们传统的BI是什么样的过程呢,当你发现问题之后你去进行逻辑分析,然后找到因果关系,找到解决方案,这是一种逆向,这件事情已经发生了。

大数据给我们企业提供的是你可以预测未来的走向,也就是说我去收集数据,我去一个量化的分析,然后我去发现我数据之间这种关联的关系。以此来提出一种优化的方案,这是一种正向的思维,从原先的事后诸葛亮到现在你可以具有高瞻远瞩,你可以去预测你的未来,这是对于我们这种决策支持的改变。

从服务的角度就更不用说了,你对你的客户有了360度的掌握,你想提供什么样的服务非常的直接非常的具有针对性。

主持人:刚才说到其实这个应该是包罗万象,什么都涵盖在里面了,您刚才指了很多应用的范围广泛,我们也想问一个现状,大数据的热度不减,大数据对我们企业的用处我们也知道,作为现在这个企业到底利用大数据到什么程度了,是不是这里面还存在一些问题和误区,这是大家也希望能够探讨的一个问题,把问题抛给您,对此您是什么样的观点?

孙大山:确实现在我觉得在国内,特别是在中国,我们大家更多还是在热议大数据,会去流传一些很经典的或者很神奇的一些大数据的故事,但是真正在落地这个层面还不是很多,特别是在一些传统的行业,互联网行业我们就不用多说了,那永远是走在排头兵的。

我们在接触很多的客户,现在有很多客户也在跟我们去交流关于大数据之类的一些技术的问题,一些业务的问题。我们在交流过程当中我感觉对于用户来讲有两个比较极端的或者说有两个误区,一个误区就是觉得我企业规模不大,我的数据规模也不大,可能大数据还离我很远很远。还有一种就是激进派了,就是我要上大数据,大数据好,我明天就要用大数据,大数据能帮我解决各种各样的问题,我觉得这两种都是存在着一定的认识的错误。

对于保守派来讲其实并不是说大数据离你很远,我们有一句话叫做数据无大小,大和小就是在于你审视或者利用数据的方式。大数据给我们带来最重要的是一种数据的思维,你只有站在数据的角度去考虑你的问题,其实这就是符合大数据的思维要求。

也不是说你永远都不需要大数据,因为这个市场是一个变化的市场,瞬息万变,竞争也非常残酷,可能你现在觉得你不需要大数据,到了明天你发现你所有身边的企业,你所有的竞争对手都用在大数据开展着一些创新的业务,到那个时候你就晚了。

所以我觉得套用一句话就是战略上你可以轻视,但是战术上你一定要重视。另外,对于这种比较激进或者比较神话大数据这部分的用户,我也觉得大数据是我们信息化发展到当前这个阶段必然的结果,不需要去神话它,说白了在每一个信息化发展的阶段我们都会有大量的数据处理的要求,各式各样数据处理的要求,这其实都是大数据。

在你进行大数据的过程当中并不是说你购买了一些机器,我组建了一个hadoop的环境,我就可以叫大数据了,其实不是这样。对于大数据你要有人员的安排,人员的投入,你要有资金的投入,技术的投入,甚至是你整个企业的组织架构都需要发生相应的改变,因为它是从思维的根本上的一种变革。你可能会需要有新的岗位新的职责来去专门进行大数据的分析和大数据的研究,所以这个前期的准备工作是很多的,并不是说我一朝一夕就能够完成大数据的工作。

所以,我觉得基本上会有这两样两类稍微极端的一些认识误区。

主持人:两类一个保守一个激进,把现在很多企业对大数据的认识误区,孙先生已经都概括出来了,我们具体到Informatica,因为我们知道Informatica在数据管理方面我们是非常专注于业务,而且我们做了很长时间,很资深的一个公司,具体到我们的业务我们的解决方案,跟大数据时代现在的企业目前现有的大数据规划当中的业务需求,我们之间是什么样的关联?我们的解决方案跟现在大数据市场之间有一些什么样的联系,我们解决方案是什么?能不能介绍一下Informatica当前大数据的策略。

孙大山:Informatica在数据这个行当我们已经有21个年头了,从成立伊始一直到现在Informatica都秉承的是一个专注于数据集成数据管理的思路,我们所有的产品所有的解决方案也都是围绕着数据而展开的,从数据不同的层面给我们提供一个更好的方式方法,帮助我们更加有效更加高效,更加全面去管理我的数据。

所以我觉得Informatica大数据之间是很天然的关系,因为大数据说白了还是数据,还会牵扯到数据的方方面面。对于大数据的操作可能我们经常会讲一些大数据的应用之类的,其实这些对大数据的认识就像是你在海洋上的一个冰山,你可能看到最终的结果只是露出海面那一个冰山的一角,但是其实它有很庞大的冰山的主体在海平面之上你看不到。对于我们的工作来讲其实也是这样,你要最终落地,你有许许多多的基础工作要去完成,对于大数据整个的操作步骤,包括数据的采集,数据的预处理,数据的迁徙,数据的深度加工,数据的分析。

其实这几个步骤你是缺一不可,对于Informatica来讲我们也是贯穿在这几个步骤当中,拿我不同的产品不同的解决方案去满足你不同阶段不同步骤的需要。比如说数据的采集,你有不同类型的数据,比如说关系型数据,结构化,非结构化的数据,有的是消息,有的可能是复杂的文本,有的可能是*流,甚至包日志包括传感器的这些数据,各式各样的数据你首先得汇总到一起,采集到一起。

其次,数据的预处理,各式各样的数据需要有格式的转换,需要有关键信息的提取,比如说日志数据,你取过来的日志数据并不是说你所有这些数据都是需要的,可能有很多一部分是一些标示性的信息,或者说是一些注释性的信息,真正为你所用的信息可能只有一部分。所以,对于这些信息,关键信息的提取。

接下来是对于数据的清洗,大数据有一个特征就是混杂,信息密度非常低,在这个基础之上我们要对不同的数据,各种各样的来源过来的数据,我们要对它做一个相对来说规范化的处理,做一个简单的清洗,这样来去巩固或者提高它的信息密度,提高它的数据标准,我们在往后才能够更好去使用这些数据。

在清洗完成之后还要进行数据的深加工,按照你的分析模型来去对你的数据做转换,格式上的转换包括取值的转换,包括数据的一些轻度的汇总等等。

另外,像数据的关联,不同来源的数据你需要把它关联在一起,你需要一个点状的数据构成一个线装的数据再构成一个面状的数据,只有在这样子的结果之上你才能给去发挥你的数据分析能力,你才能够从中分析出价值。

所以,这几个步骤其实都是不可或缺的。Informatica整体的解决方案我们也是在不同的阶段提供不同的产品,不同的手段,来去帮助我们完成不同的要求。

另外,在大数据时代我们还有一个热门的话题就是数据安全,我想之前我们也有这样子的专题。在数据安全这个方面Informatica在数据的阅读,数据的使用这两方面使用动态的或者静态的数据,遮蔽的手段来去保证我数据的隐私。还有包括像数据的生命周期管理,这一块主要是针对历史数据的归档,我们也可以采用大数据的一些运算,存储,这样一系列新的技术,来去对我的历史数据进行归档,留存,甚至包括后续的一些历史数据的分析,整个都是Informatica对于大数据整个这样子的产品支撑的解决方案。

主持人:其实万变不离其宗,大数据可能最根本的还是数据,所以说实际上我们一直在做整个的数据管理数据处理的业务,其实离不开Informatica我们的解决方案在里边。之前的问题也提到了现在企业在做大数据的时候一些认识误区,我们Informatica的相应解决方案有没有一些能够帮助这些用户走出这个大数据数据,或者规避到大数据的应用风险的一些方法?能不能给我们介绍一下,看看有没有什么例子之类的,能不能给我们举一个例子。

孙大山:Informatica在帮助企业去实施大数据的过程当中,其实Informatica这个思路是非常巧妙或者非常科学化的一个思路,我们首先是去解决你的数据获取能力,通过不同的接口,Informatica有超过200个不同的数据接口,来去保证你数据获取的能力。

其次,在一个统一的平台当中,对于数据去进行各种各样的处理,你有质量的要求也好,或者数据集成的要求也好,或者是主数据的要求也好,各种各样的数据处理的要求都可以在这个平台当中来满足。其次,我们对于数据量没有任何的要求,我可以处理任意数据量的数据,我们在大数据的这个时代当中,我们经常会说我的海量数据,Informatica在处理海量数据的过程当中我们可以通过横向的扩展,通过集群化的架构,通过hadoop的分布式计算框架,我们都可以来去完成我对于海量数据的处理,对于不同类型数据的处理,这些都可以在这个平台当中去完成,这就保证了我有一个统一的技术手段来去应对大数据的变化,或者来去应对大数据的多样性。

另外一个比较巧妙的思路就是我可以在不同的平台之间去做这种非常*非常灵活的切换,你可以在简单的一台PC服务器上来去运行你整个的数据管理平台,当你发现你的数据量在增长的时候,你可以把它横向扩展变成一个集群,我可能几台Linux,几台Unix来去构成一个传统的集群,当你有更多的数据需要处理时候,你可以非常灵活把这个平台再迁移到hadoop这个平台当中,大数据的一个处理平台。

你可以在不同的这些架构,不同的这种平台当中来去*切换,而不需要对你所设计的这些作业,或者对你的数据处理规则来去做任何的改变,这就能够保证我技术的连贯性。从这个角度来讲,一来保证了我技术的沿用,我的数据处理一些规则,一些手段的高度重复性使用。

另外一方面,对于我们企业来讲也是对企业投资的一个保护,在这个层面上其实在大数据这个浪潮当中,虽然从2006年提出大数据的概念一直到现在也发展了这么多年头,但是大数据的技术发展,还是它的迭代式发展非常快的,可能今天推出的新技术过两天就被淘汰了,所以在大数据这个环境当中技术的风险也是我们不能忽视的一个问题。

如果说一个企业我们一个用户他要去自己研究大数据的技术,他可能会押错宝,我可能投入了很多的精力很多的学习成本,我去学习了一项大数据的技术之后没过两天淘汰了,这时候这种风险通过Informatica平台我们是可以帮你去屏蔽掉,也就是说你还是跟以前一样在这种图形化的设计当中去设计你的数据处理数据加工的这种规则,这种逻辑,底层由Informatica来帮你去运行在不同的平台当中,你需要在hadoop上来运行,我们可以运行在hadoop上,你需要在Linux,Unix这种传统的平台上来运行也可以*切换,所以来去帮助我们屏蔽了一个底层的技术的差异,这就是Informatica在大数据这一块我们的一些思路和我们产品设计的一些想法。

要说例子其实我们例子非常多,像比如说我们在金融行业,我们有一些银行的客户利用Informatica来去帮助它构建企业级的数据仓库,构建它的商务智能的BI系统,使用Informatica来去很灵活获取各种他需要他想要的数据,然后进行整合,进行集成,这些数据提供给我的数据仓库,提供给我的BI来使用。

我们还有运营商的客户使用Informatica来做什么呢,对于它的CDL的通话详单的信息做一个格式的处理,这些数据下来的都是一些包括像从交换机从基带上下来都是一些半格式化的一些文本数据,有行业标准。通过Informatica来自动将这些数据实时采集过来进行实时的转换,格式处理,把它变成一个便于阅读便于理解的结构化数据,再对这些数据去做进一步的质量分析,包括数据的分析。以此来去改善它对于包括一些用户的投诉,我去改善这种投诉响应的时间,同时对于这些数据分析我们也可以反向去监测我的设备运行正常情况,可能这个数据下来的是错的,可能表示我的设备哪个地方哪个配置或者哪个设备有了问题,可以做到反向的设备的监察。

我们还有在能源行业的客户使用Informatica主数据进行包括像供应商,合同,设备的主数据管理,消除这些在不同系统当中大数据存在的差异,使它最终的数据报表展现出来更加正确更加真实。

我们前一段时间还有一个医院的客户使用Informatica也是进行集成和整合各个业务系统当中的数据,包括像它的HIS,LIS,电子病例,还有像手术,麻醉这些它不同系统的数据进行整合,来去提高数据的共享程度,以此来去完善它整个患者的电子诊疗的信息,提高它整个的医疗质量和效率,这些其实都是使用Informatica来去帮助我们企业解决一些运营商的,解决业务上的实际问题的例子。

主持人:所以应该说例子特别多,我们包罗万象,在各个行业面对企业不同需求的时候,我们也相应都有很多解决方案。

孙大山:对,是的。

主持人:现在我知道大数据应用到现在我们有一个趋势,也是我们最近这段时间发现的,我们发现大数据越来越多从让技术部门,IT部门纯粹使用,或者说IT部门原来是当一个桥梁,现在变成说大数据直接能够被业务部门利用,好像它变得更平民,也不能叫平民化,反正从这个专业领域开始向更多普通的业务人员在转型。我不知道面对这样一个需求Informatica有没有相应的一些我们自身调整我们的产品和策略,能够适应这样的一个发展趋势,咱们有些相应的变化吗?

孙大山:协作,其实Informatica我们的产品最初设计思路,把协作模式或者说是这个理念一直贯穿在我们产品整个的设计当中,包括从技术层面,业务层面,其实我们想说Informatica对于数据的使用或者对数据管理的认识还是非常深入,我们知道数据到底是谁的,其实数据不是IT的,数据是业务,数据的产生是业务来产生,数据的使用是业务来使用,IT只是作为一个数据的服务这样子的角色。

所以,对于数据来讲我们一定要将业务人员和IT人员结合在一起,大家一起来协同作业,你才能够对数据去更好地进行处理,进行数据的分析。

比如说我们做数据质量的时候,我们也跟客户有时候在前期的需求沟通过程当中反复给客户提供,对于数据认识最深,理解最深的是你的业务人员,但是业务人员缺乏的是一些技术的手段或者说一些技术的能力,这个时候我们就需要将业务人员的这种业务认识,数据的认识,和IT人员的这种深厚的技术结合在一起,由业务人员提出对于数据处理的一些需求,一些想法,由IT人员帮忙去进行实现。

在这个过程当中其实我们碰到了,我们在做项目的时候碰到的最大问题是沟通,这个沟通的过程其实很困难的,有时候业务人员说的话IT听不懂,IT说的话业务也听不懂,这是一个问题。所以,Informatica在设计产品的是我们就充分已经考虑到了这样子的状况,我们很多产品,包括我们很多的解决方案都有专门对IT人员提供的比较适合于技术来使用的这种界面,也有非常简单,非常易用的图形化的界面提供给业务人员去使用,从而在软件使用的角度把IT和技术给它结合在一起,通过这种思路来去让更多的技术人员参与到对于数据处理,对于数据使用,对于数据分析的过程当中。

另外,Informatica也有一些整体的解决方案,包括数据的这种自助式服务,包括数据的虚拟化等等,这些方法也是尽量地从底层通过技术的手段来去将各种各样的数据呈现到最终的用户面前,由最终的业务用户来去*选择他想使用什么样的数据,他想浏览什么样的数据,他想分析什么样的数据,通过这一系列的手段来去保证我的业务人员能够紧密地与我的技术人员协同作业在一起,能够让我的业务人员更加全面更加直接地看到我当前的数据,甚至是让他们能够参与到数据的操作过程当中来,通过这种方式来去为业务人员提供数据的服务。

主持人:其实以上孙先生给我们介绍得特别详细和条理清晰,如果收看过我们这个节目的网友就会知道,其实Informatica的访谈是一个系列的访谈,这一期是我们整个系列当中最后一期,我们最后一期也做一个总结,最后一个问题留给孙先生给我们做总结,我们Informatica面向中国市场发展的思路或者发展的目标是什么样子的?能不能让我们现在的网友或者用户更了解到我们Informatica在中国的一些具体策略?

孙大山:其实说到这个点上,Informatica我们有一个一直不变的口号,叫做帮助企业提升数据价值,降低数据成本,提高数据回报率,这一点足以总结Informatica整个的这种思路,我们最终的目标也是帮助我们的企业,帮助我们客户向一个以数据驱动型的企业这样子的转变,基本上我觉得非常简单来概括了Informatica这样的思路。

主持人:数据驱动型企业,应该是现在当前挺热门的一个说法,大家都在提这个。感谢孙先生今天作客我们ZDNet的视频访谈,给我们带来了特别详尽的关于Informatica的市场策略,包括我们怎么样给企业化解它大数据应用当中的一些问题,给我们带来很多实战的体会,也感谢网友收看我们本期节目,希望大家未来继续关注我们接下来的系列报道,谢谢。

原文发布时间为:2014年11月30日
本文作者:谭健
本文来自云栖社区合作伙伴至顶网,了解相关信息可以关注至顶网。
上一篇:XenApp负载管理规则列表


下一篇:IBM发布员工心声调研解决方案 利用认知技术为人才管理赋能