IBM卢伟权:大数据下的信息掌握与分析

本文讲的是IBM卢伟权:大数据下的信息掌握与分析,当前,行业对于“大数据”的关注疾速攀升,这并不亚于数据本身的增长程度。您是否想过,我们看到的“谈大数据色变”或许只是个表象,走在行业前列的企业早已开始默默挖掘大数据中蕴含的“金矿”,为自己的业务飙升迈出制胜一步。

  作为行业引领者,IBM一直走在新趋势的前沿,对于大数据更是全力融合创新技术与行业经验助力客户梳理大数据概念,选择战略方向,制定方案策略,实现行业落地:今年5月,IBM智慧的分析洞察正式发布,为大数据环境下的企业描绘了一幅宏伟的战略蓝图。在此基础上,IBM全面整合内部资源,搭建了融软件、硬件、服务为一体的大数据平台,为企业提供易执行、低成本、高效率的大数据解决方案。在行业方面,IBM为行业企业量身定制的大数据解决方案优势充分凸显,大数据制胜策略已不再纸上谈兵,实践之花也开遍制造、电信、金融等诸多行业。

  IBM软件集团大中华区信息管理软件总经理卢伟权认为,IBM不仅仅是在大数据里有不同的投入,在不同的数据平台上,我们都有很多配合大数据的开发和产品来做整个大数据的实施和管理。

  卢伟权指出,在IM中其中有一部分是我们这个部门里负责掌控信息,掌控信息的意思就不单只是大数据,还有我们很多客户要做的就是整合的平台,来去把不同来源的数据,不管是大数据,一些非结构化的数据结合在一起,然后产生可以去管理的平台,来去达到管理整个架构的目的,这不单只是大数据,大数据只是整个平台里面的一部分,要整合在他们现有的平台里建设起来,提供这样的服务给我们的客户。我们谈大数据的时候,不要忘掉大数据是整个平台的一部分,所以我们的友商只是谈大数据,而没有说怎么把大数据整合在客户的现有平台,没有说只是做一个大数据的平台,不管现有的平台,在我们IBM来看也是这样,跟整个IT的架构配合起来才有用。如果只是建一个大数据平台,没有连接起来,我们是没有这样的应用的。

IBM卢伟权:大数据下的信息掌握与分析
▲IBM软件集团大中华区信息管理软件总经理卢伟权

  建了大数据以后,可以做的其中一部分,是要洞察未来,因为很多时候我现在做的BI上,我只是做一些过去的分析,过去发生什事情,我知道了,要根据这个过去的事情再去做一些动作才有用。但是我只是记录过去,而没有用过去再去洞察将来,如果没有这样做是没有用的。大家都可以看过去的报表,为什么很多客户说现在要用大数据呢?因为大数据能在给我们客户一个更好的洞察力。举个例子,如果我用一个数据仓库做一些事情,因为数据仓库比较贵,我用一些非结构化的数据不能放在数据仓库里,有一些事情不能做得那么细,比如我们有一个客户在欧洲,他是做风力发电机的生产商,要给一个方案给他的客户,这些风力发电机放在什么地方,过去是用一周的时间才可以产生一个报告。过去的数据不能是放在一个实时的数据库里,因为太大,要调研分析这个地方的天气情况怎么样,过去五六十年风力的情况怎么样,不是一个实时的平台,如果安装一个风力发电机,要回去等一周,再把这个数据做一个调研分析。但是他用了我们的BigInsights之后,他可以把这个数据变成实时的,他可以说这应该放在什么地方,这不单只是说可以把时间缩短,同时可以做一些将来的洞察分析,所以大数据不单只是说把不同类型的数据结合在一起,还有是把做决定的质量提高了很多,这是最主要的一部分,不是说把数据大量的放在里面就可以,而是怎么利用这个大数据提高我做决定的质量。

  随着3个“V“以外还有一点是准确性,刚才也说到在原有的基础上,在有数据仓库和其他的平台,无论是大数据怎么结合起来,再把过去做的分析做的报告给它,不是说独立做出来大数据的平台,而是怎么结合在一起,IBM在这方面我们的DB2和BigInsights有很多整合在一起的地方,陈博士会说一下,我们整个怎么整合在一起的一部分。大数据怎么去展现出来,我有很多数据,做了分析之后怎么展现出来,过去有Cognos,也是我们收购回来的公司再整合到大数据的平台,可以让客户很容易展现这些大数据给他们的分析结果。过去传统的一些分析的办法已经不合适,如果单纯是以前的结构化数据,数据量没有那么大,数据不同的类型没有那么多,数据量没有那么大的话,过去用其他的分析工具可以做得到,现在数据这么大,不同类型的数据这么多,我们有新的和更有效的办法,让我们的客户做开发的工作。在我们的Streams,在我们的BigInsights里面的开发工具就有Text Analytics,以前结构化的数据分析里有不少的,在非结构化的数据可以用到新的工具才可以做到在数据里挖掘要用的东西出来。

IBM卢伟权:大数据下的信息掌握与分析
▲掌控信息 优化组织提升业务

  安全与治理也很重要,当你整合一个大数据平台,怎么去管理它,怎么管理它的生命周期,因为这个数据量每一天都有,数据量很大,不停的增长,不可能永远是放在一个平台不去管理,它有一个生命周期,我过了一个时间怎么把它变成一个归档,或者怎么样做其他的管理,或者是怎么让不同的人才可以看到这些数据,这都是包含在整个大数据的内容里,不只是一个平台的解决方案。

  刚才也说了我们有新的开发管理、管理平台、也有新的分析平台,我们在大数据里,现在在IBM里提供出了一个管理平台和分析平台,不单纯是给你一个开源的Hadoop平台,而是在上面做了很多开发的工作,如果大家熟悉Hadoop的平台的话,它只是一个平台,里面是没有管理工具的,也没有一些功能,比如把不同的数据把它汇总这样的功能,这样的功能是没有的。在这个平台上,IBM是有100个以上的功能,用我们过去三四十年在数据库领域的经验,把数据库在管理的办法也移植到大数据管理的平台上,BigInsights不单是Hadoop平台,而是IBM在数据管理的经验加载到Hadoop平台上,把Hadoop里面没有的功能加载上去,所以BigInsights平台不单只是一个Hadoop开源的工具。如果一个客户只是用Hadoop来做,只是变成一个实验室的工具来做,这个很难的,IBM开发完以后用到Hadoop的平台,这个可用性、可管理性、安全性都提高了很多。

  大数据里面有几个重要的方面,一是以Hadoop为主的BigInsights,刚才我说了BigInsights不单只是Hadoop的一个平台,在上面IBM投入了很多开发的力量去把它优化,最主要是作为静态的大数据分析的工具和平台。当你有很多数据汇总以后,可能要找一个地方来把它放在Hadoop平台上,或者Biginsights的平台上。还有Streams流计算,IBM自己开发的工具,处理什么大数据呢?就是一些动态的大数据?什么是动态的大数据呢?举个例子,刚才也提到电表的数据是不停的发放,这些数据是每一秒钟都会发生的,这些数据过去都没有人去管,没有处理到,我们是可以用到流数据和流计算的技术,把这些数据管理下来,可以做一些分析。我们现在在中国也有好几个项目是用流计算技术来做,其中也关注到天气,如果天气有什么变化,对我的电力供应有什么影响,这些也是可以用很多大数据和数据流这样的应用其中一个应用的案例。

  传统的数据仓库,IBM的DB2为主的数据仓库和Netezza的数据仓库为主的方案。用大数据做完分析以后,还要变成一个结构化的数据的分析方式。这些还要回到传统的数据仓库里记录下来,作为将来的分析可用,不能说做完大数据分析以后,把它放在什么地方,还得有一个数据仓库把它记录下来。同时间也有一些客户说,我建数据仓库的成本太高,数据量不停的增大,IBM有一个技术是DB2和Hadoop是可以连在一起,把DB2的一些数据放到一个便宜的平台,使这个数据仓库的成本降低,效能可以提高,把不经常用的数据放到Hadoop平台,这样可以提升数据仓库的功能,成本也可以降低。


  IBM做了一个很重要的投资,开发两个静态的大数据跟动态的大数据都用同样的技术来去做分析。对客户来说,这就省了很多开发的成本以及维护的成本。

  举个例子,在很多大数据的应用都是用在社交网的分析,在中国像是QQ,在国外像是Facebook,这些都有特定的内容是怎么样,如果每一个客户都自己去开发这个接口,就浪费很多开发的时间,这些都是共用的,IBM就开发了大数据,在11月份,我们第一个推出来的就是社交媒体的大数据,把这些标准的数据以及来源都可以很容易调到大数据里面去。在整个平台上,我们还有信息整合分析,这些数据怎么去管理?怎么去把它的生命周期管理好,将来怎么变成一个归档,然后怎么去管理,不应该看某些数据的人有不能去看,这是在平台里很重要的一部分,这也是其他大数据我们的友商是没有的,他们只是有一个大数据平台,生命周期和管理这一块都是找第三方来做,但是在IBM都是有这样的整套的解决方案。

IBM卢伟权:大数据下的信息掌握与分析
▲IBM的大数据战略

  Cognos是分析工具,可以用在大数据平台上,上面可以开发分析的应用,不同行业、不同的应用都是在这个平台上去开发的。在大数据来说,在整个信息管理其中的一块,在数据仓库和其他的是连在一起的,怎么样去把大数据这一部分怎么和数据仓库连在一起,当你做分析的时候,还要把数据质量管理起来,如果数据质量没有管理起来,分析出来的东西是垃圾还是没有用的。所以在一个平台上我们是有不同的数据质量管理东西,就是数据管理。还又怎么把数据管理好,以及安全的方面怎么去管理。这是我们信息生命周期的管理我们都是有解决方案给客户来管理它的数据平台。

IBM卢伟权:大数据下的信息掌握与分析
▲更多报道点击进入专题

  这里不单是管理IBM的部分,如果客户有第三方或者其他友商的平台,我们也可以管起来,包括Oracle我们都可以管起来。我们这是Guardium 的一个版本,我们上个月推出来,是可以管起来大数据,不管是BigInsights数据仓库,还是友商的数据仓库,都可以用Guardium管理它,哪些人可以用,哪些人不可以用,应该去如何调控,在整个平台里IBM的解决方案。将来我们说大数据,不是3个“V”,是4个“V”,就是增值性,大家在互联网都是不同的身份,怎么使这个变成真实性的做法呢?除了这一部分,还有我们的主数据是可以放在一起的。

  刚才说大数据的大数据量、多样性、速度和真实性,这4个“V”,IBM不仅仅是在大数据里有不同的投入,在不同的数据平台上,我们都有很多配合大数据的开发和产品来做整个大数据的实施和管理。

作者: 李伟

来源: IT168

原文标题:IBM卢伟权:大数据下的信息掌握与分析

上一篇:详解SpringMVC中Controller的方法中参数的工作原理[附带源码分析]


下一篇:Spring声明式事务配置管理方法