ZDNET至顶网CIO与应用频道 08月25日 综合报道(文/丁慧茹): 之前我们在提到Teradata的大数据产品和方案时,必然要提到2011年被Teradata收购的Aster Data(现名Teradata Aster)。Teradata Aster在Teradata统一数据架构中承担着数据分析和探索的重任。我们知道Teradata的大数据架构中最引以为傲的就是将数据仓库、Aster以及Hadoop做了最好的整合,形成统一数据架构,并且在金融、电信等行业形成了非常成熟的行业应用案例。
在大中华区,Teradata在大数据方面有了更新的动作,Teradata Aster事业部也正式变更为Teradata大数据事业部,其承担的是Teradata在大数据层面无论是技术还是应用方面的更新和拓展工作。
增加更多新功能 加快与Hadoop的整合
关于Teradata的统一数据架构(UDA)以及Aster在其中扮演的角色,在前两年我们都做过很多介绍。在这个开放的数据分析平台上,数据仓库提供整个企业级的单一视图、Aster承担数据挖掘和探索平台、Hadoop主要承担文件存储和ELT等功能。
至于Aster和Hadoop的区别,Teradata天睿公司大中华区大数据事业部总监孔宇华是这样描述的:“Hadoop下面是文件存储系统,上面用MapReduce做运算引擎。而Aster最大的不同是底层通过数据库做存储,上面有不同的运算引擎,诸如SQL、MapReduc、文本、关联分析、图像分析等。”同时,Aster提供业内使用最为广泛的SQL接口。
Teradata天睿公司大中华区大数据事业部总监孔宇华
孔宇华强调,在Aster里面有各种分析工具,需要什么样的工具就直接调用,而且不用转移数据的存储位置。
但是不能否认,Hadoop也体现出加速发展的趋势,尤其是近一年来更新了众多版本,并增加了各种新的功能模块。在Teradata看来,开源社区对Hadoop的影响和贡献很大,所以Teradata不会在这方面尝试改变社区的发展方向。
“我们会尽量拥抱更多的开源产品,通过与HortonWorks合作,在Hadoop上面做开发。”孔宇华也指出,因为Storm和Spark开始成熟,可以实现一些流分析的应用,因此Teradata也会在这方面做相应的研究和应用。
同时,近期Teradata收购了两家公司,其中Revelytix专长实现Hadoop上的元数据管理,而Hadapt更是能够在Hadoop上基于SQL建立数据仓库。“我们收购这两家公司的人员资产和知识产权,这将扩展Teradata的大数据产品组合,增强Teradata统一数据架构功能。”孔宇华介绍到。
目前Teradata在推动Hadoop的应用其实都是基于统一数据架构,可以让客户更好地利用Hadoop和其他的大数据分析解决方案。“这些平台应该是整合的,而不是孤立的,我们不希望每一个数据平台,如Hadoop、数据仓库、探索平台和数据集市等是不同的独立平台,那样企业就会形成数据孤岛。”因此,在Teradata的统一数据架构里面还有一个工具就是QueryGrid,其可以整合和访问分布在不同平台的数据,做到更好的数据共享。
我们可以看到,今年Teradata在Hadoop方面做了很多的工作,也看到了Teradata大数据战略中通过强化统一数据架构,拥抱快速发展的开源解决方案,帮助客户获得各种不同解决方案优势。
此外,在今年7月份,Teradata在支持开源解决方案的重大突破就是实现Aster与R的整合。因此,在整个分析引擎中,除了SQL、MapReduce等之外,还增加了R。孔宇华说:“Aster与R的整合,是一个强强联合,R上面有很多不同的算法、不同的分析函数的展示方法,可以通过Aster获得分布式高性能计算。。”现在Aster这把瑞士军刀将能够帮助R语言分析师,通过开发的他们熟悉的R语言和工具,获得强大的处理能力及丰富的分析方法。分析师还能够从多个数据源访问海量整合数据。
当然,Teradata对统一数据架构的功能更新和强化一直在继续,无论是从数据获取、存储还是分析层面都加入了更多的功能。但是我们可以看到,Teradata在补充这些功能时,前提始终是基于这个“开放并包”的统一数据架构,而不是孤立的增加功能。
更多传统行业成为目标客户
前文我们提到了Teradata大数据功能和技术方面的新进展,而在行业应用方面,从与孔宇华的采访中,也能感受到Teradata在一些传统领域的“野心”。
以前提到Teradata的客户时,我们可以数出一堆大金融企业、电信运营商,这些都是Teradata的优势领域。而从前文的各种功能更新上也看到,其实Teradata在降低大数据分析的应用门槛,无论是与Hadoop的各种整合,还是与R的整合等,这其实在一定程度降低了更多的传统企业应用大数据的技术门槛。
孔宇华在提到Teradata的统一数据架构的优势时,也提到企业并不需要一次将所有的数据进行分析,而是可以将某一些数据快速地完成从获取、存储、探索到获得价值这样的一个流程,企业可以对数据的价值“先睹为快”,然后再决定自己的大数据战略真正是怎样的。
这也就是“大数据从小做起。”
而这样一种思路必然会对Teradata进军一些数据积累并不很好、IT技术并不是很强的行业产生推动作用。
在采访孔宇华时,他提到Teradata的一些大数据成功案例时,聚焦在了三个领域,即医疗、零售和高科技制造业。据其透露,这三个领域也是之后Teradata在中国发力拓展的行业。
关于这三个行业的应用场景,孔宇华也做了一些举例。比如医疗行业,可以针对同一病症不同患者的治疗周期和方法进行分析,以得出为何不同的患者的花费会有较大的差距。当然在医疗的应用场景并不是只有这么简单,还有诸如区域医疗、临床路径等。
大数据在被提出来之时,很多人将目光放在了互联网、金融、电信等行业,其实我们应该看到所有的行业都有着挖掘数据价值的愿望。而更多的传统行业,一方面技术人才并不多,另一方面数据积累也并不完善,Teradata在大数据上的思路显然照顾了这些行业的需求,更加追求易用和包容性,以让更多的行业并不需要一开始大而全的做大数据,而是从小做起,一步步感受大数据的魅力和价值。