Databricks:打造数据国度的“金砖四国”

Databricks,一个并不算熟悉的名字,是大数据国度的后起之星。成立不够一年,但却阵容强大,创始人都是开源圈子里面的重要级人物,值得关注。从公司名Databricks似乎就能看出一些深意——data(数据)+bricks(金砖四国)。不知道,在数据国度里Databricks是否具有“金砖四国”的发展前景呢?

Databricks:打造数据国度的“金砖四国”

可以先从公司的创始背景谈起,打开Databricks官网,“We're working to revolutionize what you can do with big data“映入眼帘。其格外简约不能再简约,可以用清新的字眼来描述网站来看,这一行字相信解读为公司创立的最初想法和终极目标似乎不为过。

Databricks是由Apache Spark的创始人建立的,成立于2013年年中,公司重于研发尖端系统,以从大数据中获取价值。Databricks认为大数据仍存在很大部分尚未开发的机遇,这也就是他们所要做的,通过改革来寻找到底大数据可以帮助人们做些什么。

Databricks:打造数据国度的“金砖四国” 

加州大学伯克利分校,摄于2013年

Databricks:打造数据国度的“金砖四国”

也许正是基于此背景,Databricks目前的阵容对于大数据领域来说有不少亮点。团队人员均是开源圈子内的重量级人物,他们都热衷于“增值开源软件”:任职CEO 的Ion Stoica是UC Berkeley计算机教授、AMPLab联合创始人,同时也是Conviva公司的联合创始人(位于后排右三);CTO Matei Zaharia 是Apache Spark的创作者,同时也是麻省理工学院计算机科学系的助理教授(位于后排左三);UC Berkeley计算机科学教授Scott Shenker。同时也是知名SDN公司Nicira的联合创始人及前CEO(位于后排右二);值得一提的是联合创始人辛湜先生(英文名Reynold Xin,新浪微博为@hashjoin)还是一名中国人,无疑会带给Databricks公司多一分的中国色彩,他同时也是Spark的核心成员(位于前排左二)。

对于这家新兴的大数据公司,最好奇的就是他所拥有的大数据产品到底是什么呢?可以这么说,如果将Databricks公司的产品说成是Spark社区,其实不如说Databricks主要服务于Spark。这一点我们从其团队的主要成员不难看出。按照辛湜先生在媒体访问中所说,Databricks的目标是从Spark开始,构建一系列更强大、更简单的大数据分析处理工具盒平台。

不错,从其对外公布的官方博客中,这一点也得到了印证。3月18日宣布Databricks“认证Spark”项目主要用于那些建立在Apache Spark平台顶部上的应用,其实就是确保被认证的应用与许多Spark发行的商业支持一起使用。Databricks CEO Ion Stoica表示在此次项目中,Databricks将处理与认证的Apache在各商业版本中的兼容性任务,并能够很快确定其初始设置的分派是否满足此条件。

这里,可以顺便一起回顾下Apache Spark,它是一个开源数据处理引擎,用于构建高效率的、易用的和复杂分析的Hadoop数据,最初是成立于2009年的加州大学伯克利分校(UC Berkeley)AMPLab,正式开源是在2010年。正如Apache Spark做到100%的开源,Databricks也依旧遵循此规则。目前Spark已经发展成为大数据领域最大的开发者社区,有超过来自30个组织的100多个贡献者。不得不说注入如此基因的Databricks,绝对会更“亲民”。

迄今为止,这家极尽低调的公司Databricks,可以用神秘的大数据公司来形容。但在其成立不到一年的时间内,还是获得了Andreessen Horowitz 1400万美元投资。Andreessen Horowitz曾先后投资了Groupon、Skype、Zynga、Foursquare和Facebook等著名的互联网公司,外媒BusinessInsider曾将他誉为硅谷最具权威的50个天使投资人之一。

同时,Databricks还有个同样在大数据领域不容小觑的合作伙伴。从去年(2013年)Hadoop World会议上,就爆出Cloudera决定提供Apache Spark的全企业级支持,这也就意味着Databricks将成为Cloudera的第一个合作伙伴。Cloudera最近也是新闻不断,刚斩获了1.6亿美元 的融资,上市消息不断传出。

合作方式主要是Databricks帮助Cloudera提供支持,虽然目前Databricks仅以类似OEM的关系获益,该协议仅限于扩展Apache Spark,不会发布任何商业版本的Databricks。但正如Cloudera公司联合创始人兼CTO Amr Awadallah所说,此次合作将是作为Cloudera所有感兴趣的客户创新的枢纽,无疑这将为这家新兴创业公司赢得业界内的信誉。

此外,Databricks对于中国市场也很是看重,从主要创始人多次参加相关活动足以看出。近期就有一个机会,期待的伙伴们或许可以亲临现场。本月19日Databricks受邀参加“2014中国Spark技术峰会”(Spark Summit China 2014),届时期待Databricks公司成员Andy Konwinski的发言。

温馨提示:想要快速了解Databricks的网友,可火速点击http://stor-age.zdnet.com.cn/special/big_data_Databricks

原文发布时间为:2014年04月08日
本文作者:林利
本文来自云栖社区合作伙伴至顶网,了解相关信息可以关注至顶网。
上一篇:64位centos6.5安装mysql-5.6.25问题解决


下一篇:知识管理工具DokuWiki在ubuntu下的安装