五年前,Gartner 研究总监就曾 发文 说 Hadoop 光环幻灭;到现在,我们看到了更多的质疑文字,认为“Hadoop 气数已尽”。而这次质疑的起因是 Cloudera 和 Hortonworks 的合并,MapR 的裁员。
Cloudera 成立于 2008 年。成立以后创始人做的第一件大事,就是邀请了最初写了 Hadoop 的 Doug Cutting 大神作为首席构架师加入。早期的 Hadoop 只有 MapReduce 和 HDFS,截止 2018 年初有 26 个不同的开源项目,其中有 18 种是 Cloudera 创建的。Cloudera 可称为是圈内的一家标杆企业。InfoQ 编辑在探究“Hadoop 到底怎么了”的问题时,联系到 Cloudera 并进行了采访,我们针对采访回复做出了以下解读。
被逼走向云服务?
去年 10 月,Cloudera 宣布与 Hortonworks 合并,计划创建首个企业数据云。
Cloudera 核心 CDH 开源,靠出售数据治理和系统管理组件来获得商业盈利。Hortonworks 完全开源,靠技术支持服务盈利。依靠这些商业模式,Cloudera 的估值在顶峰时高达 41 亿美元,Hortonworks 的估值也曾超过 10 亿美元。
如今,Cloudera 网站首页以粗体字写着:“我们为任何数据提供企业数据云,从 Edge 到 AI ”(We deliver an Enterprise Data Cloud for any data, anywhere, from the Edge to AI)。我们可以清楚地看到焦点的转变:主打宣传文字不再是 Hadoop 和 CDH。
Cloudera 产品营销总监 Lakshmi Randall 表示:“每个组织的数据都是独一无二的,是可以实现货币化的宝贵资产。根据 IDC 的估计,到 2025 年,全球数据量实现高达 61% 的惊人增长,总量达到 175 ZB。其中将有约一半数据存储在云端,另一半则驻留在数据中心之内”,在发展企业云的同时,“Apache Hadoop 将继续在众多企业的数据中心之内占据重要地位。”
Hadoop 发行商衰落?被逼走向云计算?但实际上走向云计算也是自然发展而来。
Cloudera 的创始人在 一次访谈的时候曾提到,在创建公司时他们原本打算做的服务是类似于现在 AWS 的 Elastic MapReduce 那样的云上服务。然而很快发现这个模式太超前,所以转向了做 Hadoop 发行商的角色,但也“不想失去我们认为有用的 EMR 功能,主要是集群设置的简易性”。
在 Intel 投资 Cloudera 之后,Cloudera 首席执行官也曾在 2016 年表示希望 Intel 投入 10 亿美元来建设云服务,希望“成为真正的云服务提供商”。
Hadoop 是一项伟大的技术,本质上是一个很好的解决方案,但也不是没有缺点,就像大多数开源软件一样。特别是在以模块化方式捆绑的情况下,在数十台、数百台或数千台机器上时也具有挑战,配置、性能优化、工具选择、维护、操作和开发都需要具有深厚的专业知识才能顺利运行。作为一项技术,它也在与一些主要云厂商竞争。云计算也在吞噬本地化部署市场。但通常云提供商只是选择了一个开源社区版本的 Hadoop,产品后续在部署中的高可用性和安全性等问题,也还是需要客户自己去解决。从这点出发,Cloudera 认为现在“自己是企业数据云这一新兴市场领域中的领导者”。
Lakshmi Randall 表示Cloudera 的企业数据云的有以下的功能特征:
立足混合及多云环境,对处于任意位置的数据进行控制、分析与试验。
从边缘到 AI 全面分析——利用实时数据流处理、数据仓库、数据科学以及迭代化机器学习等技术,以安全方式对任意位置的大规模数据进行跨共享数据分析。
安全与治理——以访问政策与复杂模式为基础建立一套通用型安全模型、角色与属性,立足任意云环境实现血统与起源控制。
公有云计算的出现,同时也让存储变得更加廉价。有人认为“AWS 的 S3 替代了 HDFS,K8S 替代了 Yarn”。在回答“未来 Hadoop 的几大组件是否会被公有云上的其他产品全面替代”的时候,Lakshmi Randall 表示:“我们的客户希望能够在任意位置使用任何类型的数据,其中包括以 Amazon S3 为代表的云对象存储、Kubernetes 部署的容器,或者以 HDFS 为代表的传统数据中心存储方案。我们认为,企业将(实际上也正在)采用包含上述全部环境的混合策略,而且这种趋势在未来仍将保持下去。”其实也在 Hadoop 3.0 里,开源维护者为这个功能集做了一些大的补充,比如 YARN 现在支持 Docker 容器、TensorFlow 的 GPU 调度等一些更高级的调度功能,也为 AWS S3 提供本机支持。
谁是竞争对手?
因为 Cloudera 和 Hortonworks、MapR 的变动,有人认为 Hadoop 领头羊已经溃不成军,但大数据领域的,例如 MongoDB 数据库产品受欢迎程度一直在增长,MongoDB 现在的受欢迎指数大约是 Oracle 和 MySQL 的三分之一,而五年前 只有十分之一,背后企业收入已经跃升了 78%。同样,Elasticsearch 分布式搜索和分析引擎背后的公司 Elastic 在去年员工数量翻了一番,最近一个季度的收入增长了 70%。MongoDB 和 Elasticsearch 这样的技术挑战了 Hadoop 吗?
Lakshmi Randall 回答说:“ 最苛刻的业务用例需要采用多种分析工具,包括实时流处理、数据仓库、数据科学以及跨共享数据的迭代机器学习等等。用于支持这些用例的数据库往往拥有多种表现形式,而且广泛存在于各类位置之上,涵盖公有云、内部部署以及边缘环境。Cloudera 客户能够借助我们的平台立足任意位置对任何数据运行多功能分析,从而获取可为其业务提供可行性支持的重要洞察见解。虽然确实存在竞争,但这种竞争只涉及我们当前所服务的分析市场中的一小部分。”
就此问题,MongoDB 社区专家唐建法也解释到:“本质上是离线处理和在线处理两个不同的方向。Hadoop 的底层存储是基于无索引的 HDFS,核心应用场景是对海量结构化、非结构化数据的永久存储和离线分析,例如客户肖像、流失度分析、日志分析、商业智能等。而 MongoDB 和 Elastic 的核心场景是实时交互,通常用于人机交互场景,例如电商移动应用,其特征是响应时间一般是毫秒级到秒级。”
Elastic 中文社区专家杨振涛也给我们解释说:“从使用场景来看,两者是合作关系,而不是竞争关系。但是,对于小应用使用者,可能混用,从这个角度看是竞争关系。不过不是重点,重点在于合作补充”,“Elasticsearch 开箱即用的特点让很多中小团队甚至大企业里相对独立的业务团队更加易于采纳,来满足比较基础的即席查询需求、在线业务检索需求甚至轻量的 BI 需求,这在功能上确实与 Hadoop 生态有所重合,造成了一定程度的竞争。但 Elasticsearch 以及 Elastic Stack 并不是针对 Hadoop 生态的,其自身的典型应用参考官方介绍也是集中在 Logging、Metrics、Site Search、Security Analytics、APM 、App Search 以及 Google Site Search 替代方案这些方面,可以看到 Elastic Stack 旨在提供端到端的完整解决方案,而 Hadoop 生态更多是定位为平台,其上衍生出了非常多的其他产品。这是二者最大的不同,即便它们在功能上有所重合”。
专家的解释也一定程度论证了 Lakshmi Randall 在分析“竞争对手”上的话:“ 随着企业逐步实现数据与分析层面的变革性进步,特别是机器学习领域的迅猛发展,开源生态系统在过去十年当中发生了巨大的变化。Apache Hadoop 将继续在众多企业的数据中心之内占据重要地位;而且由于其属于开源项目,我们能够找到大量互补性产品,例如商务智能、数据集成与数据仓库工具等等。因此,我认为 Hadoop 并没有多少真正的竞争对手,而拥有大量补充性解决方案。”
Cloudera 的未来规划
谈及未来的产品规划 / 发展路线图,Lakshmi Randall 表示:“ 今年晚些时候,我们将发布名为 Cloudera Data Platform 的全新云服务。这款企业级数据云产品将包含用于数据仓库、机器学习、数据流摄取以及数据库操作的一系列云原生服务。它也将成为第一款具有统一数据目录的多功能云产品,能够通过单一管理平台实现统一的安全与治理能力保障。”