前言
Cloudera 在跟HortonWorks 合并后,便推出了新一代大数据平台 CDP,并正在逐步停止原有的大数据平台 CDH 和 HDP。
但具体到何时会彻底停止对 CDH 和 HDP 的维护,CDH/HDP 停止维护后现有用户该如何应对,以及 CDP 跟 CDH/HDP 的异同,或多或少都有些模式。
CDH/HDP 各版本的关键时间点
- 下图简要介绍了CDH和HDP侧重的技术领域:
- 可以看到CDH和HDP都重点涵盖了数据工程和数据仓库场景
- 同时CDH对AI,ML和数据科学场景有侧重
- 而HDP对IoT数据摄取和流场景有侧重
2、下图简要介绍了目前市面上主流CDH和HDP版本的关键时间点
HDP2.x和CDH5.x对应的是hadoop2.x
HDP3.x和CDH6.x对应的是hadoop3.x
目前官方已经停止了对HDP2.x和CDH5.X的技术支持
官方对HDP3.x和CDH6.x的技术支持也都会在最近半年停止
具体来讲,HDP3.x的最新版HDP3.1会在2021/12月停止技术支持
具体来讲,CDH6.x的最新版CDH6.3会在2022/3月停止技术支持
CDP 介绍
1、CDP 可以认为是将原来的 CDH/HDP 融合在了一起,具体融合方式如下图所示,关键点是:
淘汰了竞争的技术
融合了重叠的技术
保留了互补的技术
升级了共享的技术
并增加了某些新功能
2. CDP 对应不同场景,推出了三大版本:
对应公有云场景的 CDP public cloud,目前三大公有云厂商 aws, gcp, azure都已经提供了支持;
对应私有云场景的 CDP private cloud plus,其计算集群使用了 docker 和 k8s 相关技术;
对应数据中心场景的 CDP private cloud base, 其实对应的就是原来场景的 CDH 和 HDP;
三大版本底层对应的是同样的 cloudera runtime,其实质就是大数据各个具体组件,如 hdfs/hive/spark等等。
Cloudera 的新许可证政策
Cloudera 的新许可证政策如下图所示,其关键点是:
Cloudera 所有产品都将开源 (至少承诺的是如此,包括原来CDH中不开源的cloudera manager等也将开源),其开源模型类似 Red Hat开源模型;
Cloudera 所有产品的二进制文件和源代码,都需要订阅,(即不再提供社区版,只提供企业版,都需要付费,不再有免费的午餐!);
自2019年11月以来,访问产品的二进制文件需要订阅和 paywall credentials (即没有paywall credentials 的话,将不再能从 cloudera 官网下载 parcel/rpm 包);
2021年1月后,扩展的Paywall将包括平台的早期版本,包括所有版本的CDH/HDP/HDF等 (即目前所有版本的CDH/HDP/HDF/CDP,从官网下载 parcel/rpm 包,都需要有 paywall credentials);
使用遗留CDH/HDP系统的小伙伴们该何去何从
概括起来,使用遗留CDH/HDP系统的小伙伴们,有以下选择:
继续使用原有版本的CDH/HDP:在指定日期之后,Cloudera官方不再对原有版本的CDH/HDP提供技术支持,这仅仅意味着Cloudera官方不会再对原有版本提供新特性增强,也不再对原有版本提供BUG修复,但客户原有的大数据平台仍然是能够正常提供服务的 (这点不同于星环的TDH,TDH在许可证到期之后,整个集群中的服务就不能再重启,不能在正常提供服务了);
考虑市面上其他供应商的大数据平台,如星环的TDH,或基于开源apache版本自行封装。不过需要注意,星环的TDH是闭源的,其一些参数跟开源的并不兼容,有 vendor lock in的风险;
按照Cloudera的建议,在合适的时机,升级到 CDP平台。
如何从 CDH/HDP 迁移到CDP?
Cloudera 提供了一系列工具帮助大家尽量平滑地从CDH/HDP升级到CDP。
Cloudera官方建议的升级方式有四种方式:
原地升级
拷贝升级/迁移升级
滚动式拷贝升级/迁移升级
迁移到公有云
不考虑迁移到共有云的话,大家可以主要考量两种迁移方式,即原地升级和拷贝升级/迁移升级,其优缺点如下图所示: