项目架构
2.1 提高自信
云上数据仓库解决方案:https://www.aliyun.com/solution/datavexpo/datawarehouse
2.2 数仓概念
数据仓库的输入数据源和输出系统分别是什么?
输入系统:埋点产生的用户行为数据、JavaEE后台产生的业务数据、个别公司有爬虫数据。
输出系统:报表系统、用户画像系统、推荐系统
2.3 系统数据流程设计
2.4 框架版本选型
1)Apache:运维麻烦,组件间兼容性需要自己调研。(一般大厂使用,技术实力雄厚,有专业的运维人员)
2)CDH:国内使用最多的版本,但 CM不开源,但其实对中、小公司使用来说没有影响(建议使用)10000美金一个节点 CDP
3)HDP:开源,可以进行二次开发,但是没有CDH稳定,国内使用较少