作者:柯根 更多内容详见数据中台官网 https://dp.alibaba.com
作为OneData体系中最为重要的成员OneModel,是“阿里巴巴数据中台团队”在遇到了实实在在的大数据痛点后,根据实战经验所沉淀出来的方法论。
在2014年以前,阿里巴巴每一块业务都有对应的ETL开发团队为其提供数据支持,而每个ETL开发团队都会按照自己的思路建设自己的数据体系,但这些数据体系在实际执行的过程中得到的效果往往不尽人意。
由上图可见,每一个ETL团队在支持一条业务线时,都会从复制基础数据开始向上开发。在面向业务分析支持时,可复用的中间层时而有时而无,并与数据应用层混合在一起。数据分析师或业务人员在进行数据分析时,也是从底向上独立加工数据表。
这种重复建设同时带来了业务、技术和管理上的困扰,给后续的技术和数据体系的发展带来潜在问题。
(1)业务上的困扰
在定义指标阶段,存在字段命名不规范、口径不统一、算法不一致的问题。
在开发阶段,面向各业务线烟囱式的开发,造成数据重复且不可信。
在上线后维护阶段,任务难以下线,且当源业务系统或业务自身发生变化时,难以及时反映到数据中。
从支撑业务及时性和有效性上,数据部门开发周期长、效率低、服务响应速度慢;同时任务链冗长,导致计算资源紧张,数据时效性不能满足业务需求。
(2)成本上的不合理消耗
计算存储资源的浪费:
大数据作为新时代的能源和生产力,大家都认识到大数据的价值,可是一旦应用大数据,数据就会以指数级甚至更快的速度增长。如果不通过合理的数据构建方式,在数据还没来得及产生业务价值时,计算和存储资源很快会吃掉企业的绝大部分利润。
人力资源的浪费:
数据研发人员绝大部分的时间都消耗在临时取数和数据咨询上。在这种情况下,研发人员很难有时间考虑优化任务,更不用说思考如何为业务赋能。
因此如何用更合理的方式来缓冲业务变化对数据模型的冲击、有效避免数据的重复计算和存储、合理的对数据进行生命周期管理是企业急需解决的问题。
(3)数据难以管理
下图是阿里巴巴在未建设数据中台时,各个数据团队建设数据任务在云计算环境的关系图(每个圆形代表一条业务线的任务集合,圆形之间的连线代表两者之间的引用):
可以看出,数据处理流向是混乱的、无方向性的,导致数据管理基本处于失控状态。当需要追溯数据质量问题源头、对任务进行优化或下线时,都完全无从下手。
基于以上业务背景,阿里巴巴数据中台团队通过实战沉淀的OneModel方法论构建的数据公共层,力求让业务和技术人员都能满意,数据能更好的赋能业务。
经过阿里巴巴数据中台团队的不断探索和演进,已将OneModel方法论的精华沉淀到数据中台产品Dataphin中,让所有的企业都能绕过阿里巴巴建设数据中台所走过的坑,构建企业既“快”且“准”的“全”“统”“通”的云上数据中台。
结语:
阿里巴巴数据中台团队,致力于输出阿里云数据智能的最佳实践,助力每个企业建设自己的数据中台,进而共同实现新时代下的智能商业!
阿里巴巴数据中台解决方案,核心产品:
Dataphin,以阿里巴巴大数据核心方法论OneData为内核驱动,提供一站式数据构建与管理能力;
Quick BI,集阿里巴巴数据分析经验沉淀,提供一站式数据分析与展现能力;
Quick Audience,集阿里巴巴消费者洞察及营销经验,提供一站式人群圈选、洞察及营销投放能力,连接阿里巴巴商业,实现用户增长。
欢迎志同道合者一起成长!更多内容详见数据中台官网 https://dp.alibaba.com