5月24日在阿里北京望京中心举办了一次阿里云MVP学院大数据专场活动,邀请了阿里云和优酷的技术专家进行了三场主题演讲,上周介绍了一部分令我印象深刻的内容,这周分享下半部分,这一部分内容主要聚焦阿里云大数据最佳实践相关的内容。
传统数仓到大数据分析的区别
我们知道传统的数据仓库已经发展了几十年,今天讲的大数据和传统数仓有什么区别?
- 样本与全量、这里我有一点看法是虽然今天的大数据处理技术有能力处理全量数据,但也并不意味着可以无节制的收集数据,阿里云的原数据委员会主席车品觉曾经在《决战大数据:驾驭未来商业的利器》中写道:
当时,我们犯了一个直到现在才发觉的错误。那就是我们的做法跟一些美国公司的想法一致,即“不管怎么样,我们先收集数据,将来肯定有用”。我觉得,在我职业生涯的这些年,最值得反思的就是这句话。因为没有一家公司可以让你无止境的收集数据,然后再使用,这根本是不现实的。
- 解释与预测、一个着眼于事后,一个着眼于事前。
- 支撑与驱动、主动与被动的区别。
- 知与行、很多道理大家都懂,假如没有做,就是零。
大数据项目的阶段性风险
阿里云的大数据产品经理总结了导致大数据项目失败的阶段性风险:
在大数据项目的建设初期(6-12个月),成本超支、性能不足、数据安全问题无法解决、分析效率满足不了业务需求是项目失败的主要原因。
为了避免失败,就需要进行及时的治理和优化,解决成本、性能、数据安全、分析效率的问题。
在项目建设后期(20-24个月),假如不能很好的表达业务价值,大数据系统将很容易变成成本中心,随着人员流动,系统将变成黑盒而无法修改,进而无法跟随业务的需求而持续进化,最终各种风险逐渐失控而失败。
如果不想坠入万劫不复,就需要对系统进行比较大的转型再造。
数据的资产化
数据的资产化可以让大数据平台的价值呈现出来;
数据的资产化可以成为大数据平台治理的依据;
所以必须进行数据的资产化,要建立元数据体系:
- 数据元数据、可能包括基础元数据、主题元数据、应用元数据
- 规范元数据、可能包括指标元数据、模型元数据
- 服务元数据、可能包括表服务元数据、API服务元数据
数据的正确性和及时性
阿里巴巴研究员分享了一个大数据相关的概念:“沉默的正确性”。
是说大数据的计算成本是如此的高昂,以至于很难进行第二次计算,假如仅进行一次计算又怎么能够证明你拿到的结果是正确的呢?
阿里巴巴的解决方案是被称为DQC(数据质量中心)的一个体系,就是在主任务之外用来检查数据计算的逻辑是否正确的任务。如果要在将大数据实际应用到生产环境,就必须要解决数据的质量问题,要解决数据的质量问题就必须首先假定数据的质量是不稳定的。
和数据的正确性同样重要的是数据的及时性,如果组织的业务已经和大数据的产出息息相关,就必须能够保证数据在确定的时间产出。阿里用来保障数据产出及时性的工具叫做“摩萨德”,只要系统评估数据的产出可能会延迟就会自动报警通知相关人员进行及时处理。因为报警和处理通常要发生在晚上,因此针对这个数据的统计也被称为起夜率。