这一次,开发者社区为正在“宅家办公”的小伙伴们献上福利~这次的合集整理了一些比较受开发者欢迎的关于大数据技术领域的优质文章。
不管是初涉该领域,还是已经有一定了解,相信都能从文章中获益。大家快来学习吧~
1. 数据工程师必须掌握的7个大数据实战项目
- 值得收藏,数据工程师必须掌握的7个大数据实战项目
2. 阿里云大数据+AI技术沙龙上海站回顾 | 揭秘TPC-DS 榜单第一名背后的强大引擎
- 11月16日的大数据+AI沙龙上海站取得圆满成功! EMR 团队在国内运营最大的 Spark 社区,为了更好地传播和分享业界最新技术和最佳实践,现在联合开源社区同行,打造一个纯粹的技术交流线下沙龙《大数据 + AI》,定期为大家做公益分享。本次分享,揭秘TPC-DS 榜单第一名背后的强大引擎,探索Pyboot如何打通大数据生态,一同学习业内最新的存储方案和机器学习平台。
3. 数字化与数据中台的价值思考——徐季秋
- 数据中台是指通过数据技术,对海量数据进行采集、计算、存储、加工,同时统一标准和口径。数据中台把数据统一之后,会形成标准数据,再进行存储,形成大数据资产层,进而为客户提供高效服务。 狭义的数据中台单指数据技术,比如对海量数据进行采集、计算、存储、加工的一系列技术集合,时下我们谈到的数据中台还包括数据模型,算法服务,数据产品,数据管理以及方法论。 本篇主要从传统企业数字化转型的角度,浅析了数字中台的价值。
4. 【精品问答】大数据计算技术1000问
- 开发者社区策划了大数据计算技术1000问内容,包含Flink、Spark等流式计算(实时计算)、离线计算、Hbase等实践中遇到的技术问题和面试问题等维度内容。
5. 如何分析及处理 Flink 反压?
- 反压(backpressure)是实时计算应用开发中,特别是流式计算中,十分常见的问题。反压意味着数据管道中某个节点成为瓶颈,处理速率跟不上上游发送数据的速率,而需要对上游进行限速。
6. 开放下载!《阿里巴巴大数据及AI实战》深度解析典型场景大数据实践
- 深度剖析淘宝、高德、友盟+、1688、优酷、阿里妈妈、阿里影业大数据实战场景,2020不容错过的企业大数据实战手册。
7. 独家下载 |《大数据工程师必读手册》揭秘阿里如何玩转大数据
- 阿里巴巴如何玩转大数据?十位阿里巴巴大数据专家深度分析 ,飞天大数据平台八款产品最新玩法,2019不容错过的大数据手册——《大数据工程师必读手册》现在可以免费下载阅读啦,赶紧先睹为快吧。
8. 独家下载 |《大数据工程师必读手册》揭秘阿里如何玩转大数据
- 阿里巴巴如何玩转大数据?十位阿里巴巴大数据专家深度分析 ,飞天大数据平台八款产品最新玩法,2019不容错
9. 带你读《Apache Kylin权威指南》之一:Apache Kylin概述
- 从最早使用大数据技术来做批量处理,到现在越来越多的人要求大数据平台也能够如传统数据仓库技术一样支持交互式分析,随着数据量的不断膨胀、数据平民化的不断推进,低延迟、高并发地在Hadoop之上提供标准SQL查询能力成为必须攻破的技术难题。而Apache Kylin的诞生正是基于这个背景,并成功地完成了很多人认为不可能实现的突破。
10. 带你读《Apache Kylin权威指南》之二:快速入门
- 本章介绍了使用Apache Kylin前必须了解的基本概念,如星形数据模型、事实表、维表、维度、度量等,并在了解这些基本概念的基础上快速创建了基于Sample Data的模型,构建Cube,最后执行SQL查询。带领读者体验了Apache Kylin的主要使用过程。
11. 带你读《Apache Kylin权威指南》之三:Cube优化
- 本章从多个角度介绍了Cube的优化方法:从Cuboid剪枝的角度、从并发粒度控制的角度、从Rowkey设计的角度,还有从度量精度选择的角度。总的来说,Cube优化需要Cube管理员对Kylin有较为深刻的理解和认识,这也无形中提高了使用和管理Kylin的门槛。
12. 贾扬清谈大数据&AI发展的新挑战和新机遇
- 2019云栖大会大数据&AI专场,阿里巴巴高级研究员贾扬清为我们带来《大数据AI发展的新机遇和新挑战》的分享。本文主要从人工智能的概念开始讲起,谈及了深度学习的发展和模型训练,以及数据的爆发增长,着重阐述了算法、数据和算力的闭环。
13. 大数据团队从0到1
- “大数据”这个词,大家都已经不陌生了,已经从一个新兴的词汇变成了一个百姓茶余饭后都会聊到的概念。各种大大小小的互联网公司也都会创建自己的大数据团队,我也曾经在多家公司从事过大数据领域的开发和团队管理工作,这里写一下我自己的经历和感受。
14. 详解阿里云数据中台,一篇文章全面了解大数据“网红”
- 一直想写一篇关于数据中台正面文章,现在有闲时做些总结,想充分诠释一下DT内部人如何看待数据中台。 数据中台的概念是最早由阿里巴巴首次提出,是为了应对内部众多业务部门千变万化的数据需求和高速时效性的要求而成长起来的,它既要满足业务部门日常性的多个业务前台的数据需求,又要满足像双十一,六一八这样的业务高峰、应对大规模数据的线性可扩展问题、应对复杂活动场景业务系统的解耦问题,而在技术、组织架构等方面采取的一些变革。
15. 大数据人才培养经验分享
- 总结了一下过去5年在各个高校进行大数据人才培养的经验。