前言
本次实战营活动地址,点击直达——《上云第一课 云起冬季实战营》
不知不觉,来到最后一期了。上一期学习了容器相关的知识,本期要学习的是大数据相关的内容。先是学习了如何基于EMR集群进行离线数据分析,然后学习了Elasticsearch,学习如何利用Elasticsearch快速搭建智能运维系统。第三天学习了如何使用PAI基于协同过滤算法实现商品推荐。在最后的两次直播中,分别学习了如何利用湖仓一体架构快速搭建企业数据中台以及如何基于Elasticsearch+Flink进行日志全观测的实践。
2月28日 动手实战-基于EMR离线数据分析
本实验免费提供EMR集群,基于EMR集群进行离线数据分析。
体验感受
通过本次实验,我学会了以下内容:
- 什么是EMR——E-MapReduce云原生开源大数据平台
- 登录EMR集群终端
- 将自建数据上传到HDFS
- 使用hive创建数据表
- 从hadoop文件系统加载数据到hive数据表
- 使用hive对数据表进行查询
这个实验让我对EMR产品有了一个初步的了解。EMR提供了高性能、稳定版本的开源大数据组件,可以根据场景灵活搭配使用。而且进行了多引擎性能优化,保证数据可靠的同时,大幅提升了性能。在实际的使用中,阿里云控制台可以方便地对集群、节点以及服务进行监控和运维的操作。阿里云的很多产品都具备对资源进行弹性调整的能力,EMR集群也不例外,用户可以灵活调整集群资源,而且因为集群资源有自动按需匹配、按实际使用量付费的设计,在资源灵活调整的同时,也会减少用户因资源浪费而造成的额外开销。
3月1日 动手实战-使用阿里云Elasticsearch快速搭建智能运维系统
通过创建登录阿里云Elasticsearch集群,使用Beats采集器收集ECS上的系统数据和Nginx服务数据,配置基础的指标分析看板,简单展示数据采集、分析的过程和操作方式。
体验感受
通过本次实验,我学会了以下内容:
- 阿里云Elasticsearch集群创建登录的基础操作
- 使用Kibana为阿里云ES实例开启自动创建索引功能
- 使用Metricbeat采集ECS上的系统数据
- 使用Filebeat采集ECS上的Nginx服务数据
这个实验创建资源的过程可以说是相当漫长了。这是我第一次接触Elasticsearch相关的知识。通过查阅官方介绍了解到,阿里云Elasticsearch兼容开源ELK功能,提供免运维全托管服务的弹性云搜索与分析引擎,致力于数据库加速、数据分析、信息检索、智能运维监控等场景服务。独有的云原生高性能内核、达摩院NLP分词、向量检索、智能运维、免费X-Pack高级商业特性等能力,可以全面提升企业应用效率,降低成本。它的优势主要体现在六个方面:快速数据接入、弹性低成本、海量数据存储、自研高性能内核、集群智能运维以及开源生态兼容。就我本次的实际使用体验来说,无论是Kibana还是Metricbeat,界面都特别友好,创建索引和采集数据的操作过程也都很好上手。Kibana的UI配色给人一种很高端的感觉,我很喜欢。
3月2日 动手实战-推荐系统入门之使用协同过滤实现商品推荐
本场将介绍如何使用PAI基于协同过滤算法实现商品推荐。
体验感受
通过本次实验,我学会了以下内容:
- 开通机器学习PAI服务
- 创建PAI Studio项目
- 创建实验
- 查看实验数据
- 运行实验
- 查看实验结果
首先,在做这个实验之前,有必要了解一下什么是协同过滤。协同过滤算法是一种基于关联规则的算法。以购物行为为例,如果用户甲和用户乙都购买了商品A和商品B,则可以假定用户甲和用户乙的购物品味相似。当用户甲购买了商品C,而用户乙未购买时,可以将商品C推荐给用户乙,这就是经典的User-Based,即以User的特性为关联。也就是说以其他特性作为关联规则,也可以得到不同的关联结果,挖掘出看似毫不相关的两个或者多个对象之间暗含的联系。PAI Studio的可视化做得很棒,它便捷的可视化功能使我想起了一个名字叫作Scratch的编程学习软件,同样是拖拽各种模块,就能构成一个复杂的程序。还有让普通人也可以轻松使用机器学习处理数据的开源软件Orange。这一类软件共有的特点就是流程直观,以及允许用户低代码甚至无代码构建整个过程,并且对新人特别友好。要什么功能就拿什么,执行顺序直接用箭头连接就可以,这样真的大大降低了操作难度,使得用户更加专注在步骤的正确性和结论的分析上,省去了很多调试代码修正BUG的时间。
3月3日 19:00 直播带练
利用湖仓一体架构快速搭建企业数据中台。
体验感受
通过观看本次直播,我学习了以下内容:
- 什么是数据中台
- 为什么要构建数据中台
- 湖仓一体架构要解决的问题是什么
- Delta Late和hudi是什么
- 如何基于Delta Lake或hudi存储机制实现湖仓一体
根据直播中老师的介绍,在湖仓一体架构出现之前,目前越来越多的企业因为内部不同的业务属性,技术人员自身的技术体系,采用了不同的技术架构和数据平台,比如有的部门基于Hadoop生态系统搭建自的数据平台,有的则用了云原生的系统,这种烟囱式的发展造成了数据割裂。数据中台的出现就是为了打破数据割裂的局面。湖仓一体架构的作用是,打通现有的数据平台,再逐渐整合统一元数据、权限、数据治理等更多的需求。湖仓一体架构发布以来,已经在一定程度上解决了企业中异构数据平台如何共存的问题,使基于不同的平台构建统一的数据中台成为可能。如今,如何通过实时变化的数据及时得到业务反馈成为越来越多企业关注的重点。
本次的实践分为五步:
- 在RDS准备数据源
- DLF全托管数据入湖,使用Delta Lake或hudi的格式将数据归档到OSS上
- 在MaxCompute中查询数据
- 向RDS中新增数据,在MaxCompute中校验数据
- 在RDS中更新数据,在MaxCompute中校验数据
看过了老师的演示,主要收获还是在这个湖仓一体架构的设计思维上。阿里云的产品,配置步骤自然不用多说,简单好用。主要是企业有整合数据的需要,还要面对架构上的困扰。安排专人专项负责数据同步会产生巨大的工作量;训练数据体量大会因耗时多而无法满足实时训练的要求;新写的SQL数据处理query无法复用Hive SQL原有的query,也造成了额外的工作量。感觉湖仓一体架构就是顺应需求顺应时代而产生的。
3月4日 19:00 直播带练
冬季实战营第五期:轻松入门学习大数据,第五日直播带练——
《基于Elasticsearch+Flink的日志全观测最佳实践》
讲师/嘉宾简介:
钱雨欣(沐泽)——阿里云高级产品经理
黄睿(晟柏)——阿里云产品经理
体验感受
通过观看本次直播,我学习了以下内容:
- 什么是全观测
- 传统运维存在哪些问题
- 全观测场景的技术难点和对应的解决方案
- 时序日志场景的痛点
- 全链路日志分析与监控ELK技术难点
- 全观测解决方案的构成
- 什么是实时计算Flink版
- 阿里云Elasticsearch日志增强特性
通过直播中两位老师的讲解,我了解到,传统运维下,容易形成数据孤岛,数据分散在不同部门,分析排查故障特别困难;多个厂商用到了多种工具,无法进行自动化统一分析;故障是立体的,日志、指标等都只能看到一方面的可观察性;只进行收集,没有真正深入分析,不能发挥大数据的价值。而全观测是对传统运维的改进,将日志、指标、APM数据汇总在一个平台,让运维、开发、业务人员对所有的数据从统一视角进行观察分析,建立统一的可视化视图、对其时间、过滤条件;建立统一的基于规则的监控和告警;建立统一的机器学习的智能监控和告警。而云上ELK+Flink全观测解决方案提供了解决全观测场景面临的痛点的能力——使用Beats获取日志以及指标;使用实时计算Flink提供完整的流式SQL能力;云上ES写入托管;低成本数据存储;日志分析、指标监控、APM能力齐全;开源生态具备强大的可扩展性。两位老师最后举了两个企业案例来展示日志全观测的实际应用,看过之后,感觉本次内容和前一天的内容都有一个共同的特点——整合汇总。湖仓一体是对数据平台的打通,日志全观测则是对日志、指标、APM数据的汇总。它们都为企业的工作带来了极大的便捷。
总结
最后一期也过得很快。这期学习了大数据的相关知识,先是学习了基于EMR进行离线数据分析,接着学习了如何使用阿里云Elasticsearch搭建智能运维系统。第三天学习了如何使用协同过滤实现商品推荐,使用到了阿里云的PAI Studio,体验了便捷的可视化功能。最后的两场直播里,学习了如何基于Delta Lake或hudi存储机制实现湖仓一体以及基于Elasticsearch+Flink的日志全观测的有关内容。这期内容安排得十分饱满,最后一天更像是对全观测场景的一个系统学习。本期的实验场景大都比较复杂,相比前几期来说,本期的知识更加贴近企业中实际的生产环境,直播中更是给出了几个现实中的企业案例以供参考。通过本期的学习,我对大数据的一些知识也有了系统的了解,收获颇丰。
到这里,云起冬季实战营的五期内容就全部结束了。这几十天的学习历程,极大地拓宽了我的知识面,让我有了很大收获。期待下一次这样的活动。完结撒花!