冬季实战营第五期:轻松入门学习大数据

背景

EMR

EMR是云原生开源大数据平台,向客户提供简单易集成的Hadoop、Hive、Spark、Flink、Presto、Clickhouse、Delta、Hudi等开源大数据计算和存储引擎。EMR计算资源可以根据业务的需要调整。EMR可以部署在阿里云公有云的ECS和ACK、专有云平台。

引擎优化

多引擎性能优化,如Spark SQL较开源版本提升6倍。采用JindoFS+OSS,保证数据可靠性基础上,性能大幅提升。

协同过滤算法

协同过滤算法是一种基于关联规则的算法。以购物行为为例,如果用户甲和用户乙都购买了商品A和商品B,则可以假定用户甲和用户乙的购物品味相似。当用户甲购买了商品C,而用户乙未购买时,可以将商品C推荐给用户乙,这就是经典的User-Based,即以User的特性为关联。

实战内容

动手实战-基于EMR离线数据分析

动手实战-使用阿里云Elasticsearch快速搭建智能运维系统

动手实战-推荐系统入门之使用协同过滤实现商品推荐

直播带练:利用湖仓一体架构快速搭建企业数据中台

直播带练:基于Elasticsearch+Fink的日志全观测最佳实践

收获

通过该期课程,我学会了创建登录阿里云Elasticsearch集群,使用Beats采集器收集ECS上的系统数据和Nginx服务数据,以及配置基础的指标分析看板,简单展示数据采集、分析的过程和操作方式。

上一篇:ie8 iframe去掉边框的属性


下一篇:(期望)A Dangerous Maze(Light OJ 1027)