关于轻松入门学习大数据这件事

一、实际场景

数据量爆发式增长的今天,数字化转型成为IT行业的热点,数据需要更深度的价值挖掘,对未来不断变化的需求。海量离线数据分析可以应用于多种商业系统环境,例如电商海量分析、用户行为画像分析、科研行业的海量离线计算分析任务等场景。

二、实战

1、基于EMR离线数据分析

(1)基本名词解释

E-MapReduce(简称“EMR”)是云原生开源大数据平台,向客户提供简单易集成的Hadoop、Hive、Spark、Flink、Presto、Clickhouse、Delta、Hudi等开源大数据计算和存储引擎。

通过这一个场景开通登录EMR Hadoop集群,简单进行hive操作,使用hive对数据进行加载,计算等操作。展示了如何构建弹性低成本的离线大数据分析。

(2)结果展示

关于轻松入门学习大数据这件事

2、使用阿里云Elasticsearch快速搭建智能运维系统

(1)名词解释

阿里云Elasticsearch兼容开源ELK功能,提供免运维全托管服务的弹性云搜索与分析引擎,致力于数据库加速、数据分析、信息检索、智能运维监控等场景服务;独有的云原生高性能内核、达摩院NLP分词、向量检索、智能运维、免费X-Pack高级商业特性等能力,全面提升企业应用效率,降低成本。

(2)结果展示

关于轻松入门学习大数据这件事

3、推荐系统入门

(1)应用背景

很多时候看似不相关的两种产品,却会存在这某种神秘的隐含关系,获取这种关系将会对提高销售额起到推动作用,然而有时这种关联是很难通过经验分析得到的。这时候我们需要借助数据挖掘中的常见算法-协同过滤来实现。这种算法可以帮助我们挖掘人与人以及商品与商品的关联关系。

(2)结果展示

关于轻松入门学习大数据这件事

三、感悟

数据量爆发式增长的今天,数字化转型成为IT行业的热点,数据需要更深度的价值挖掘,应对未来不断变化的需求。海量离线数据分析可以应用于多种商业系统环境,例如电商海量日志分析、用户行为画像分析、科研行业的海量离线计算分析任务等场景。

上一篇:[转帖]前端-chromeF12 谷歌开发者工具详解 Console篇


下一篇:轻松入门学习大数据学习报告