冬季实战营第五期学习报告1：基于EMR离线数据分析

2021-07-12 22:24:15

简介
数据量爆发式增长的今天，数字化转型成为IT行业的热点，数据需要更深度的价值挖掘，应对未来不断变化的需求。海量离线数据分析可以应用于多种商业系统环境，例如电商海量日志分析、用户行为画像分析、科研行业的海量离线计算分析任务等场景。

本场景将通过开通登录EMR Hadoop集群，简单进行hive操作，使用hive对数据进行加载，计算等操作。展示了如何构建弹性低成本的离线大数据分析。

背景知识
E-MapReduce（简称“EMR”）是云原生开源大数据平台，向客户提供简单易集成的Hadoop、Hive、Spark、Flink、Presto、Clickhouse、Delta、Hudi等开源大数据计算和存储引擎。EMR计算资源可以根据业务的需要调整。EMR可以部署在阿里云公有云的ECS和ACK、专有云平台。产品文档地址：https://www.aliyun.com/product/emapreduce

产品优势

开源生态：提供高性能、稳定版本Hadoop、Spark、Hive、Flink、Kafka、HBase、Presto、Impala、Hudi等开源大数据组件，客户可根据场景灵活搭配使用

引擎优化：多引擎性能优化，如Spark SQL较开源版本提升6倍。采用JindoFS+OSS，保证数据可靠性基础上，性能大幅提升

便捷运维：在阿里云控制台和OpenAPI方便地对集群、节点和服务进行监控和运维操作。助您大幅提升运维工作效率，让数据工程师更专注于业务开发

节约成本：集群资源可自动按需匹配，您只需要按实际使用量付费，减少资源浪费成本。支持阿里云抢占式实例、预留实例券（RI），进一步降低成本

弹性资源：可以灵活调整集群资源，在数分钟内创建出基于云服务器 ECS、容器 ACK的集群，快速响应业务需求

安全可靠：通过 VPC 和安全组设置集群网络安全策略，支持Kerberos身份认证和数据加密，使用Ranger数据访问控制。支持数据加密，保证数据安全

体验过程

创建资源
登陆集群
上传数据到HDFS
使用hive创建表
对表进行操作

体验收获
体验此场景后，可以掌握的知识：
1.EMR集群的基本操作，对EMR产品有初步的了解
2.EMR集群的数据传输和hive的简单操作，对如何进行离线大数据分析有初步的掌握

码农公寓

相关文章