冬季实战营第五期学习报告

2024-02-17 10:56:28

第一天基于EMR离线数据分析

本实验免费提供EMR集群，基于EMR集群进行离线数据分析。

体验收获

登录EMR集群。
上传数据到HDFS。
使用hive创建表，并从hadoop文件系统加载数据。

背景知识

E-MapReduce（简称“EMR”）是云原生开源大数据平台，向客户提供简单易集成的Hadoop、Hive、Spark、Flink、Presto、Clickhouse、Delta、Hudi等开源大数据计算和存储引擎。EMR计算资源可以根据业务的需要调整。EMR可以部署在阿里云公有云的ECS和ACK、专有云平台。产品文档地址：https://www.aliyun.com/product/emapreduce

产品优势

开源生态：提供高性能、稳定版本Hadoop、Spark、Hive、Flink、Kafka、HBase、Presto、Impala、Hudi等开源大数据组件，客户可根据场景灵活搭配使用

引擎优化：多引擎性能优化，如Spark SQL较开源版本提升6倍。采用JindoFS+OSS，保证数据可靠性基础上，性能大幅提升

码农公寓

第一天 基于EMR离线数据分析

背景知识

相关文章

第一天基于EMR离线数据分析