数仓项目

背景:客户行为数据越积越多,公司有着挖掘客户大数据分析的需求

方案: 通过大数据仓库离线分析+presto引擎工具实现

用到的组件:hadoop2.7.4   、  hive-1.2.1(不要用2.X版本,坑很多)  、  sqoop-1.4.6 、  presto-server

运作流程:

1、sqoop将关系型数据库mysql的数据以分桶文件格式导入hive    sqoop---->hdfs---->hive

2、调优hive的mapreduce参数

3、配置:presto链接hive    安装:presto客户端  使用:通过presto客户端查询所需数据    界面化:提供presto的UI界面,设定好查询SQL,打好标签,供客户使用

 

上一篇:sqoop导入数据遇到的参数问题 ,导出–staging-table


下一篇:sqoop mysql导入hdfs 需要注意的点