用puthivestreaming把hdfs里的数据流到hive表

全景图:

用puthivestreaming把hdfs里的数据流到hive表

 

1. 创建hive表

1
2
3
4
5
6
7
CREATE TABLE IF NOT EXISTS newsinfo.test(
  name STRING
)
CLUSTERED BY (name)INTO 3 BUCKETS
ROW FORMAT DELIMITED
STORED AS ORC
TBLPROPERTIES('transactional'='true');
1
  

2. 这里用了 ReplaceText 生成 json 数据 (正式环境可以直接从hfs里取到)

用puthivestreaming把hdfs里的数据流到hive表

 

3. 用ConvertJSONToAvro 转换json 到avro

用puthivestreaming把hdfs里的数据流到hive表

{ "name": "dtu", "type": "record", "fields":[ { "name":"name","type": "string" } ] }

 

 

4. PutHiveStreaming

用puthivestreaming把hdfs里的数据流到hive表

 

本文转自疯吻IT博客园博客,原文链接:http://www.cnblogs.com/fengwenit/p/5928368.html,如需转载请自行联系原作者

上一篇:【终极解决方案】为应用程序池“XXX”提供服务的进程在与 Windows Process Activation Service 通信时出现严重错误。该进程 ID 为“XXXX”。数据字段包含错误号。


下一篇:IOT Studio Web可视化开发与调用业务逻辑API测试