[hadoop读书笔记] 第四章 Hadoop I/O操作

P92 压缩

[hadoop读书笔记] 第四章 Hadoop I/O操作

[hadoop读书笔记] 第四章 Hadoop I/O操作

[hadoop读书笔记] 第四章 Hadoop I/O操作

[hadoop读书笔记] 第四章 Hadoop I/O操作

P102 序列化

序列化:将结构化对象转为字节流便于在网上传输或写到磁盘进行永久性存储的过程

用于进程之间的通信或者数据的永久存储

反序列化:将字节流转为结构化对象的逆过程

Hadoop中的序列化:在Hadoop中,系统中多个节点上进程间的通信是通过远程过程传输RPC来实现的。

RPC协议将消息序列化成二进制流后发送到远程节点,远程节点接着将二进制流反序列化成原始信息。

Avro:一个独立于编程语言,并基于 IDL的序列化框架,非常适合用于Hadoop的大规模数据处理

上一篇:svn中给个地址,然后把自己建立的项目拖进去


下一篇:Spark(十二)【SparkSql中数据读取和保存】