初识Hadoop
Hadoop与其它系统比较
- 数据库的劣势:磁盘寻址性能低发展慢
- 数据库索引?
- MapReduce适合一次写入,多次读取的应用,关系型数据库适合持续更新的数据集
- Hadoop在处理数据时才对数据进行解释(读时模式),所以对处理非结构化数据有优势
- 传统分布式计算使用规范化数据(完整且无冗余),这就会存在数据的网络传输,当数据量大的时候,带宽就成为分布式计算性能的瓶颈
- Hadoop尽量使用数据本地化,实现数据快速访问,造成的数据冗余不会成为问题,数据本地化是Hadoop的核心特性之一
- MapReduce是一种无共享框架,各个任务之间是独立的,能够监测到失败任务并且重新在正常机器上再次执行