spark比mapreduce快的原因

1、spark基于有向无环图DAG生成执行计划,他属于1个改进版的MapReduce,降低了很多不必要的shuffle次数,减少了节点之间的数据交换和磁盘IO,中间无需落盘。针对反复使用的数据可以进行内存cache提高加载使用效率

2、spark基于内存,窄依赖任务的数据都在内存中进行交换

3、spark任务启动时会把需要的内存一次性申请到位才真正运行,而mr是更细的粒度,每个子任务真正运行时才申请内存如果申请不到会等待,也会造成延时

上一篇:spark.storage.memoryFraction 参数的含义, 实际生产中如何调优


下一篇:从链家爬取北京各区二手房房价进行分析并实现数据可视化