spark比mapreduce快的原因

2023-12-30 08:47:10

1、spark基于有向无环图DAG生成执行计划，他属于1个改进版的MapReduce，降低了很多不必要的shuffle次数，减少了节点之间的数据交换和磁盘IO，中间无需落盘。针对反复使用的数据可以进行内存cache提高加载使用效率

2、spark基于内存，窄依赖任务的数据都在内存中进行交换