1、spark基于有向无环图DAG生成执行计划,他属于1个改进版的MapReduce,降低了很多不必要的shuffle次数,减少了节点之间的数据交换和磁盘IO,中间无需落盘。针对反复使用的数据可以进行内存cache提高加载使用效率
2、spark基于内存,窄依赖任务的数据都在内存中进行交换
3、spark任务启动时会把需要的内存一次性申请到位才真正运行,而mr是更细的粒度,每个子任务真正运行时才申请内存如果申请不到会等待,也会造成延时
2023-12-30 08:47:10
1、spark基于有向无环图DAG生成执行计划,他属于1个改进版的MapReduce,降低了很多不必要的shuffle次数,减少了节点之间的数据交换和磁盘IO,中间无需落盘。针对反复使用的数据可以进行内存cache提高加载使用效率
2、spark基于内存,窄依赖任务的数据都在内存中进行交换
3、spark任务启动时会把需要的内存一次性申请到位才真正运行,而mr是更细的粒度,每个子任务真正运行时才申请内存如果申请不到会等待,也会造成延时