SaprkApi常用案例

原文请参考:https://blog.csdn.net/youbitch1/java/article/details/88581251

 

数据混洗:

    因为常常有重复的元素.如果只要唯一的元素,我们可以使用RDD.distinct() 转化操作来生成一个只包含不同元素的新RDD
    不过distinct操作的开销很大,因为数据是通过网络混洗的,后续再继续了解下有没有优化的办法

集合操作:

    union
        返回一个包含两个 RDD 中所有元素的 RDD
        如果输入的RDD中有重复数据,Spark的union()操作也会去除重复数据
    intersection
        只返回两个RDD中都有的元素
        intersection() 在运行时也会去掉所有重复的元素()单个RDD内的重复元素也会一起移除)
        intersection性能比union差,它需要通过网络混洗数据来发现共有的元素

原文链接:https://blog.csdn.net/youbitch1/java/article/details/88581251

SaprkApi常用案例

 

SaprkApi常用案例

上一篇:.Core中使用Swagger并启用API文档的JWT授权


下一篇:windows下下载安装zookeeper