RDD、DataFrame、Dataset的区别
- 在RDD中,可以知道每个元素的具体类型,可以说将每一个用户数据封装为Person类型,RDD每个元素都是Person类型
- DataFrame spark2.0已弃用,DF中每一行数据的包装类型是不允许被自定义的,统一为ROW类型
- Dataset是强类型数据,在数据插入之前就可以越低存入的对象,既可以明确的知道每行数据的具体类型,并且每列有字段名也有字段类型;更符合面向对象编程,便于使用lambda函数
2024-03-30 22:46:09
RDD、DataFrame、Dataset的区别