SparkSQL总结

RDD、DataFrame、Dataset的区别

  • 在RDD中,可以知道每个元素的具体类型,可以说将每一个用户数据封装为Person类型,RDD每个元素都是Person类型
  • DataFrame spark2.0已弃用,DF中每一行数据的包装类型是不允许被自定义的,统一为ROW类型
  • Dataset是强类型数据,在数据插入之前就可以越低存入的对象,既可以明确的知道每行数据的具体类型,并且每列有字段名也有字段类型;更符合面向对象编程,便于使用lambda函数

 

上一篇:oracleSQL 转 SPARKSQL(hiveSql) 及常用优化


下一篇:大数据之sparksql常用函数