大数据Spark “蘑菇云”行动补充内容第66课: 即将成为Spark未来的Spark SQL
1,与直接基于RDD编程,写Spark SQL代码更少、编写更快、更容易修改和理解;
2,相比于直接进行RDD编程而言,Spark SQL会自动的进行性能优化
3,更有效的使用必要的数据,提高内存的使用价值
所有RDD的API在DataSet中是否都有实现? 算子功能级别的基本都有实现
DataSet是一种OO风格的接口
rdd是一条条的record,jvm java 对象,不同的数据来源读取数据困难,合并数据源也不简单.谓词下推弄不了
dtaframe:DataSet[Row]
dataset 为row的方式,合并数据来源比rdd更方便。
dataset:面向oo风格接口,吸收了rdd 的精髓 , 做类型检查,直接作用在domain对象之上