您当前的位置: 首页 >  大数据

段智华

暂无认证

  • 4浏览

    0关注

    1232博文

    0收益

  • 0浏览

    0点赞

    0打赏

    0留言

私信
关注
热门博文

大数据Spark “蘑菇云”行动补充内容第66课: 即将成为Spark未来的Spark SQL

段智华 发布时间:2016-10-26 20:53:16 ,浏览量:4

大数据Spark “蘑菇云”行动补充内容第66课: 即将成为Spark未来的Spark SQL

 

1,与直接基于RDD编程,写Spark SQL代码更少、编写更快、更容易修改和理解;
 
2,相比于直接进行RDD编程而言,Spark SQL会自动的进行性能优化
 
3,更有效的使用必要的数据,提高内存的使用价值
 
所有RDD的API在DataSet中是否都有实现? 算子功能级别的基本都有实现
 
DataSet是一种OO风格的接口
 
rdd是一条条的record,jvm java 对象,不同的数据来源读取数据困难,合并数据源也不简单.谓词下推弄不了
 
dtaframe:DataSet[Row]
 dataset 为row的方式,合并数据来源比rdd更方便。
 
dataset:面向oo风格接口,吸收了rdd 的精髓 , 做类型检查,直接作用在domain对象之上 
 

关注
打赏
1659361485
查看更多评论
立即登录/注册

微信扫码登录

0.0776s