您当前的位置: 首页 >  大数据

段智华

暂无认证

  • 4浏览

    0关注

    1232博文

    0收益

  • 0浏览

    0点赞

    0打赏

    0留言

私信
关注
热门博文

大数据Spark “蘑菇云”行动补充内容第70课: Spark SQL代码实战和性能调优 4个spark sql调优技巧有用!!!!

段智华 发布时间:2016-10-31 21:28:21 ,浏览量:4

大数据Spark “蘑菇云”行动补充内容第70课: Spark SQL代码实战和性能调优

 

dataframe:

Row是没有类型的,因为Row中的所有成员都被看着Object类型!!!untyped;编译器识别不了类型
 
dataSet:类型不对,编译器立即报错的
 
强烈的建议:Spark处理的数据格式尽量是Json、Parquet、AVRO
 
重要技巧:

先读如文本log,txt,将普通文本保存为Parquet,再读入parquet,效率提高很多。体积更小,效率更高。

registerTable与registerTmptable的区别: registerTmptable只是一个引用 ,一个视图 registerTmptable生命周期和spark sql context一致,spark sql结束了 ,registerTmptable也结束了

 

spark sql调优 :

关注
打赏
1659361485
查看更多评论
立即登录/注册

微信扫码登录

0.0775s