您当前的位置：首页 > 段智华大数据

大数据Spark “蘑菇云”行动第101课：Hive性能调优之企业级数据倾斜解决方案及对Job数目的优化

段智华发布时间：2016-12-19 20:46:26 ，浏览量：4

set hive.map.aggr=true;

set hive.groupBy.skewindata=true;

select * from logs a join users b on a.userid = b.userid

首先把userid=-1的值先保存到HDFS上，然后专门启动一个MapJoin来进行userid=-1的计算

set hive.optimize.skewjoin=true;

set hive.skewjoin.key=100000

select a.* from
(select a.* from (select * from logs where userid = -1) a join (select * from users where userid = -1) b on a.userid = b.userid
union all
select a.* from logs a join users b on a.userid 0 and a.userid = b.userid) tmp;

set hive.exec.parallel=true;

关注

打赏

查看更多评论

段智华

暂无认证

4浏览

0关注

1232博文

0收益
0浏览

0点赞

0打赏

0留言

私信

关注

热门博文

[ 申请 ]友情链接：

优质稳定机场推荐绘画宝宝配音宝宝

立即登录/注册

微信扫码登录