您当前的位置: 首页 >  大数据

Spark+HBase 亿级大数据企业实战(下):超级性能优化

蔚1 发布时间:2019-08-05 23:30:07 ,浏览量:3

在上一篇中,我们介绍了 Spark+Hbase 大数据计算的整体设计和开发,包括:

Hbase 的设计和开发,Spark 集群的配置、搭建,定时任务的编写等等。在这篇文章中我们主要着重 Spark 计算程序的编写和优化。本案例中经历了 3 次优化过程,3 亿数据经过查询、分组、聚合、入库从 5 天时间缩短到不到 1 个小时。

在本 Chat 中您将学习到:

  1. Spark SQL 的编写实战(Crossjoin、Groupby 等)
  2. Spark UDF 的编写和使用
  3. Spark 的写 Hbase 超级性能优化方案
  4. 不同方案的优劣
  5. 常见问题 Q&A

本文中含大量实际上线代码,让你拿来就能用,无需再去踩坑。

阅读全文: http://gitbook.cn/gitchat/activity/5d4135931579fc70bd00b830

您还可以下载 CSDN 旗下精品原创内容社区 GitChat App ,阅读更多 GitChat 专享技术内容哦。

FtooAtPSkEJwnW-9xkCLqSTRpBKX

关注
打赏
1688896170
查看更多评论

蔚1

暂无认证

  • 3浏览

    0关注

    4645博文

    0收益

  • 0浏览

    0点赞

    0打赏

    0留言

私信
关注
热门博文
立即登录/注册

微信扫码登录

0.0437s