在上一篇中,我们介绍了 Spark+Hbase 大数据计算的整体设计和开发,包括:
Hbase 的设计和开发,Spark 集群的配置、搭建,定时任务的编写等等。在这篇文章中我们主要着重 Spark 计算程序的编写和优化。本案例中经历了 3 次优化过程,3 亿数据经过查询、分组、聚合、入库从 5 天时间缩短到不到 1 个小时。
在本 Chat 中您将学习到:
- Spark SQL 的编写实战(Crossjoin、Groupby 等)
- Spark UDF 的编写和使用
- Spark 的写 Hbase 超级性能优化方案
- 不同方案的优劣
- 常见问题 Q&A
本文中含大量实际上线代码,让你拿来就能用,无需再去踩坑。
阅读全文: http://gitbook.cn/gitchat/activity/5d4135931579fc70bd00b830
您还可以下载 CSDN 旗下精品原创内容社区 GitChat App ,阅读更多 GitChat 专享技术内容哦。