第116课： Spark Streaming性能优化：如何在毫秒内处理处理大吞吐量的和数据波动比较大的程序

段智华发布时间：2016-06-03 21:14:24 ，浏览量：3

第116课： Spark Streaming性能优化：如何在毫秒内处理处理大吞吐量的和数据波动比较大的程序

1 大吞吐量和数据波动比较大的程序
2 Spark streaming中的解决方案

-数据规模非常大，数据的处理会大于batch interval
-数据波动非常大，峰值非常大，让人提心吊胆的地方
办法：加硬件：内存、cpu cores 但要花公司的钱
限流：log日志观察；如双11，限流会损失交易
增加batch的时间，但波峰之外的时间不需要
上述办法都不理想。

唯一的有效的效果显著的办法，不要等待！！什么意思？就是无论batch duration数据大小和处理的复杂度，都会立即完
成当前batch的处理，然后立即去处理下一个batch的任务！！

怎么做？此时既要完成业务计算，又要达到毫秒级别的延迟！
一个可行的办法是：Spark Streaming的业务处理逻辑放在线程池中！！！而绝妙的精彩之处在于Spark Streaming执行的时候业务
逻辑就是以task的方式放在线程池中的。所有可以最大化的复用线程，从而最佳化的使用硬件资源！

模拟代码如下：

Dstream.foreachRDD{rdd =>
rdd.foreachPartition(splite=>{
//业务处理逻辑，如果直

关注

打赏

查看更多评论

第116课： Spark Streaming性能优化：如何在毫秒内处理处理大吞吐量的和数据波动比较大 的程序

[ 申请 ]友情链接：

第116课： Spark Streaming性能优化：如何在毫秒内处理处理大吞吐量的和数据波动比较大的程序