随着 IoT 等行业的快速发展,各种系统对实时流式计算的要求越来越高,比如反作弊等。在过去几年,流式计算一直是以 Spark 的 Spark Streaming 为代表,随着实时性要求越来越高,以及实时计算的基础模型(以 Google Dataflow 为代表)发展,Spark Streaming 已经越来越不能满足很多系统的实时计算要求。
为此 Spark 在 2.3 推出了 Structure Streaming,并与 2018 年的国际会议上放出了 Structure Streaming 的论文。本 Chat 会基于 Sturcture Streaming 的论文和一些代码实践介绍 Spark 的新一代流式系统 Structure Streaming。通过本 Chat 学习,业内人员可以基于 Structure Streaming 编写出效率更高、实时性更好的流式系统;非业内人员也可以对实时计算领域的发展做到一个 overview 的认识。
本 Chat 的主要内容包括:
- 基于微批的 Spark Streaming 的不足
- 新一代流式系统 Spark Structure Streaming 简介
- Structure Streaming 的核心设计
- Structured Streaming 编程模型
- Continuous Processing Mode
- 一致性语义
- Beanchmark
- 总结
阅读全文: http://gitbook.cn/gitchat/activity/5d34163863ec940b34e1bc89
您还可以下载 CSDN 旗下精品原创内容社区 GitChat App ,阅读更多 GitChat 专享技术内容哦。