大数据Spark “蘑菇云”行动第76课: Kafka+Spark Streaming+Redis项目实战
jedis插件 redis
redis.clients
jedis
${jedis.version}
SparkSession是面向DataSet编程的,统一了SQLContext、HiveContext和StreamingContext
SparkContext是面向RDD编程;
DirectStream的操作Kafka direct方式,driver去读数据,不需要将数据读取到driver,再把数据发送executor上计算。
DirectStream的操作Kafka的时候Driver获得的只是Kafka数据的元数据,在实际操作的时候把元数据发给分布式的Executors,Executors根据Driver发过来的Kafka的元数据去Kafka上抓取属于自己要处理的数据部分;
几乎所有的情况下一定要使用DirectStream的方式操作Kafka