算子的使用
宝哥大数据 发布时间:2019-03-06 08:02:32 ,浏览量:2
3.1、算子的使用
3.1.1、案例
- mapPartitions
- reduceByKeyAndWindow
- Broadcast变量&Accumulators
- repartition和coalesce的用法
- foreachPartition优化写数据库性能
- reduceByKey和groupByKey的区别
- sortByKey被划分到transformation中,却会触发job
- 将
RDD[Array(T)] ==> RDD[T],使用flatmMap(_.toList) - scala 中使用java的集合类,可能报错
value foreach is not a member of java.util.Set[Array[Byte]], 需要引入import scala.collection.JavaConversions._
因为 Java 集合类型在 Scala 操作时没有 foreach 方法, 所以需要将其转换为Scala的集合类型,
因此需要在代码中加入如下内容(Scala支持与Java的隐式转换),
import scala.collection.JavaConversions._