大数据Spark “蘑菇云”行动第48课程 Spark 2.0内幕深度解密和学习最佳实践
观点1:从Spark 2.0开始,Spark本身成为了编译器
90%左右都是在基于Hive做SQL多维度数据分析,现在的主要的潮流是Spark SQL+Hive;
Structured Streaming是Spark 2.x功能上最让人兴奋的变化
CPU更加有效的利用:第48课程 Spark 2.0内幕深度解密和学习最佳实践
CPU更加有效的利用: a new technique called whole stage code generation.
CPU浪费时间的地方主要有两处:第一:Virtual function call的调用;第二:CPU要基于内存读写数据也会花费大量的时间消耗;
Loop Unrolling for循环 SIMD