随着大数据时代的到来,传统的编程模型或数据存储很难满足企业的应用和扩展,所以 Mapreduce 和 Spark 等平行计算框架应运而生。
本篇英文论文通过三个由浅入深的具体实例对比 Hadoop 和 Spark 在大数据应用中运行时间,从而观察这些实例随着的迭代计算次数的增加,其时间性能比率的变化和趋势,并深入探索其中缘由。
同时,您还将从这篇论文中深入了解到:
- Hadoop 和 Spark 的系统组成及运行架构;
- Hadoop 和 Spark 的运行原理及算法;
- Hadoop 和 Spark 的生态系统特点;
- 怎样逐步调优 Hadoop 和 Spark 的系统性能,例如数据压缩类型,内存分配控制,数据分割等手段;
- 三个具体实例(含源码)怎样在 Hadoop 和 Spark 中运行。
阅读全文: http://gitbook.cn/gitchat/activity/5d48f8d60b3c014c980e80b8
您还可以下载 CSDN 旗下精品原创内容社区 GitChat App ,阅读更多 GitChat 专享技术内容哦。