对于从事机器学习,深度学习的算法工程师来说,传统 Python 的数据处理和并发能力并不是太强 , Python 也没有较好的方式对接与大数据平台以及特征工程的海量数据处理效率较低。PySpark 是 Spark 的 Python API,提供了使用 Python 编写并提交大数据处理作业的接口,既可以很方便的对接与大数据平台,又能够基于 Spark 的内存计算引擎较为高效的处理数据的计算问题。本文从以下方式介绍了算法对接大数据的解决方案(解决了 Scala 或者 Java 无法调用 Python 算法库的相关问题),帮助您掌握 PySpark 的入门为以后的机器学习打下基础,本内容适合具有算法基础或大数据 Spark 基础的小伙伴, 详细内容如下。
本次 PySpark 入门及高级部分内容:
- PySpark的编程入口
- PySpark的 RDD 之 Action 及输出算子详解
- PySpark 的 RDD 之 Transformation 算子及相关知识点详解
- PySpark 的 RDD 之 StorageLevel
- Broadcast 广播变量
- SparkSQL 编程入口 SparkSession
- DataFrame 的创建方式
- DataFrame 和 RDD 的相互转换
- DataFrame 中的 Column 对象
- Row 对象详解
- PySpark 的 Functions 函数模块详解
- PySpark 的 Types 类型详解
- PySpark 读取HDFS中的各种类型文件。
阅读全文: http://gitbook.cn/gitchat/activity/5d31d91aa7fc4f6a7aa541f5
您还可以下载 CSDN 旗下精品原创内容社区 GitChat App ,阅读更多 GitChat 专享技术内容哦。