您当前的位置: 首页 >  ar

段智华

暂无认证

  • 2浏览

    0关注

    1232博文

    0收益

  • 0浏览

    0点赞

    0打赏

    0留言

私信
关注
热门博文

Spark视频王家林大神 第7课: Spark机器学习内幕剖析

段智华 发布时间:2018-01-26 21:09:12 ,浏览量:2

Spark视频王家林大神 第7课: Spark机器学习内幕剖析

本节讲解Spark机器学习内幕,Spark机器学习的本质是什么,Spark机器学习的内部构成到底是什么?基于Spark 2.x版本,怎么学习机器学习?这是所有做机器学习的同学都非常关注的。Spark 2.x版本的发布,标志着以Spark为核心的大数据统一计算时代真正的到来。

Spark机器学习的本质是什么?机器学习是数据+算法(迭代),从老师的角度而言,Spark机器学习就是Spark平台之上的函数库,这是一个非常重要的观点。将Spark机器学习看作普通的函数,很多函数构成函数库,机器学习mllib库函数有自己的一套逻辑,以机器学习的方式,机器学习比较特殊,具有迭代性,或基于迭代进行改进等,函数有自己内部的逻辑。这些函数基于RDD/DataFrame/DataSet,以后将全面转向DataSet。

Spark机器学习数据来源,在Spark的最底层肯定是RDD封装的,这个和Spark具体是什么版本没有任何关系,版本的发展只不过提供了更多的更高层的API而已。例如DataFrame/DataSet,而之所以有DataFrame/DataSet等,一般情况下是为了使用统一的优化引擎。在统一的优化引擎基础上,只要优化引擎,引擎上面的所有的子框架都会受益。抽象程度越高,优化算法和空间就越大。(因此越底层越高效的观点,显然是不完善的。)

Spark机器学习的数据来源主要基于RDD。看一下Spark机器学习的官网(

关注
打赏
1659361485
查看更多评论
立即登录/注册

微信扫码登录

0.0496s