您当前的位置: 首页 >  段智华 大数据

大数据Spark “蘑菇云”行动第82课:Spark机器学习本质思考及案例初体验

段智华 发布时间:2016-11-22 20:51:00 ,浏览量:3

大数据Spark “蘑菇云”行动第82课:Spark机器学习本质思考及案例初体验




逻辑回归 a b 男还是女 垃圾邮件 合格 还是不合格
线性回归  多个


ALS是机器学习最重要的算法!!


机器学习水平的高低:水平体现在2个方面:
1,标签的选取;2,参数的调优


类似数码相机: 选景、参数选取 


K-means is one of the most commonly used clustering algorithms that clusters the data points into a predefined number of clusters. 




import org.apache.spark.mllib.clustering.{KMeans, KMeansModel}
import org.apache.spark.mllib.linalg.Vectors


// Load and parse the data
val data = sc.textFile("data/mllib/kmeans_data.txt")
val parsedData = data.map(s => Vectors.dense(s.split(' ').map(_.toDouble))).cache()


// Cluster the data into two classes using KMeans
val numClusters = 2
val numIterati
关注
打赏
查看更多评论

段智华

暂无认证

  • 3浏览

    0关注

    1232博文

    0收益

  • 0浏览

    0点赞

    0打赏

    0留言

私信
关注
热门博文
立即登录/注册

微信扫码登录