MLlib算法简介

之前Mahout或者自己写的MR来解决复杂的机器学习,导致效率低,Spark特别适合迭代式的计算,这正是机器学习算法训练所需要的,MLlib是基于spark之上算法组件,基于spark平台来实现。

 

主要的机器学习的算法目前在MLlib中都已经提供了,分类回归、聚类、关联规则、推荐、降维、优化、特征抽取筛选、用于特征预处理的数理统计方法、以及算法的评测。

 

 

 

以上是目前spark1.3支持的算法包,相比较之前的版本增加了新的算法,主题模型LDA,高斯混合模型GMM,FP-Growth关联规则等,当然还有其他一些算法性能方面的提升等等。

相关文章

1.SparkStreaming是什么?SparkStreaming是SparkCore的扩展A...
本篇内容介绍了“Spark通讯录相似度计算怎么实现”的有关知识...
本篇文章给大家分享的是有关如何进行Spark数据分析,小编觉得...
本篇内容主要讲解“Spark Shuffle和Hadoop Shuffle有哪些区别...
这篇文章主要介绍“TSDB的数据怎么利用Hadoop/spark集群做数...
本篇内容介绍了“Hadoop与Spark性能原理是什么”的有关知识,...