spark ml和spark mllib区别

  统计/机器学习 开放问题    浏览次数:442        分享
0

spark里有两个机器学习的库,一个是spark ml另一个是spark mllib。

它们有什么区别啊?如果是入门,学哪个好?

 

chang   2019-01-15 09:38



   5个回答 
7

SparkML更容易上手吧

PySparkML 2.4.0其实就是SparkMLlib2.4.0的Python的API

两者几乎是等价的,PySparkML是基于SparkMLlib之上的

SofaSofa数据科学社区DS面试题库 DS面经

LiShanfei   2019-02-08 13:15

5

在谷歌搜索Spark ML,排行前两名的结果分别是:

  1. MLlib: Main Guide - Spark 2.4.0 Documentation - Apache Spark
  2. Spark ML Programming Guide - Spark 1.2.2 Documentation

在Spark ML的官方文档提到:

Note that we will keep supporting and adding features to spark.mllib along with the development of spark.ml. Users should be comfortable using spark.mllib features and expect more features coming. Developers should contribute new algorithms to spark.mllib and can optionally contribute to spark.ml.

应该是现在主流推荐使用Spark MLlib


SofaSofa数据科学社区DS面试题库 DS面经

dzzxjl   2019-01-17 10:25

现在都是2.4.0版本的 - LiShanfei   2019-02-08 13:16
我之前的回答可能有点片面,推荐LiShanfei的答案 - dzzxjl   2019-03-02 13:43
2

一个是基于pandas的Dataframe数据结构,一个是基于弹性数据集结构的,你可以自己搜一下

好像官方建议使用基于Dataframe

SofaSofa数据科学社区DS面试题库 DS面经

催眠   2019-01-16 10:30

不是基于pandas的DataFrame,是spark DataFrame - AlphaCat   2019-01-26 12:55
1

入门的话,Spark ML好学一点,更容易点,好上手,是基于spark DataFrame,做pipeline很方便。

Spark MLib更底层一点,灵活度大一些,所以对使用者要求更高一些。

SofaSofa数据科学社区DS面试题库 DS面经

AlphaCat   2019-01-26 16:29

-3
。。。。。。。。。。。。。。。。。SofaSofa数据科学社区DS面试题库 DS面经

陈十一   2019-01-15 10:37



  相关主题

如何对pyspark dataframe删除一列   3回答

pyspark dataframe的collect()方法是什么意思?   2回答

怎么对pyspark dataframe里的空缺值填值?   1回答

pyspark里unpersist()什么作用?   1回答

返回pyspark dataframe的行数?   1回答

得到一个pyspark.sql.dataframe中所有列的名称   2回答

怎么将两个pyspark dataframe以串联的形式合并?   1回答

pyspark里如何进行SELECT DISTINCT操作?   1回答

怎么对pyspark.sql.dataframe按照某一列降序排列?   1回答

怎么对pyspark dataframe更改列名   2回答

怎么把pyspark RDD dataframe转为pandas.DataFrame?   1回答

pyspark groupby 加权平均?   1回答



回答问题时需要注意什么?

我们谢绝在回答前讲“生动”的故事。

我们谢绝“这么简单,你自己想”、“书上有的,你认真看”这类的回答;如果你认为对方的提问方式或者内容不妥,你可以直接忽略该问题,不用进行任何作答,甚至可以对该问题投反对票。

我们谢绝答非所问。

我们谢绝自己不会、硬要回答。

我们感激每一个用户在编写答案时的努力与付出!