如何对大型线性回归进行并行计算?

  统计/机器学习 回归分析 开放问题    浏览次数:5962        分享
2

当数据量很大(上亿条数据、每条数据上万个特征),如何对线性回归进行并行计算?


 

花生糖   2017-11-02 10:48



   4个回答 
2

1. 如果是用投影矩阵来求线性回归,那么这个问题就等同于如何对矩阵进行并行计算(网上这方面资料非常多)。


2.如果是用数值方法来求线性回归,可以考虑mini-batch,也就是abuu说的。


3. 如果考虑分布式计算(也就是把数据切成好N块),可以每个机器或者cpu分配到N分之一的数据,分别进行计算,最后对N组回归系数取平均值。这个方法在大数据公司很常用,比如linkedin,google。


SofaSofa数据科学社区DS面试题库 DS面经

岛歌   2017-11-03 13:08

1

提供一个思路:

用mini-batch梯度下降。比如batch-size是40,你有4个cpu,那么就是每个cpu计算10个点,然后合在一起。


SofaSofa数据科学社区DS面试题库 DS面经

abuu   2017-11-03 08:03

0

如果用梯度下降法来实现的话,梯度中每个元素的计算都是独立的,以及每个权重的更新也是独立的,这两个部分也可以用并行计算。

SofaSofa数据科学社区DS面试题库 DS面经

Marvin_THU   2018-12-07 13:43

0

实际工作中就是直接用spark MLlib或者H2O解决

SofaSofa数据科学社区DS面试题库 DS面经

AlphaCat   2018-12-09 09:48



  相关讨论

线性回归是机器学习算法吗?

y取值有上下界限的回归问题

Sigmoid核函数是不是对新输入的需要预测的点的测量误差不敏感?

什么是“维数灾难”,为什么说引入核函数就避免“维数灾难”

泊松回归有哪些应用场景?

有序的分类变量的预测是回归问题还是多分类问题?

拟合数据的Z-score规范化怎么进行操作?

逻辑回归模型中变量的系数怎么理解?

常用的回归模型中,哪些具有较好的鲁棒性(robustness)?

如果迫使一个线性回归模型的截距为0,会有什么坏处吗?

  随便看看

机器学习中的奥卡姆剃刀原理是什么意思

roc auc小于0.5是什么情况?

样本权重大小不同时,用什么分类算法比较合适?

Random Forest可以用来做聚类?

用户人群分层分析的RFM模型是什么?