如何对大型线性回归进行并行计算?

  统计/机器学习 回归分析 开放问题    浏览次数: 331
2

当数据量很大(上亿条数据、每条数据上万个特征),如何对线性回归进行并行计算?


 

花生糖   2017-11-02 10:48



   2个回答 
2

1. 如果是用投影矩阵来求线性回归,那么这个问题就等同于如何对矩阵进行并行计算(网上这方面资料非常多)。


2.如果是用数值方法来求线性回归,可以考虑mini-batch,也就是abuu说的。


3. 如果考虑分布式计算(也就是把数据切成好N块),可以每个机器或者cpu分配到N分之一的数据,分别进行计算,最后对N组回归系数取平均值。这个方法在大数据公司很常用,比如linkedin,google。


岛歌   2017-11-03 13:08

1

提供一个思路:

用mini-batch梯度下降。比如batch-size是40,你有4个cpu,那么就是每个cpu计算10个点,然后合在一起。


abuu   2017-11-03 08:03



  相关主题

线性回归是机器学习算法吗?   3回答

Bagging是什么意思?   3回答

推荐开放数据库   5回答

建立一个预测模型的流程是什么   1回答

数据泄漏(data leakage)是什么意思?   2回答

ensemble模型时,bagging和stacking有什么区别?   2回答

机器学习中的奥卡姆剃刀原理是什么意思   5回答

如何理解VC dimension?   2回答

在线算法(online algorithm)是什么意思?   2回答

非参模型是什么意思?有哪些模型算是非参的?   2回答

bias-variance tradeoff是什么意思?   1回答

如何理解PAC Learning?   1回答



回答问题时需要注意什么?

我们谢绝在回答前讲“生动”的故事。

我们谢绝“这么简单,你自己想”、“书上有的,你认真看”这类的回答;如果你认为对方的提问方式或者内容不妥,你可以直接忽略该问题,不用进行任何作答,甚至可以对该问题投反对票。

我们谢绝答非所问。

我们谢绝自己不会、硬要回答。

我们感激每一个用户在编写答案时的努力与付出!