如何对大型线性回归进行并行计算?

  统计/机器学习 回归分析 开放问题
2

当数据量很大(上亿条数据、每条数据上万个特征),如何对线性回归进行并行计算?


 

花生糖   2017-11-02 10:48



   2个回答 
2

1. 如果是用投影矩阵来求线性回归,那么这个问题就等同于如何对矩阵进行并行计算(网上这方面资料非常多)。


2.如果是用数值方法来求线性回归,可以考虑mini-batch,也就是abuu说的。


3. 如果考虑分布式计算(也就是把数据切成好N块),可以每个机器或者cpu分配到N分之一的数据,分别进行计算,最后对N组回归系数取平均值。这个方法在大数据公司很常用,比如linkedin,google。


岛歌   2017-11-03 13:08

1

提供一个思路:

用mini-batch梯度下降。比如batch-size是40,你有4个cpu,那么就是每个cpu计算10个点,然后合在一起。


abuu   2017-11-03 08:03



相关问题

线性回归是机器学习算法吗?   3回答

Bagging是什么意思?   1回答

建立一个预测模型的流程是什么   1回答

人类的第一个机器学习算法是什么?   2回答

hyperparameter与parameter的区别?   3回答

如何理解PAC Learning?   1回答

bias-variance tradeoff是什么意思?   1回答

推荐开放数据库   5回答

机器学习如何快速入门?   1回答

如何理解VC dimension?   2回答

机器学习中的奥卡姆剃刀原理是什么意思   5回答

机器学习算法的鲁棒性是什么意思?   1回答



回答问题时需要注意什么?

我们谢绝在回答前讲“生动”的故事。

我们谢绝“这么简单,你自己想”、“书上有的,你认真看”这类的回答;如果你认为对方的提问方式或者内容不妥,你可以直接忽略该问题,不用进行任何作答,甚至可以对该问题投反对票。

我们谢绝答非所问。

我们谢绝自己不会、硬要回答。

我们感激每一个用户在编写答案时的努力与付出!