关于LR过拟合的数据集问题

  统计/机器学习 回归分析 数据预处理    浏览次数:304        分享
0

比如训练集中有两列特征X1和X2,现在分别对每一列特征乘以1000,构造数据集A,再对原始的每一列特征除以1000 构造数据集B,

问:在这两个训练集下训练的LR模型,哪个具有过拟合的风险?为什么?

 

Pan   2019-08-25 14:43



   1个回答 
1

如果原来的特征X1和X2不存在共线性,那么数据集A里这两个放大的特征,也不会存在共线性的问题,所以没有过拟合的情况。

数据集B和上面的情况类似,数据集也只有2个特征,所以不大会过拟合。即使它们会过拟合,也和乘除无关吧。

SofaSofa数据科学社区DS面试题库 DS面经

宽宽   2019-08-25 15:06

学习了 - Pan   2019-08-27 15:23


  相关主题

线下训练集和测试集防过拟合   1回答

训练集加入噪声防止over fitting还是加剧overfitting?   3回答

为什么过拟合不好?   8回答

BatchNorm层能够防止神经网络过拟合嘛?   1回答

unsupervised learning也会over-fitting吗?   2回答

决策树模型有什么特点以及如何防止过拟合?   2回答

Random Forest 过拟合有什么好办法?   3回答

随机森林会发生过拟合(overfitting)吗?   2回答

正则项里的L1,L2是什么意思?   1回答

L0 norm 正则是什么意思?   2回答

为什么正则项通常都是用L1或者L2,而不是其他的?   2回答

最小角回归是天然的LASSO化?正则化参数怎么体现?   3回答



回答问题时需要注意什么?

我们谢绝在回答前讲“生动”的故事。

我们谢绝“这么简单,你自己想”、“书上有的,你认真看”这类的回答;如果你认为对方的提问方式或者内容不妥,你可以直接忽略该问题,不用进行任何作答,甚至可以对该问题投反对票。

我们谢绝答非所问。

我们谢绝自己不会、硬要回答。

我们感激每一个用户在编写答案时的努力与付出!