关于LR过拟合的数据集问题

  统计/机器学习 回归分析 数据预处理    浏览次数:2672        分享
0

比如训练集中有两列特征X1和X2,现在分别对每一列特征乘以1000,构造数据集A,再对原始的每一列特征除以1000 构造数据集B,

问:在这两个训练集下训练的LR模型,哪个具有过拟合的风险?为什么?

 

Pan   2019-08-25 14:43



   1个回答 
1

如果原来的特征X1和X2不存在共线性,那么数据集A里这两个放大的特征,也不会存在共线性的问题,所以没有过拟合的情况。

数据集B和上面的情况类似,数据集也只有2个特征,所以不大会过拟合。即使它们会过拟合,也和乘除无关吧。

SofaSofa数据科学社区DS面试题库 DS面经

宽宽   2019-08-25 15:06

学习了 - Pan   2019-08-27 15:23


  相关讨论

为什么过拟合不好?

关于神经网络调整缓解过拟合的问题?

线下训练集和测试集防过拟合

为什么GBDT比RF更容易overfitting?

决策树模型有什么特点以及如何防止过拟合?

训练集加入噪声防止over fitting还是加剧overfitting?

正则项里的L1,L2是什么意思?

L0 norm 正则是什么意思?

Random Forest 过拟合有什么好办法?

BatchNorm层能够防止神经网络过拟合嘛?

  随便看看

怎么直观理解ROC AUC的概率统计意义?

dropout rate一般设置多大?

sklearn可以用gpu加速吗?

支持向量机(SVM)里的支持向量是什么意思

pandas同时返回一个dataframe的前几行(head)和后几行(tail)