我要发帖返回首页返回首页

【竞赛1】讨论汇总

板凳区 Sofa竞赛1 浏览次数：3714 分享

二维码

手机扫描二维码

案例分析面试常见题？

开始

SofaSofa社区 2018-03-19 13:06

4个回答

最多人参加的比赛，反而没有人讨论？！

可不可以请网主来谈一谈，写标杆模型时候的经验？

SofaSofa数据科学社区 DS面试题库 DS面经

npwong 2018-04-09 18:44

标杆模型固然可以随手写N个，但网主只公布简单线性回归，决策树，和 xgboost，应该有原因的。例如做了一些基本的EDA后，可以推测简单线性回归不会有好效果，但為什么还要用它? 仅仅是以它作 baseline model吗? 还是网主不做EDA，直接来个单线性回归? 又决策树这非线性模型可以取得更好的效果，那么KNN 或 SVM 的效果如何?是不是决策树速度快及解释性强，所以优先考慮? 我想上述問题是可以探讨的。事实上真的有朋友問了"既然xgboost那么好，线性回归还有存在的价值吗？" http://sofasofa.io/forum_main_post.php?postid=1001268 希望各位可以讨论一下 - npwong 2018-04-11 09:09

估计是因为这个数据太干净了，随便跑跑就行了。

SofaSofa数据科学社区 DS面试题库 DS面经

曾经是科比 2018-04-09 20:51

科比兄的意思是无需多做数据预处理或特征工程，直接把全套数据拿到来训练？ - npwong 2018-04-09 23:19

兄弟你这个随便跑跑就过分了！，我特么的随便跑跑垫底啊！！！ - 陈十一 2018-04-10 11:11

我好像目前还是排第一呃

我就大概说说思路吧

我做了比较多的特征工程，合成了一些新的特征

然后用了好几个模型，大部分都是上面npwong提到的

最后就是把它们组合在一起了

当然很多地方都是要做cross valiadtion进行调参和选择特征的

SofaSofa数据科学社区 DS面试题库 DS面经

岛歌 2018-04-10 23:09

一直希望官方出个stack的示例，我自己瞎j8融了几次，越融效果越差 - 陈十一 2018-04-11 16:49

比如说，在基础模型选择上，rf和梯度树，这种结果很近似的模型是否有必要，而效果很差的logis是否有必要，最后的多模型的traindata是否需要和原train进行合并，不合并的用投票号还是新的模型好，用新的模型的话采用什么样的模型好，是否还是梯度树 - 陈十一 2018-04-11 17:20

新特征都怎么生成出来的，求赐教SofaSofa数据科学社区 DS面试题库 DS面经

大黄大黄大黄 2018-04-15 10:20

相关讨论

第一个比赛，自行车，排名靠前的，是做了特征工程吗，

#关于公共自行车使用量预测#这个例子计算RMSE时，测试集的真实值在哪里？

第一个比赛预测自行车数量的问题

公共自行车使用量预测怎么进行特征处理？

Sofa竞赛1的排名数据修复中

怎么看自己提交的成绩呢？

XGBoost模型是如何对属性进行预测的？

求教一下：怎么进阶

如何评价大数据的未来？

有没有赚外快的方法啊

随便看看

协方差矩阵一定是满秩的吗？

随机平均梯度法(Stochasitc Average Gradient)和随机梯度下降(SGD)有什么区别

pandas报错: 'DataFrame' object has no attribute 'unique'

逻辑回归模型中变量的系数怎么理解？

决策树、随机森林中的多重共线性问题