提个比较敏感的问题:有没有来讨论讨论这几个比赛的提升思路

  板凳区 Sofa竞赛1 Sofa竞赛6 Sofa竞赛7    浏览次数:5797        分享
1

相对于kaggle来说,这些脱敏降噪的数据已经算很简单了,可提升还是有限,有没有前10的大佬聊聊提升思路,比如特征工程或者模型组装

 

陈十一   2018-03-13 13:38



   6个回答 
1

比如最近的这个,我能想到的就是正态变换,缺失值处理,还有lasso来删选一些特征,最后回归预测。目前mae50,别的没想到提升思路

SofaSofa数据科学社区DS面试题库 DS面经

陈十一   2018-03-13 13:41

我还没有时间做这个,但是前几天下载数据后稍微看了下,我觉得守门员和非守门员也许可以分开训练模型。 - sasa   2018-03-13 14:05
分开训练的话守门员的数据量会不足吧,建议自己增加一个特征以0或1表示是否为守门员 - yang1688899   2018-03-14 23:45
好奇缺失值怎么处理的? - 0101RG   2018-03-24 00:38
1

还有最开始的自行车使用量预测,试了几个模型,xgb确实是回归性最好的,(当然我不了解神经网络)同时温度1和温度2很明显有共线性,我试过删失和加权以及比率,但远不如直接进模型比较好,还有把离散和占比少的进行合并,效果也不如直接进入好

SofaSofa数据科学社区DS面试题库 DS面经

陈十一   2018-03-13 13:46

我没有排到排到前10,目前12。不是特别有发言权吧。就透露一下,我是好几个模型混合的。 - 蘑菇蘑菇   2018-03-15 00:19
我用xgb和rf,这俩在原始数据k折上是15.多和16.多,请教一下还有什么好的 - 陈十一   2018-03-16 16:34
0

还有那个图像分类,据我所知图像数据要注意数据增强和残差网络,我试过几个的增强,但效果也就一般,我很好奇能达到过拟合的1是怎么来的

SofaSofa数据科学社区DS面试题库 DS面经

陈十一   2018-03-13 13:54

我不是1.0,我是0.995,我是用tensorflow的cnn做的。希望sofasofa能够出个官方的标杆吧。 - sasa   2018-03-13 14:01
还真没接触过神经网络,看来有必要研究一下 - 陈十一   2018-03-13 14:03
我是用keras来构建cnn的,自己在跑训练集的时候,后面几个的accuracy就达到了1,虽然我很怀疑我是不是过拟合了,但是我有进行交叉验证和加入droupt层来随机断开神经元连接。 - liaochuntao   2018-03-13 17:02
形状识别是SofaSofa上第一个关于图像的比赛,所以就设置的比较容易,给新人练习的机会。谢谢各位的讨论。 - SofaSofa勤羽   2018-03-13 23:40
我不懂深度学习,所以分数上不了1。 但只要直接来一個 RandomForestClassifier(100),0.99完全没有问题 - npwong   2018-03-14 01:04
这么说这个随机森林的效果要比linearsvc的效果好........................... - 陈十一   2018-03-14 09:20
Linear SVC 的效果说不上好,KNN 比它还要好! - npwong   2018-03-14 18:23
我用TensorFlow做了个了lenet-5,准确率为0.999,图像分类问题用cnn做效果会比较好,毕竟cnn本来就设计用来处理图像问题的 - yang1688899   2018-03-14 18:59
确实觉得准确率到了0.99左右就很难再提升了,同求是怎么达到1.0的 - yang1688899   2018-03-14 19:03
有哪位大佬愿意帮我看看代码?我用CNN正确率只有60% - 大黄大黄大黄   2018-04-03 13:50
0

最近的足球运动员身价估计,我把出生日期转换成年龄,再以新的变量插入原序列,再进行训练,不知道是不是这个思路


SofaSofa数据科学社区DS面试题库 DS面经

博观   2018-03-14 10:52

肯定是要转成年龄的,不然生日也没有用,难道看星座?(滑稽了) - 曾经是科比   2018-03-14 11:09
但这也是答案呀。敏感的问题,又不能说太多。。 - 博观   2018-03-14 14:54
感觉出生月份也可以作为特征,之前看过一篇文章,对足球明星出生季节做了统计,居然还有一定规律 - betten   2018-03-14 15:53
嗯嗯,那就可以把月份提取出来 - 博观   2018-03-15 09:03
身高体重咋处理啊 - 大黄大黄大黄   2018-04-06 21:20
官方的标杆模型里对身高体重的处理是用的BMI指数 - okayguy   2018-07-15 11:35
22

鉴于大家的需要,我们考虑增加一个额外的独立于目前问答的交流区,内容包括:SofaSofa的数据竞赛、非SofaSofa的数据竞赛、求职交流、学习资源交流、工作心得分享讨论。


如果大家支持这个想法,请对该问答点赞。


谢谢大家!

SofaSofa社区


PS

谢谢大家。新的讨论区“板凳区”已开通。

SofaSofa数据科学社区DS面试题库 DS面经

SofaSofa勤羽   2018-03-14 12:30

0

欢迎加入:462428251。大家可以在这里讨论比赛思路,共同学习。

SofaSofa数据科学社区DS面试题库 DS面经

大黄大黄大黄   2018-04-04 11:42



  相关讨论

形状识别:是方还是圆?这个比赛求思路?

【竞赛6】kNN轻松达到0.99以上

有没有点击上传数据浏览器就崩溃的?

足球运动员身价估计,上传预测结果始终出错

足球运动员身价的评分系统是不是坏了呀,咋不管我提交什么结果

足球运动员身价预测的字段说明能给全吗

上传预测结果始终出错

#关于公共自行车使用量预测#这个例子计算RMSE时,测试集的真实值在哪里?

公共自行车使用量预测怎么进行特征处理?

Sofa竞赛1的排名数据修复中

  随便看看

pytorch里view(-1, 1)什么意思?

ARIMA模型中的三个参数(p, d, q)都是什么意思?

假设检验中的p值是什么意思?为什么越小越好?

pandas读取csv中指定的某些列

z test和t test什么区别?