相对于kaggle来说,这些脱敏降噪的数据已经算很简单了,可提升还是有限,有没有前10的大佬聊聊提升思路,比如特征工程或者模型组装
6个回答
比如最近的这个,我能想到的就是正态变换,缺失值处理,还有lasso来删选一些特征,最后回归预测。目前mae50,别的没想到提升思路
SofaSofa数据科学社区DS面试题库 DS面经
我还没有时间做这个,但是前几天下载数据后稍微看了下,我觉得守门员和非守门员也许可以分开训练模型。
-
sasa
2018-03-13 14:05
分开训练的话守门员的数据量会不足吧,建议自己增加一个特征以0或1表示是否为守门员
-
yang1688899
2018-03-14 23:45
好奇缺失值怎么处理的?
-
0101RG
2018-03-24 00:38
还有最开始的自行车使用量预测,试了几个模型,xgb确实是回归性最好的,(当然我不了解神经网络)同时温度1和温度2很明显有共线性,我试过删失和加权以及比率,但远不如直接进模型比较好,还有把离散和占比少的进行合并,效果也不如直接进入好
SofaSofa数据科学社区DS面试题库 DS面经
我没有排到排到前10,目前12。不是特别有发言权吧。就透露一下,我是好几个模型混合的。
-
蘑菇蘑菇
2018-03-15 00:19
我用xgb和rf,这俩在原始数据k折上是15.多和16.多,请教一下还有什么好的
-
陈十一
2018-03-16 16:34
还有那个图像分类,据我所知图像数据要注意数据增强和残差网络,我试过几个的增强,但效果也就一般,我很好奇能达到过拟合的1是怎么来的
SofaSofa数据科学社区DS面试题库 DS面经
我不是1.0,我是0.995,我是用tensorflow的cnn做的。希望sofasofa能够出个官方的标杆吧。
-
sasa
2018-03-13 14:01
还真没接触过神经网络,看来有必要研究一下
-
陈十一
2018-03-13 14:03
我是用keras来构建cnn的,自己在跑训练集的时候,后面几个的accuracy就达到了1,虽然我很怀疑我是不是过拟合了,但是我有进行交叉验证和加入droupt层来随机断开神经元连接。
-
liaochuntao
2018-03-13 17:02
形状识别是SofaSofa上第一个关于图像的比赛,所以就设置的比较容易,给新人练习的机会。谢谢各位的讨论。
-
SofaSofa勤羽
2018-03-13 23:40
我不懂深度学习,所以分数上不了1。
但只要直接来一個 RandomForestClassifier(100),0.99完全没有问题
-
npwong
2018-03-14 01:04
这么说这个随机森林的效果要比linearsvc的效果好...........................
-
陈十一
2018-03-14 09:20
Linear SVC 的效果说不上好,KNN 比它还要好!
-
npwong
2018-03-14 18:23
我用TensorFlow做了个了lenet-5,准确率为0.999,图像分类问题用cnn做效果会比较好,毕竟cnn本来就设计用来处理图像问题的
-
yang1688899
2018-03-14 18:59
确实觉得准确率到了0.99左右就很难再提升了,同求是怎么达到1.0的
-
yang1688899
2018-03-14 19:03
有哪位大佬愿意帮我看看代码?我用CNN正确率只有60%
-
大黄大黄大黄
2018-04-03 13:50
最近的足球运动员身价估计,我把出生日期转换成年龄,再以新的变量插入原序列,再进行训练,不知道是不是这个思路
肯定是要转成年龄的,不然生日也没有用,难道看星座?(滑稽了)
-
曾经是科比
2018-03-14 11:09
但这也是答案呀。敏感的问题,又不能说太多。。
-
博观
2018-03-14 14:54
感觉出生月份也可以作为特征,之前看过一篇文章,对足球明星出生季节做了统计,居然还有一定规律
-
betten
2018-03-14 15:53
嗯嗯,那就可以把月份提取出来
-
博观
2018-03-15 09:03
身高体重咋处理啊
-
大黄大黄大黄
2018-04-06 21:20
官方的标杆模型里对身高体重的处理是用的BMI指数
-
okayguy
2018-07-15 11:35
鉴于大家的需要,我们考虑增加一个额外的独立于目前问答的交流区,内容包括:SofaSofa的数据竞赛、非SofaSofa的数据竞赛、求职交流、学习资源交流、工作心得分享讨论。
如果大家支持这个想法,请对该问答点赞。
谢谢大家!
SofaSofa社区
PS
谢谢大家。新的讨论区“板凳区”已开通。
SofaSofa数据科学社区DS面试题库 DS面经