问答社区预测那题,大家的思路是什么?

  板凳区 Sofa竞赛4    浏览次数:779        分享
0

如题

 

大黄大黄大黄   2018-04-04 13:48



   3个回答 
0

周末的信息肯定要提取的,非线性的特征也是要人工造的吧

你看看标杆模型嘛,基本上都考虑到了周末和节假日



SofaSofa数据科学社区 DS面经 问答 实战

ljljlj   2018-04-04 14:03

0

好好做特征工程(生成一些新特征),然后来一波boosting


SofaSofa数据科学社区 DS面经 问答 实战

sasa   2018-04-07 00:48

2

questions有三个变化趋势,宏观上是接近于线性递增,局部上周末和非周末也差别很大,还有节日时会骤降。所以先增加是否为节日的变量,然后估计question的平均,最后估计每天的具体变化。

因为test是在数据空间里一块空白的区域(周围没training),估计平均时必须要是基于模型的方法,比如线性回归,不能是knn之类基于数据平均的方法。

SofaSofa数据科学社区 DS面经 问答 实战

Zealing   2018-04-18 08:25

大师出手,不同凡响 - MangoCoke   2018-04-18 09:26
百度找了一个easybot的api,爬虫返回节假日,结果返回的是错误数据,坑爹啊 - 陈十一   2018-04-18 11:33
可以先生成一个366维的binary vector 表示日期,名字为D;然后自己设一个阈值,当question变化大于阈值时,表示当天是假日,对应的日期设为1。testing 日期也可以变为D,同时查表就可以知道是否是假日。 也可以建一个假日的hash表,然后用testing日期去查表。 - Zealing   2018-04-18 12:22
我用了python里的holidays,里面的假日根本不能覆盖数据里的假日。有可能这是很多国家假日的集合。只能自己根据数据里的较大变化,自己生成假日的表。 - Zealing   2018-04-18 12:27
听起来挺麻烦的。。。。。。。。。,其实那个api挺好用的,一个class,然后lambda调用就好了,不过现在要反馈码,没有反馈码,它会返回错误的脏数据,晚上看能不能用公司邮箱注册一个 - 陈十一   2018-04-18 14:06
然后估计question的平均,最后估计每天的具体变化 这个啥意思啊 - 大黄大黄大黄   2018-04-19 12:42
question的平均是低频信号,每天的变化是高频信号。比如标杆方案里先用线性回归估计低频,再用kNN估计高频。 - Zealing   2018-04-19 13:29


  相关主题

求教一下:怎么进阶   1回答

有没有赚外快的方法啊   2回答

大家跑模型都用的什么牌子的笔记本   7回答

关于那个autoencode有没有出来解惑一下的。   3回答

很想知道排名靠前的大佬 代码是怎么写 哪怕付费也可以吖 标杆模型 还是   4回答

竞赛区惊现一个神级大牛nobodyoo1   3回答

【投票】关于是否削减竞赛奖金的投票   2回答

为什么所有问答题目看不到   1回答

欢迎大家来到板凳区!   0回答

面试题库做几遍比较合适?   2回答

怎么和领导说自己的模型很好?   3回答

数据科学、挖掘、算法求职交流微信群   0回答



回答问题时需要注意什么?

我们谢绝在回答前讲“生动”的故事。

我们谢绝“这么简单,你自己想”、“书上有的,你认真看”这类的回答;如果你认为对方的提问方式或者内容不妥,你可以直接忽略该问题,不用进行任何作答,甚至可以对该问题投反对票。

我们谢绝答非所问。

我们谢绝自己不会、硬要回答。

我们感激每一个用户在编写答案时的努力与付出!