问答社区预测那题,大家的思路是什么?

  板凳区 Sofa竞赛4    浏览次数: 244
0

如题

 

大黄大黄大黄   2018-04-04 13:48



   3个回答 
0

周末的信息肯定要提取的,非线性的特征也是要人工造的吧

你看看标杆模型嘛,基本上都考虑到了周末和节假日



ljljlj   2018-04-04 14:03

0

好好做特征工程(生成一些新特征),然后来一波boosting


sasa   2018-04-07 00:48

1

questions有三个变化趋势,宏观上是接近于线性递增,局部上周末和非周末也差别很大,还有节日时会骤降。所以先增加是否为节日的变量,然后估计question的平均,最后估计每天的具体变化。

因为test是在数据空间里一块空白的区域(周围没training),估计平均时必须要是基于模型的方法,比如线性回归,不能是knn之类基于数据平均的方法。

Zealing   2018-04-18 08:25

大师出手,不同凡响 - MangoCoke   2018-04-18 09:26
百度找了一个easybot的api,爬虫返回节假日,结果返回的是错误数据,坑爹啊 - 陈十一   2018-04-18 11:33
可以先生成一个366维的binary vector 表示日期,名字为D;然后自己设一个阈值,当question变化大于阈值时,表示当天是假日,对应的日期设为1。testing 日期也可以变为D,同时查表就可以知道是否是假日。 也可以建一个假日的hash表,然后用testing日期去查表。 - Zealing   2018-04-18 12:22
我用了python里的holidays,里面的假日根本不能覆盖数据里的假日。有可能这是很多国家假日的集合。只能自己根据数据里的较大变化,自己生成假日的表。 - Zealing   2018-04-18 12:27
听起来挺麻烦的。。。。。。。。。,其实那个api挺好用的,一个class,然后lambda调用就好了,不过现在要反馈码,没有反馈码,它会返回错误的脏数据,晚上看能不能用公司邮箱注册一个 - 陈十一   2018-04-18 14:06
然后估计question的平均,最后估计每天的具体变化 这个啥意思啊 - 大黄大黄大黄   2018-04-19 12:42
question的平均是低频信号,每天的变化是高频信号。比如标杆方案里先用线性回归估计低频,再用kNN估计高频。 - Zealing   2018-04-19 13:29


  相关主题

相关主题的推荐最近出问题了?   1回答

比赛思路交流群   0回答

【竞赛1】讨论汇总   4回答

关于地震数据预处理的几点疑问。   2回答

【机器读中文2:“辨古识今”】特征工程大家都是什么思路?   2回答

卷1的讨论帖   0回答

【站务】2018-05练习赛奖金发布   0回答

竞赛区惊现一个神级大牛nobodyoo1   3回答

求个靠谱一起学习的同志   0回答

提个比较敏感的问题:有没有来讨论讨论这几个比赛的提升思路   6回答

欢迎大家来到板凳区!   0回答

【站务】SofaSofa为优秀的博客提供赞助   0回答



回答问题时需要注意什么?

我们谢绝在回答前讲“生动”的故事。

我们谢绝“这么简单,你自己想”、“书上有的,你认真看”这类的回答;如果你认为对方的提问方式或者内容不妥,你可以直接忽略该问题,不用进行任何作答,甚至可以对该问题投反对票。

我们谢绝答非所问。

我们谢绝自己不会、硬要回答。

我们感激每一个用户在编写答案时的努力与付出!