问答社区预测那题,大家的思路是什么?

  板凳区 Sofa竞赛4    浏览次数: 353
0

如题

 

大黄大黄大黄   2018-04-04 13:48



   3个回答 
0

周末的信息肯定要提取的,非线性的特征也是要人工造的吧

你看看标杆模型嘛,基本上都考虑到了周末和节假日



ljljlj   2018-04-04 14:03

0

好好做特征工程(生成一些新特征),然后来一波boosting


sasa   2018-04-07 00:48

1

questions有三个变化趋势,宏观上是接近于线性递增,局部上周末和非周末也差别很大,还有节日时会骤降。所以先增加是否为节日的变量,然后估计question的平均,最后估计每天的具体变化。

因为test是在数据空间里一块空白的区域(周围没training),估计平均时必须要是基于模型的方法,比如线性回归,不能是knn之类基于数据平均的方法。

Zealing   2018-04-18 08:25

大师出手,不同凡响 - MangoCoke   2018-04-18 09:26
百度找了一个easybot的api,爬虫返回节假日,结果返回的是错误数据,坑爹啊 - 陈十一   2018-04-18 11:33
可以先生成一个366维的binary vector 表示日期,名字为D;然后自己设一个阈值,当question变化大于阈值时,表示当天是假日,对应的日期设为1。testing 日期也可以变为D,同时查表就可以知道是否是假日。 也可以建一个假日的hash表,然后用testing日期去查表。 - Zealing   2018-04-18 12:22
我用了python里的holidays,里面的假日根本不能覆盖数据里的假日。有可能这是很多国家假日的集合。只能自己根据数据里的较大变化,自己生成假日的表。 - Zealing   2018-04-18 12:27
听起来挺麻烦的。。。。。。。。。,其实那个api挺好用的,一个class,然后lambda调用就好了,不过现在要反馈码,没有反馈码,它会返回错误的脏数据,晚上看能不能用公司邮箱注册一个 - 陈十一   2018-04-18 14:06
然后估计question的平均,最后估计每天的具体变化 这个啥意思啊 - 大黄大黄大黄   2018-04-19 12:42
question的平均是低频信号,每天的变化是高频信号。比如标杆方案里先用线性回归估计低频,再用kNN估计高频。 - Zealing   2018-04-19 13:29


  相关主题

【站务】2018-05练习赛奖金发布   0回答

竞赛区惊现一个神级大牛nobodyoo1   3回答

【竞赛6】kNN轻松达到0.99以上   2回答

提个比较敏感的问题:有没有来讨论讨论这几个比赛的提升思路   6回答

【招】C轮独角兽招聘算法工程师   1回答

【招】融360招聘中高级数据分析师   0回答

很想知道排名靠前的大佬 代码是怎么写 哪怕付费也可以吖 标杆模型 还是   3回答

【招】蔚蓝汽车旗下数据岗位实习生   0回答

【招】上海思明文化传播有限公司招聘机器学习/深度学习专才   0回答

大家跑模型都用的什么牌子的笔记本   6回答

寻求天池比赛队友,比赛:IJCAI-18 阿里妈妈搜索广告转化预测   3回答

【站务】2018-06练习赛奖金发布   0回答



回答问题时需要注意什么?

我们谢绝在回答前讲“生动”的故事。

我们谢绝“这么简单,你自己想”、“书上有的,你认真看”这类的回答;如果你认为对方的提问方式或者内容不妥,你可以直接忽略该问题,不用进行任何作答,甚至可以对该问题投反对票。

我们谢绝答非所问。

我们谢绝自己不会、硬要回答。

我们感激每一个用户在编写答案时的努力与付出!