问答社区预测那题,大家的思路是什么?

  板凳区 Sofa竞赛4    浏览次数:3807        分享
0

如题

 

大黄大黄大黄   2018-04-04 13:48



   3个回答 
0

周末的信息肯定要提取的,非线性的特征也是要人工造的吧

你看看标杆模型嘛,基本上都考虑到了周末和节假日



SofaSofa数据科学社区DS面试题库 DS面经

ljljlj   2018-04-04 14:03

0

好好做特征工程(生成一些新特征),然后来一波boosting


SofaSofa数据科学社区DS面试题库 DS面经

sasa   2018-04-07 00:48

2

questions有三个变化趋势,宏观上是接近于线性递增,局部上周末和非周末也差别很大,还有节日时会骤降。所以先增加是否为节日的变量,然后估计question的平均,最后估计每天的具体变化。

因为test是在数据空间里一块空白的区域(周围没training),估计平均时必须要是基于模型的方法,比如线性回归,不能是knn之类基于数据平均的方法。

SofaSofa数据科学社区DS面试题库 DS面经

Zealing   2018-04-18 08:25

大师出手,不同凡响 - MangoCoke   2018-04-18 09:26
百度找了一个easybot的api,爬虫返回节假日,结果返回的是错误数据,坑爹啊 - 陈十一   2018-04-18 11:33
可以先生成一个366维的binary vector 表示日期,名字为D;然后自己设一个阈值,当question变化大于阈值时,表示当天是假日,对应的日期设为1。testing 日期也可以变为D,同时查表就可以知道是否是假日。 也可以建一个假日的hash表,然后用testing日期去查表。 - Zealing   2018-04-18 12:22
我用了python里的holidays,里面的假日根本不能覆盖数据里的假日。有可能这是很多国家假日的集合。只能自己根据数据里的较大变化,自己生成假日的表。 - Zealing   2018-04-18 12:27
听起来挺麻烦的。。。。。。。。。,其实那个api挺好用的,一个class,然后lambda调用就好了,不过现在要反馈码,没有反馈码,它会返回错误的脏数据,晚上看能不能用公司邮箱注册一个 - 陈十一   2018-04-18 14:06
然后估计question的平均,最后估计每天的具体变化 这个啥意思啊 - 大黄大黄大黄   2018-04-19 12:42
question的平均是低频信号,每天的变化是高频信号。比如标杆方案里先用线性回归估计低频,再用kNN估计高频。 - Zealing   2018-04-19 13:29


  相关讨论

有没有赚外快的方法啊

求教一下:怎么进阶

有人关注机器学习在量化交易中的应用吗?

使用深度学习进行图像分类

有偿!!如何写一个restful api

作为一个ML的博士应该怎么去怎么找文献?

大家跑模型都用的什么牌子的笔记本

如何评价大数据的未来?

很想知道排名靠前的大佬 代码是怎么写 哪怕付费也可以吖 标杆模型 还是

请问发现SofaSofa上的文章有错误,应该如何反馈?

  随便看看

激活函数RELU在0点的导数是多少?

print里的"%.2f"是什么意思?

用一个骰子生成1到7的随机数?

推荐系统中的召回(recall)是什么意思?

逻辑回归的损失函数是怎么来的