时序预测怎么做特征工程

  统计/机器学习 监督式学习 特征选择 时间序列    浏览次数: 834
0

一个销售预测的case,简化下:

销售表:时间,月销售额; 购买者表:id,购买时间,属性A,属性B,属性C,属性D

假设购买者不同属性对销售额有影响,构造时间序列输入能否按不同属性维度分别count作为输入呢?

如var 1=count id when A=a1,

var 2 = count id when A=a2

var 3 = count id when A=a1,B=b1,C=c1

var 4 = count id when A=a1,B=b1,C=c2,

……

这样能得到没有不同属性组合下的每个月的购买者数作为输入,但属性很多的时候,变量过多,而且变量间有部分相关性,如何筛选有效的变量呢?还是说这样构造方法不对,有其他方式么?


有人有思路么?先谢谢啦


 

lucian   2018-04-27 17:49



   1个回答 
0

可以试试先对消费者做聚类?把消费者分成k簇。

然后每个月的数据就是

销售额,1簇人数,2簇人数,...,k簇人数

对于销售额,你可以按照AR模型的方式来处理

销售额,上月销售额,上上月销售额,1簇人数,2簇人数,...,k簇人数

仅供参考!


SofaSofa数据科学社区 DS面经 问答 实战

道画师   2018-04-27 20:49



  相关主题

SARIMAX是什么算法?   1回答

怎么判断一个时间序列是平稳的?   2回答

ARIMA模型中的三个参数(p, d, q)都是什么意思?   1回答

如何判断时间序列的周期性?   2回答

求助,按照百度的方法从日期提取年龄出现错误了   1回答

python两个日期,求间隔的天数   2回答

python中如何修改时间戳变量里的小时?   1回答

怎么把datetime类型转为字符串类型,但只保留日期   1回答

python如何对日期做遍历?有没有类似range的函数?   1回答

机器学习里extrapolation是什么意思?   2回答

在分类问题中,有什么方法可以得到特征的重要性?   2回答

partial dependence是什么意思?   1回答



回答问题时需要注意什么?

我们谢绝在回答前讲“生动”的故事。

我们谢绝“这么简单,你自己想”、“书上有的,你认真看”这类的回答;如果你认为对方的提问方式或者内容不妥,你可以直接忽略该问题,不用进行任何作答,甚至可以对该问题投反对票。

我们谢绝答非所问。

我们谢绝自己不会、硬要回答。

我们感激每一个用户在编写答案时的努力与付出!