时序预测怎么做特征工程

  统计/机器学习 监督式学习 特征选择 时间序列    浏览次数: 596
0

一个销售预测的case,简化下:

销售表:时间,月销售额; 购买者表:id,购买时间,属性A,属性B,属性C,属性D

假设购买者不同属性对销售额有影响,构造时间序列输入能否按不同属性维度分别count作为输入呢?

如var 1=count id when A=a1,

var 2 = count id when A=a2

var 3 = count id when A=a1,B=b1,C=c1

var 4 = count id when A=a1,B=b1,C=c2,

……

这样能得到没有不同属性组合下的每个月的购买者数作为输入,但属性很多的时候,变量过多,而且变量间有部分相关性,如何筛选有效的变量呢?还是说这样构造方法不对,有其他方式么?


有人有思路么?先谢谢啦


 

lucian   2018-04-27 17:49



   1个回答 
0

可以试试先对消费者做聚类?把消费者分成k簇。

然后每个月的数据就是

销售额,1簇人数,2簇人数,...,k簇人数

对于销售额,你可以按照AR模型的方式来处理

销售额,上月销售额,上上月销售额,1簇人数,2簇人数,...,k簇人数

仅供参考!


道画师   2018-04-27 20:49



  相关主题

SARIMAX是什么算法?   1回答

如何判断时间序列的周期性?   2回答

ARIMA模型中的三个参数(p, d, q)都是什么意思?   1回答

怎么判断一个时间序列是平稳的?   2回答

求助,按照百度的方法从日期提取年龄出现错误了   1回答

python两个日期,求间隔的天数   2回答

怎么把datetime类型转为字符串类型,但只保留日期   1回答

机器学习里extrapolation是什么意思?   2回答

python中有哪些关于隐马尔可夫模型(HMM)的package?   2回答

python里有现成的卡尔曼滤波器的包吗?   2回答

像年、月、日、小时这种时间变量一般怎么处理?   1回答

pandas里dt.dayofweek返回的0是星期几?   1回答



回答问题时需要注意什么?

我们谢绝在回答前讲“生动”的故事。

我们谢绝“这么简单,你自己想”、“书上有的,你认真看”这类的回答;如果你认为对方的提问方式或者内容不妥,你可以直接忽略该问题,不用进行任何作答,甚至可以对该问题投反对票。

我们谢绝答非所问。

我们谢绝自己不会、硬要回答。

我们感激每一个用户在编写答案时的努力与付出!