时序预测怎么做特征工程

  统计/机器学习 监督式学习 特征选择 时间序列    浏览次数:3402        分享
0

一个销售预测的case,简化下:

销售表:时间,月销售额; 购买者表:id,购买时间,属性A,属性B,属性C,属性D

假设购买者不同属性对销售额有影响,构造时间序列输入能否按不同属性维度分别count作为输入呢?

如var 1=count id when A=a1,

var 2 = count id when A=a2

var 3 = count id when A=a1,B=b1,C=c1

var 4 = count id when A=a1,B=b1,C=c2,

……

这样能得到没有不同属性组合下的每个月的购买者数作为输入,但属性很多的时候,变量过多,而且变量间有部分相关性,如何筛选有效的变量呢?还是说这样构造方法不对,有其他方式么?


有人有思路么?先谢谢啦


 

lucian   2018-04-27 17:49



   1个回答 
0

可以试试先对消费者做聚类?把消费者分成k簇。

然后每个月的数据就是

销售额,1簇人数,2簇人数,...,k簇人数

对于销售额,你可以按照AR模型的方式来处理

销售额,上月销售额,上上月销售额,1簇人数,2簇人数,...,k簇人数

仅供参考!


SofaSofa数据科学社区DS面试题库 DS面经

道画师   2018-04-27 20:49



  相关讨论

SARIMAX是什么算法?

怎么判断一个时间序列是平稳的?

如何判断时间序列的周期性?

ARIMA模型中的三个参数(p, d, q)都是什么意思?

python两个日期,求间隔的天数

datetime模块里的datetime.combine什么用?

python中怎么判断某一年是闰年?

fbprophet.Prophet里的growth='linear'和growth='logistic'有什么区别?

怎么把datetime类型转为字符串类型,但只保留日期

python如何对日期做遍历?有没有类似range的函数?

  随便看看

pandas.DataFrame里的loc和iloc什么区别?

随机梯度下降(sgd)的收敛问题

numpy.full这个函数有什么用?

如何在numpy array尾部增加一行

凸优化中局部最优解就是全局最优解吗?