statsmodels里的ols怎么处理分类变量?

  统计/机器学习 回归分析 数据预处理 Python    浏览次数:6898        分享
0

statsmodels里的ols怎么处理分类变量?最好是能够像R里那样,直接处理的,不然的话就要像sklearn那样先one-hot了。多谢各位老铁!

 

luzehao   2018-09-07 14:27



   1个回答 
3

比如你有一个pandas的dataframe,叫做df,要预测列名是y,有两个特征,numerical特征x1和categorical特征x2,那么用下面的表达式就可以了,不需要做one-hot

import statsmodels.formula.api as smf
res = smf.ols(formula='y ~ x1 + C(x2)', data=df).fit()


SofaSofa数据科学社区DS面试题库 DS面经

蘑菇蘑菇   2018-09-07 22:14



  相关讨论

虚拟变量能否标准化?

特征归一化后的多项式回归拟合结果

对进行回归分析之前,如何处理不同类型的变量?

线性回归的变量归一化的问题

数据的标准化(Z-score标准化)是否会改变训练得到的超平面系数向量?

python里怎么做分位数回归(quantile regression)?

TypeError: Expected sequence or array-like, got class 'map'

用uci的crimes做了一个线性回归,test很差

系数非负的线性回归的python实现

python中如何实现保序回归算法?

  随便看看

pandas.DataFrame更改列名

怎么直观理解ROC AUC的概率统计意义?

sklearn中的predict_proba方法的返回值的意义

概率论中的鞅是什么?

seaborn.distplot直方图的y轴的数值是什么意思?