sklearn不能直接处理含文本的类别变量?

  统计/机器学习 监督式学习 数据预处理 Python    浏览次数:657        分享
0

我用sklearn训练模型,然后就出现了报错

ValueError: could not convert string to float

直接用R训练模型的时候,类别变量是可以直接输入的。python是不可以的吗?

 

Ricox   2022-04-06 17:14



   1个回答 
1

是的,sklearn没有这个功能

官方链接:why-do-categorical-variables-need-preprocessing-in-scikit-learn-compared-to-other-tools

“sklearn只支持numpy数据格式,其他格式都不行,未来可能有不会考虑支持”。


把文本变量做one-coding可以用pandas get dummy也可以用Sklearn的encoder,具体可以看这个讨论中的两个回答

sklearn OneHotEncoder string类型报错怎么处理?

SofaSofa数据科学社区DS面试题库 DS面经

淡淡的   2022-05-23 15:38



  相关讨论

sklearn onehotencoder的具体用法

关于sklearn独热的问题,想把两类编成一个独热

sklearn OneHotEncoder string类型报错

sklearn.linear_model.SGDClassifier能做小批量学习(mini-batch)吗?

sklearn里的LabelEncoder什么用?

python里怎么安装CatBoostClassifier?

sklearn predict的默认阈值

sklearn分类模型中预测结果怎么调整概率的阈值

sklearn SGDClassifier的partial_fit是什么意思?

sklearn中的Randomizedlogisticregression是什么算法?和SGDClassifier一样吗?

  随便看看

医学统计里的c-index或者c-statistic是什么意思?

numpy array里怎么用fillna填充nan的值?

Pandas怎样对dataframe中的一个时间列进行排序?

除了PCA,还有什么降维的方法?

凸优化中局部最优解就是全局最优解吗?