怎样处理具有大标签的数据?以及标签数据缺失怎么处理?

  统计/机器学习 数据预处理 特征选择    浏览次数:3913        分享
0

最近在做lookalike的模型,数据中提供了用户爱好给了标签。比如{9876,3452,1243}都是很大的数,我想用独热编码{0,1,0,.....}去生成特征的话,是不是先要重新标签化,另外,标签数据缺失的话,是不是要用{1/n,1/n,1/n,......}来代替,新手求教,希望大佬有空解答一下,万分感谢!

 

林小林   2018-04-20 15:27



   3个回答 
0

希望题主能对该特征的数据给出更加详细的描述,比如每个样本此特征的取值可能是多个标签还是也就一个标签?按我的理解应该是多个标签? 然后大概分析一下每个标签的出现的频次,我们是否能选择topN个比较有效的标签从而忽略其他标签?然后做个LabelEncoder(),然后再做个onehot?关于数据缺失,是数据全部取0还是取1/n,这点我也不是很清楚,这仅仅是我的一点思考,我也是一个新手,希望大神批评指正。

ps 题主是在做腾讯的算法赛?

SofaSofa数据科学社区DS面试题库 DS面经

dzzxjl   2018-04-21 10:09

对的,目前我自己建立了一个字典,重新排列了标签,但好像还是有十几万维,,, - 林小林   2018-04-21 12:15
0

不一定非要独热编码,可以参考下这个分类变量,进行One hot编码,维度升高,如何处理?


SofaSofa数据科学社区DS面试题库 DS面经

岛歌   2018-04-21 10:13

谢谢 - 林小林   2018-04-21 12:15
0

可以试试搞一波feature hashing


SofaSofa数据科学社区DS面试题库 DS面经

abuu   2018-04-21 12:18



  相关讨论

如何判断缺失值是否是随机的缺失?

数据预处理中,都有哪些方法能够处理缺失值(missing value)

训练集中有的特征含有缺失值,一般怎么处理

dataframe每行或者每列中缺失值(na, nan, null)的个数

怎么对dataframe中的某一列groupby求缺失值的个数?

如何处理聚类中的missing data

pandas DataFrame中去掉缺失值多于50%的列

决策树或者随机森林能够直接处理missing data吗?

pandas里有没有类似于sql里coalesce的函数来处理缺失值?

怎么利用python对时间序列中缺失值进行线性插值?

  随便看看

训练集中有的特征含有缺失值,一般怎么处理

神经网络里为什么隐藏层越多越好?

Python的Jupyter Notebook环境下怎么制作一个动态显示的进度条?

怎么提取pandas dataframe中某一列每个字符串的前n个字符?

matplotlib.pyplot做折线图的时候,显示为虚线,或者点划线?