怎样处理具有大标签的数据?以及标签数据缺失怎么处理?

  统计/机器学习 数据预处理 特征选择    浏览次数: 360
0

最近在做lookalike的模型,数据中提供了用户爱好给了标签。比如{9876,3452,1243}都是很大的数,我想用独热编码{0,1,0,.....}去生成特征的话,是不是先要重新标签化,另外,标签数据缺失的话,是不是要用{1/n,1/n,1/n,......}来代替,新手求教,希望大佬有空解答一下,万分感谢!

 

林小林   2018-04-20 15:27



   3个回答 
0

希望题主能对该特征的数据给出更加详细的描述,比如每个样本此特征的取值可能是多个标签还是也就一个标签?按我的理解应该是多个标签? 然后大概分析一下每个标签的出现的频次,我们是否能选择topN个比较有效的标签从而忽略其他标签?然后做个LabelEncoder(),然后再做个onehot?关于数据缺失,是数据全部取0还是取1/n,这点我也不是很清楚,这仅仅是我的一点思考,我也是一个新手,希望大神批评指正。

ps 题主是在做腾讯的算法赛?

dzzxjl   2018-04-21 10:09

对的,目前我自己建立了一个字典,重新排列了标签,但好像还是有十几万维,,, - 林小林   2018-04-21 12:15
0

不一定非要独热编码,可以参考下这个分类变量,进行One hot编码,维度升高,如何处理?


岛歌   2018-04-21 10:13

谢谢 - 林小林   2018-04-21 12:15
0

可以试试搞一波feature hashing


abuu   2018-04-21 12:18



  相关主题

数据预处理中,都有哪些方法能够处理缺失值(missing value)   2回答

如何判断缺失值是否是随机的缺失?   2回答

训练集中有的特征含有缺失值,一般怎么处理   4回答

dataframe每行或者每列中缺失值(na, nan, null)的个数   1回答

pandas DataFrame中去掉缺失值多于50%的列   1回答

如何处理聚类中的missing data   3回答

决策树或者随机森林能够直接处理missing data吗?   1回答

python里把数据中某一列中的na,nan,缺失值都替换成0?   1回答

在进行数值编码时出现错误,怎么解决?   1回答

python中如何产生交互项?   0回答

对于组合特征怎么理解?   1回答

一个特征有两个可选的值,只需满足其中一个即可,该如何处理?   1回答



回答问题时需要注意什么?

我们谢绝在回答前讲“生动”的故事。

我们谢绝“这么简单,你自己想”、“书上有的,你认真看”这类的回答;如果你认为对方的提问方式或者内容不妥,你可以直接忽略该问题,不用进行任何作答,甚至可以对该问题投反对票。

我们谢绝答非所问。

我们谢绝自己不会、硬要回答。

我们感激每一个用户在编写答案时的努力与付出!