怎样处理具有大标签的数据？以及标签数据缺失怎么处理？-SofaSofa

最近在做lookalike的模型，数据中提供了用户爱好给了标签。比如{9876，3452，1243}都是很大的数，我想用独热编码{0，1，0，.....}去生成特征的话，是不是先要重新标签化，另外，标签数据缺失的话，是不是要用{1/n,1/n,1/n,......}来代替，新手求教，希望大佬有空解答一下，万分感谢！

林小林 2018-04-20 15:27

3个回答

希望题主能对该特征的数据给出更加详细的描述，比如每个样本此特征的取值可能是多个标签还是也就一个标签？按我的理解应该是多个标签？然后大概分析一下每个标签的出现的频次，我们是否能选择topN个比较有效的标签从而忽略其他标签？然后做个LabelEncoder()，然后再做个onehot？关于数据缺失，是数据全部取0还是取1/n，这点我也不是很清楚，这仅仅是我的一点思考，我也是一个新手，希望大神批评指正。

ps 题主是在做腾讯的算法赛？

SofaSofa数据科学社区 DS面试题库 DS面经

dzzxjl 2018-04-21 10:09

对的，目前我自己建立了一个字典，重新排列了标签，但好像还是有十几万维，，， - 林小林 2018-04-21 12:15

不一定非要独热编码，可以参考下这个分类变量，进行One hot编码，维度升高，如何处理？

SofaSofa数据科学社区 DS面试题库 DS面经

岛歌 2018-04-21 10:13

谢谢 - 林小林 2018-04-21 12:15

可以试试搞一波feature hashing

SofaSofa数据科学社区 DS面试题库 DS面经

abuu 2018-04-21 12:18

怎样处理具有大标签的数据？以及标签数据缺失怎么处理？

Warning

3个回答

Warning

Warning

Warning