请问NLP中这种编码方式有没有什么术语?

  统计/机器学习 自然语言处理 数据预处理    浏览次数: 788
0

比如说,

今    天    比    昨    天    冷

然后对每个字从1开始编号

1    2    3    4    2    5

然后每个字写成一个长度为5的向量,对应编号的位置为1,其他为0.

[1,    0,    0,    0,    0]

[0,    1,    0,    0,    0]

[0,    0,    1,    0,    0]

[0,    0,    0,    1,    0]

[0,    1,    0,    0,    0]

[0,    0,    0,    0,    1]

这种编码有没有什么术语? 


 

开门呀是我   2017-03-10 14:05



   1个回答 
2

术语是One-hot encoding,中文翻译为独热编码。

在对categorical feature(分类特征)进行预处理的时候,不只是NLP,这个方法在回归、分类、聚类中都很常用。

高代兄   2017-03-10 23:35



  相关主题

求python里得到n-grams的包?   2回答

如何对中文部分进行独热处理(one-hot)   0回答

python去掉中文文本中所有的标点符号   3回答

自定义CountVectorizera中默认的英语stop_words   1回答

数据批量分析提取,求指点迷津   4回答

如果不去除stop words,word2vec的结果会受到影响吗?   0回答

文本处理中stop word什么意思   2回答

文本处理中的tf是什么意思?如何计算?   1回答

自然语言处理中的Tf-idf是什么意思   2回答

python里实现词云的package   3回答

python里怎么把中文字符串转化为成list   1回答

wordcloud安装报错error: Microsoft Visual C++ 14.0 is required   1回答



回答问题时需要注意什么?

我们谢绝在回答前讲“生动”的故事。

我们谢绝“这么简单,你自己想”、“书上有的,你认真看”这类的回答;如果你认为对方的提问方式或者内容不妥,你可以直接忽略该问题,不用进行任何作答,甚至可以对该问题投反对票。

我们谢绝答非所问。

我们谢绝自己不会、硬要回答。

我们感激每一个用户在编写答案时的努力与付出!