正常情况下,做word2vec的时候是需要去剔除掉stop words。如果不去除stop words,word2vec的结果会受到影响吗?会影响到模型准确性,还是说结果就完全无效不能用了?
1个回答
我觉得影响不大,更加不至于模型完全无效,模型应该是可以用的。
stopwords一般都是没有明确的意义,而且出现频率很高,比如英文中的of,a,the。
word2vec的原理是根据上下文共同出现的词来归纳词意,得到词向量的。而stopwords的上下文非常广泛,没有什么特定意义,上下文的内容很随机,所以对其他词汇的词向量的影响不大。
在Google的word2vec的原文也提到subsampling of frequent words,stopwords基本上都被欠采样了,所以影响就更小了。
SofaSofa数据科学社区DS面试题库 DS面经