如果不去除stop words,word2vec的结果会受到影响吗?

  统计/机器学习 自然语言处理 数据预处理 开放问题    浏览次数:3949        分享
0

正常情况下,做word2vec的时候是需要去剔除掉stop words。如果不去除stop words,word2vec的结果会受到影响吗?会影响到模型准确性,还是说结果就完全无效不能用了?

 

xxax   2018-09-30 01:51



   1个回答 
1

我觉得影响不大,更加不至于模型完全无效,模型应该是可以用的。

stopwords一般都是没有明确的意义,而且出现频率很高,比如英文中的of,a,the。

word2vec的原理是根据上下文共同出现的词来归纳词意,得到词向量的。而stopwords的上下文非常广泛,没有什么特定意义,上下文的内容很随机,所以对其他词汇的词向量的影响不大。

在Google的word2vec的原文也提到subsampling of frequent words,stopwords基本上都被欠采样了,所以影响就更小了。

SofaSofa数据科学社区DS面试题库 DS面经

u_u   2019-09-26 22:26



  相关讨论

word2vec怎么处理一词多义的情况?

gensim里word2vec的window指的是什么?包括的范围是多大?

怎么把训练好的bin格式的word2vec模型导入到gensim中使用?

教程中的利用Word2Vec判断是否是白话

gensim的word2vec模型是skip-gram还是cbow?

gensim.models.word2vec模块的LineSentence有什么用?

gensim训练出的Word2Vec模型每次都不一样

为什么基于skip-gram的word2vec在低频词汇相比cbow更有效?

word2vec的网络里为什么没有bias偏置项

训练word2vec时移动窗口的大小怎么选择?

  随便看看

凸优化中局部最优解就是全局最优解吗?

matplotlib.pyplot做折线图的时候,显示为虚线,或者点划线?

【站务】我们回来了

kappa statistic怎么理解?有什么意义?

python或者numpy求数值的中位数、四分位数