自定义CountVectorizera中默认的英语stop_words

  统计/机器学习 自然语言处理 数据预处理 Python    浏览次数: 98
0

当我们用sklearn.feature_extraction.text.CountVectorizer对英文文本进行处理的时候,怎么自定义英语的stop_words?

谢谢

 

newcomer   2018-09-22 15:25



   1个回答 
3

直接设置stop_words这个参量就可以了

from sklearn.feature_extraction import text
my_stopwords = ['a', 'ab', 'abc']
text.CountVectorizer(stop_words= my_stopwords)

你也可以对系统默认的stop words添加自己的新词

my_stopwords = text.ENGLISH_STOP_WORDS.union(['a', 'ab', 'abc'])
text.CountVectorizer(stop_words= my_stopwords)


matt   2018-09-26 12:06

谢谢! - newcomer   2018-10-02 11:29


  相关主题

python去掉中文文本中所有的标点符号   3回答

如何对中文部分进行独热处理(one-hot)   0回答

求python里得到n-grams的包?   2回答

请问NLP中这种编码方式有没有什么术语?   1回答

如果不去除stop words,word2vec的结果会受到影响吗?   0回答

数据批量分析提取,求指点迷津   4回答

怎么把英文字符串转为小写(python)?   2回答

wordcloud安装报错error: Microsoft Visual C++ 14.0 is required   1回答

python里怎么把中文字符串转化为成list   1回答

用python统计字符串中空格的个数   3回答

如何用python统计一个txt文本的行数   3回答

python里实现词云的package   3回答



回答问题时需要注意什么?

我们谢绝在回答前讲“生动”的故事。

我们谢绝“这么简单,你自己想”、“书上有的,你认真看”这类的回答;如果你认为对方的提问方式或者内容不妥,你可以直接忽略该问题,不用进行任何作答,甚至可以对该问题投反对票。

我们谢绝答非所问。

我们谢绝自己不会、硬要回答。

我们感激每一个用户在编写答案时的努力与付出!