python去掉中文文本中所有的标点符号

  统计/机器学习 自然语言处理 数据预处理 Python
0

我有一段文本

“ 文本聚类:使用聚类方法,对词汇,片段,段落或文件进行分组和归类。”

去除标点符号之后的效果是

“ 文本聚类使用聚类方法对词汇片段段落或文件进行分组和归类”


用python如何实现这样的效果?谢谢



 

剪叔   2017-11-21 09:43



   3个回答 
4

试试下面这个

import re
print(re.sub("[\s+\.\!\/_,$%^*(+\"\']+|[+——!,。?、~@#¥%……&*():]+".decode("utf8"), "".decode("utf8"), s.decode("utf8")))


染盘   2017-11-27 10:37

2

可以直接用正则表达式

import re

s = ' 文本聚类:使用聚类方法,对词汇,片段,段落或文件进行分组和归类。'
print(re.sub('\W', '', s))

双枪伽利略   2017-11-23 14:53

谢谢您的回复,这个\W是什么意思?根据您的代码,我最后print出来的是个空字符串 - 剪叔   2017-11-25 14:55
1

可以用python的正则表达


Lydia   2017-11-23 14:25



相关问题

请问NLP中这种编码方式有没有什么术语?   1回答

python里怎么把中文字符串转化为成list   1回答

用python统计字符串中空格的个数   3回答

自然语言处理中的Tf-idf是什么意思   1回答

文本处理中的tf是什么意思?如何计算?   1回答

自然语言处理中的分词是什么意思?   1回答

gensim训练出的Word2Vec模型每次都不一样   1回答

word2vec的网络里为什么没有bias偏置项   1回答

NLP中的hashing trick是什么?   1回答

laplace光滑什么意思   1回答

怎么求一个数组的移动平均数   1回答

python的dataframe如何重新排列行或者列   1回答



回答问题时需要注意什么?

我们谢绝在回答前讲“生动”的故事。

我们谢绝“这么简单,你自己想”、“书上有的,你认真看”这类的回答;如果你认为对方的提问方式或者内容不妥,你可以直接忽略该问题,不用进行任何作答,甚至可以对该问题投反对票。

我们谢绝答非所问。

我们谢绝自己不会、硬要回答。

我们感激每一个用户在编写答案时的努力与付出!