jieba分词中最大正向匹配法是什么?

  统计/机器学习 自然语言处理    浏览次数:1700        分享
0

非常著名的jieba分词主要是依赖于最大正向匹配法,请问如何深入浅出的来理解这个方法?谢谢!

 

ccc225   2019-06-21 16:01



   1个回答 
4

这个算法不是统计方法,也没有机器学习的模型,就是个贪婪的扫描算法。

最大正向匹配算法需要一个分词词典(也即是已经分词过的词典,包括所有的单个汉字)。

假定分词词典中的最长词有k个汉子字符串,则用被处理文档的当前字符串中的前k个字作为匹配字段,查找字典。若此时分词词典中存在这样一个字符串,则匹配成功,而此时被匹配的字段切分出来。如果匹配失败,将匹配字段中的最后一个字去掉,对此时剩下的字串重新与分词词典进行匹配,如此下去直到匹配成功。也即是切分出一个词或剩余字串的长度为零为止,这个时候才是匹配了一轮,接着进行下一个k字字串的匹配,方法同上,直到文档被扫描完为止。

这样分词的效果是让每个被分出来的词尽量长,句子被分的次数少。

SofaSofa数据科学社区DS面试题库 DS面经

abuu   2019-09-13 08:50



  相关主题

自然语言处理中的Tf-idf是什么意思   2回答

教程中的利用Word2Vec判断是否是白话   1回答

怎么判断一句中文话语是否通顺   1回答

文本处理中stop word什么意思   2回答

nlp里的stemming是什么意思?   2回答

文本处理中的tf是什么意思?如何计算?   1回答

“阅读需要X分钟”这个功能是如何实现的?   2回答

如何用python统计一个txt文本的行数   3回答

有个一万段文字 有一个关键词列表 找出文字中含有关键词的那些文字   1回答

怎么把英文字符串转为小写(python)?   2回答

用python统计字符串中空格的个数   3回答

gensim里word2vec的window指的是什么?包括的范围是多大?   1回答



回答问题时需要注意什么?

我们谢绝在回答前讲“生动”的故事。

我们谢绝“这么简单,你自己想”、“书上有的,你认真看”这类的回答;如果你认为对方的提问方式或者内容不妥,你可以直接忽略该问题,不用进行任何作答,甚至可以对该问题投反对票。

我们谢绝答非所问。

我们谢绝自己不会、硬要回答。

我们感激每一个用户在编写答案时的努力与付出!