怎么判断一句中文话语是否通顺

  统计/机器学习 自然语言处理    浏览次数:1452        分享
0
例如百度的dnn语言模型api接口输入一句话可以给出这句话的通顺度,http://ai.baidu.com/tech/nlp/dnnlm_cn,网上大多是说用n-gram模型,有具体点的训练思路吗
 

user_ning   2019-05-23 14:09



   1个回答 
0

我觉得n-gram这里是针对的词性,而不是词汇本身。

比如3-gram就是看毗邻的3个词的词性,假设词性分布为,‘动动名’,我们可以得到在训练集中‘动动名’出现的概率$P(动动名)$。长度为$n$的一个句子,我们就可以得到$n-2$个3-gram,也就是$n-2$个概率值。我们可以取这些概率值的最大值、最小值、均值、方差作为特征。

类似地,我们也可以同时做2-gram。2-gram是看毗邻两个词的词性。长度为$n$的一个句子,我们就可以得到$n-1$个2-gram,也就是$n-1$个概率值。我们可以取这些概率值的最大值、最小值、均值、方差作为特征。

这样每个句子我们就提取了8个特征,然后就可以训练一个二元分类器了。标签y是已知的句子是否通顺。

如果是无监督的,那么你只能对上面的特征进行聚类或者异常检验。

SofaSofa数据科学社区DS面试题库 DS面经

xiaosu   2019-05-23 14:43



  相关主题

nlp里的stemming是什么意思?   2回答

jieba分词中最大正向匹配法是什么?   1回答

文本处理中的tf是什么意思?如何计算?   1回答

自然语言处理中的Tf-idf是什么意思   2回答

“阅读需要X分钟”这个功能是如何实现的?   2回答

文本处理中stop word什么意思   2回答

教程中的利用Word2Vec判断是否是白话   1回答

怎么把英文字符串转为小写(python)?   2回答

gensim的word2vec模型是skip-gram还是cbow?   1回答

有个一万段文字 有一个关键词列表 找出文字中含有关键词的那些文字   1回答

python里实现词云的package   3回答

gensim里word2vec的window指的是什么?包括的范围是多大?   1回答



回答问题时需要注意什么?

我们谢绝在回答前讲“生动”的故事。

我们谢绝“这么简单,你自己想”、“书上有的,你认真看”这类的回答;如果你认为对方的提问方式或者内容不妥,你可以直接忽略该问题,不用进行任何作答,甚至可以对该问题投反对票。

我们谢绝答非所问。

我们谢绝自己不会、硬要回答。

我们感激每一个用户在编写答案时的努力与付出!