1个回答
我觉得n-gram这里是针对的词性,而不是词汇本身。
比如3-gram就是看毗邻的3个词的词性,假设词性分布为,‘动动名’,我们可以得到在训练集中‘动动名’出现的概率$P(动动名)$。长度为$n$的一个句子,我们就可以得到$n-2$个3-gram,也就是$n-2$个概率值。我们可以取这些概率值的最大值、最小值、均值、方差作为特征。
类似地,我们也可以同时做2-gram。2-gram是看毗邻两个词的词性。长度为$n$的一个句子,我们就可以得到$n-1$个2-gram,也就是$n-1$个概率值。我们可以取这些概率值的最大值、最小值、均值、方差作为特征。
这样每个句子我们就提取了8个特征,然后就可以训练一个二元分类器了。标签y是已知的句子是否通顺。
如果是无监督的,那么你只能对上面的特征进行聚类或者异常检验。
SofaSofa数据科学社区DS面试题库 DS面经 相关主题
gensim的word2vec模型是skip-gram还是cbow?
1回答
怎么把训练好的bin格式的word2vec模型导入到gensim中使用?
1回答
有个一万段文字 有一个关键词列表 找出文字中含有关键词的那些文字
1回答
wordcloud安装报错error: Microsoft Visual C++ 14.0 is required
1回答
我们谢绝在回答前讲“生动”的故事。
我们谢绝“这么简单,你自己想”、“书上有的,你认真看”这类的回答;如果你认为对方的提问方式或者内容不妥,你可以直接忽略该问题,不用进行任何作答,甚至可以对该问题投反对票。
我们谢绝答非所问。
我们谢绝自己不会、硬要回答。
我们感激每一个用户在编写答案时的努力与付出!