如何确定LDA主题模型中的主题个数?

  统计/机器学习 无监督学习 自然语言处理 开放问题    浏览次数:5742        分享
1

LDA主题模型需要预先设定好主题的个数,那么该如何确定?有什么通用的方法吗?

 

waccam   2018-08-30 13:30



   1个回答 
3

可以用coherence scores来确定,具体方法类似于k means的手肘法,然后利用coherence scores去找拐点。


python里可以用gensim实现lda的主体个数选取

SofaSofa数据科学社区DS面试题库 DS面经

sasa   2019-01-01 05:48

谢谢分享,可以试试 - waccam   2019-01-04 14:38


  相关主题

潜语义分析中,向量空间的表示是从哪里变换到哪里?   1回答

word2vec怎么处理一词多义的情况?   3回答

NLP里的OOV是什么意思?   2回答

怎么识别“的”“地”“得”是否用错?   1回答

自然语言处理中的分词是什么意思?   1回答

求推荐条件随机场(CRF)的python package   1回答

可以把多个文档、段落向量直接加和求平均来获得新的表示向量吗?   1回答

有没有对聚类成员个数有限制的聚类算法?   3回答

k均值有用到EM的思想吗?   1回答

HDBSCAN和DBSCAN这两种聚类方法有什么区别?   0回答

一维的数据可以做聚类吗?   3回答

如果不去除stop words,word2vec的结果会受到影响吗?   1回答



回答问题时需要注意什么?

我们谢绝在回答前讲“生动”的故事。

我们谢绝“这么简单,你自己想”、“书上有的,你认真看”这类的回答;如果你认为对方的提问方式或者内容不妥,你可以直接忽略该问题,不用进行任何作答,甚至可以对该问题投反对票。

我们谢绝答非所问。

我们谢绝自己不会、硬要回答。

我们感激每一个用户在编写答案时的努力与付出!