高斯混合模型对初始值敏感吗?

  统计/机器学习 概率分布 无监督学习    浏览次数:1743        分享
0

刚刚看了GMM与EM的教程,想到一个问题,在用EM求解GMM时,初始值(初始状态下各聚类的中心点)是敏感的吗?换句话说,会因为初始点选择不当导致最终没有收敛到全局最优吗?

 

萨浪嘿   2019-06-25 00:52



   1个回答 
4

对于GMM:

当分类标签已知时,complete data log likelihood是convex函数,有唯一全局最优。

当分类标签未知时,observed data log likelihood不是convex函数,有局部最优,此时EM 对初始值敏感。

参考murphy书的11.3.2。(把这一页贴上来,希望没版权问题。)


11.15式中$z_i$未知,需要用积分去掉$z_i$;其中两项都是convex,两个convex相减一般是nonconvex。

SofaSofa数据科学社区DS面试题库 DS面经

Zealing   2019-06-25 10:18

“分类标签已知”是指知道每类的均值和方差吗? - 萨浪嘿   2019-06-27 00:56
分类标签是每个数据点属于哪个类(Gaussian component)的one-hot编码,比如说https://en.wikipedia.org/wiki/Mixture_model#Gaussian_mixture_model 的$z_i$。均值和方差是需要估计的统计参数$\theta$。 - Zealing   2019-06-27 01:47
明白了,谢谢大佬 - 萨浪嘿   2019-06-28 14:39


  相关主题

高斯混合模型里的隐变量是什么变量?   3回答

关于高斯混合模型的分布的疑问   3回答

用高斯混合模型(GMM)做聚类时,怎么确定component的个数?   2回答

如果数据不是正态分布,能用3sigma原则剔除异常值吗?   3回答

机器学习中,数据的分布是指什么呢?   1回答

强大数定律和弱大数定律有什么区别?   1回答

二项分布的正态近似   2回答

怎么理解tweedie分布?   2回答

均匀分布的上限的最大似然估计   2回答

怎么判断一个数据集是双峰分布的?   1回答

log-normal分布实际有什么用?   3回答

长尾分布、肥尾分布、重尾分布?   2回答



回答问题时需要注意什么?

我们谢绝在回答前讲“生动”的故事。

我们谢绝“这么简单,你自己想”、“书上有的,你认真看”这类的回答;如果你认为对方的提问方式或者内容不妥,你可以直接忽略该问题,不用进行任何作答,甚至可以对该问题投反对票。

我们谢绝答非所问。

我们谢绝自己不会、硬要回答。

我们感激每一个用户在编写答案时的努力与付出!