Jaccard相似或者Jaccard距离是怎么计算的?

  统计/机器学习 监督式学习 推荐系统    浏览次数:5746        分享
0

Jaccard相似或者Jaccard距离是怎么计算的?

 

DeGang   2017-06-04 12:39



   1个回答 
5

不同于余弦相似,Jaccard相似是用来度量两个集合的相似的程度的。对于集合$A$和$B$,它们的Jaccard相似是

$$J_{A,B}=\frac{|A\cap B|}{|A\cup B|}.$$

$|S|$表示集合$S$中元素的个数。Jaccard距离就是$1-J_{A,B}$。


比如集合$A=\{a,b,c,d,e\}$,$B=\{b,c,f\}$,

$$J_{A,B}=\frac{|A\cap B|}{|A\cup B|}=\frac{2}{6}=0.3333$$


当然也可以用在无限的集合上面,用长度或者面积表示集合大小。比如有两个0.95置信区间$A=(0.8,2.5)$和$B=(1.5,4)$,

$$J_{A,B}=\frac{|A\cap B|}{|A\cup B|}=\frac{1}{3.2}=0.3125$$


也可以用在两个二进制向量上,第$k$个分量是$1$就表示这个集合中含有元素$k$。比如$A=(1,0,0,1,1,1,1)$和$B=(1,1,0,0,0,1,1)$,

$$J_{A,B}=\frac{|A\cap B|}{|A\cup B|}=\frac{3}{6}=0.5$$


SofaSofa数据科学社区DS面试题库 DS面经

高代兄   2017-06-04 13:54



  相关讨论

推荐系统里的ALS是什么意思?

pointwise和pairwise推荐排序算法的区别是什么?

余弦相似和内积的意义?

推荐系统中常用的表示相似或者距离的方法有哪些?

怎么给推荐结果增加多样性和随机性?

推荐系统算法里的cold start是什么意思?

两个向量的余弦距离大于1?

Cumulative Gain Chart 和Lift Chart的解释是什么

协同过滤的数据预处理问题

为什么wide&deep模型用ftrl和adagrad两种优化方法

  随便看看

dropout rate一般设置多大?

怎么提取pandas dataframe中某一列每个字符串的前n个字符?

为什么梯度的反方向是函数下降最快的方向?

非方阵的逆是什么

回归中自变量和因变量的相关系数和回归系数(斜率)有什么关系?