Jaccard相似或者Jaccard距离是怎么计算的?

  统计/机器学习 监督式学习 推荐系统    浏览次数: 849
0

Jaccard相似或者Jaccard距离是怎么计算的?

 

DeGang   2017-06-04 12:39



   1个回答 
5

不同于余弦相似,Jaccard相似是用来度量两个集合的相似的程度的。对于集合$A$和$B$,它们的Jaccard相似是

$$J_{A,B}=\frac{|A\cap B|}{|A\cup B|}.$$

$|S|$表示集合$S$中元素的个数。Jaccard距离就是$1-J_{A,B}$。


比如集合$A=\{a,b,c,d,e\}$,$B=\{b,c,f\}$,

$$J_{A,B}=\frac{|A\cap B|}{|A\cup B|}=\frac{2}{6}=0.3333$$


当然也可以用在无限的集合上面,用长度或者面积表示集合大小。比如有两个0.95置信区间$A=(0.8,2.5)$和$B=(1.5,4)$,

$$J_{A,B}=\frac{|A\cap B|}{|A\cup B|}=\frac{1}{3.2}=0.3125$$


也可以用在两个二进制向量上,第$k$个分量是$1$就表示这个集合中含有元素$k$。比如$A=(1,0,0,1,1,1,1)$和$B=(1,1,0,0,0,1,1)$,

$$J_{A,B}=\frac{|A\cap B|}{|A\cup B|}=\frac{3}{6}=0.5$$


SofaSofa数据科学社区 DS面经 问答 实战

高代兄   2017-06-04 13:54



  相关主题

余弦相似和内积的意义?   1回答

推荐系统中常用的表示相似或者距离的方法有哪些?   1回答

推荐系统里的ALS是什么意思?   2回答

推荐系统算法里的cold start是什么意思?   2回答

两个向量的余弦距离大于1?   1回答

协同过滤的数据预处理问题   4回答

推荐系统有哪些常用的评价标准   4回答

推荐系统中的召回(recall)是什么意思?   1回答

怎么理解推荐系统中的NDCG?   1回答

关于pairwise ranking数据预处理的问题   0回答

余弦相似的定义是什么?怎么计算?   1回答

python里怎么计算jaccard相似   2回答



回答问题时需要注意什么?

我们谢绝在回答前讲“生动”的故事。

我们谢绝“这么简单,你自己想”、“书上有的,你认真看”这类的回答;如果你认为对方的提问方式或者内容不妥,你可以直接忽略该问题,不用进行任何作答,甚至可以对该问题投反对票。

我们谢绝答非所问。

我们谢绝自己不会、硬要回答。

我们感激每一个用户在编写答案时的努力与付出!