(1)兩個集合A和B的交集元素在A、B的並集中所佔的比例,稱爲兩個集合的傑卡德相似係數,用負號J(A,B)表示。
J(A,B) = |A交B| / |A∪B|
傑卡德相似係數是衡量兩個集合的相似度的一種指標。
(2)傑卡德距離:
與傑卡德相似係數相反的概念
= 1 - J(A,B) =( |A∪B| - |A角B| )/ |A∪B|
傑卡德距離用兩個集合中不同元素佔所有元素的比例來衡量兩個集合的區分度。
應用:可將傑卡德相似係數用在衡量樣本的相似度上
A(0111) B(1011) ,1表示集合包含該元素,0表示集合不包含該元素
P:樣本A與B都是1的維度的個數
q :樣本A是1、樣本B是0的維度的個數
r:樣本A是0,樣本B是1的維度的個數
s:樣本A與B都是0的維度的個數
A,B的傑卡德相似係數:J = P/(P+q+r)