目錄
1. 支持度(Support)
支持度表示項集{X,Y}在總項集裏出現的概率。公式爲:
Support(X→Y) = P(X,Y) / P(I) = P(X Y) / P(I) = num(X Y) / num(I)
其中,I表示總事務集。num()表示求事務集裏特定項集出現的次數。
比如,num(I)表示總事務集的個數;num(X Y)表示含有{X,Y}的事務集的個數(個數也叫次數)。
2. 置信度 (Confidence)
置信度表示在先決條件X發生的情況下,由關聯規則”X→Y“推出Y的概率。即在含有X的項集中,含有Y的可能性,公式爲:
Confidence(X→Y) = P(Y|X) = P(X,Y) / P(X) = P(X Y) / P(X)
Confidence(Y→X) = P(X|Y) = P(X,Y) / P(Y) = P(X Y) / P(Y)
3. 提升度(Lift)
提升度表示含有X的條件下,同時含有Y的概率,與Y總體發生的概率之比。
Lift(X→Y) = P(Y|X) / P(Y)
注:提升度 = 置信度 / 支持度 (lift(X->Y)=confidence(X->Y) / support(Y))
例1,已知有1000名顧客買年貨,分爲甲乙兩組,每組各500人,其中甲組有500人買了茶葉,同時又有450人買了咖啡;乙組有450人買了咖啡,如表(1)所示:
表(1)年貨購買表
試求解 1)”茶葉→咖啡“的支持度
2) "茶葉→咖啡"的置信度
3)”茶葉→咖啡“的提升度
分析:
設X= {買茶葉},Y={買咖啡},則規則”茶葉→咖啡“表示”即買了茶葉,又買了咖啡“,於是,”茶葉→咖啡“的支持度爲
Support(X→Y) = 450 / 500 = 90%
"茶葉→咖啡"的置信度爲
Confidence(X→Y) = 450 / 500 = 90%
”茶葉→咖啡“的提升度爲
Lift(X→Y) = Confidence(X→Y) / P(Y) = 90% / ((450+450) / 1000) = 90% / 90% = 1
由於提升度Lift(X→Y) =1,表示X與Y相互獨立,即是否有X,對於Y的出現無影響。也就是說,是否購買咖啡,與有沒有購買茶葉無關聯。即規則”茶葉→咖啡“不成立,或者說關聯性很小,幾乎沒有,雖然它的支持度和置信度都高達90%,但它不是一條有效的關聯規則。
滿足最小支持度和最小置信度的規則,叫做“強關聯規則”。然而,強關聯規則裏,也分有效的強關聯規則和無效的強關聯規則。
如果Lift(X→Y)>1,則規則“X→Y”是有效的強關聯規則。
如果Lift(X→Y) <=1,則規則“X→Y”是無效的強關聯規則。
特別地,如果Lift(X→Y) =1,則表示X與Y相互獨立。
參考鏈接:
https://blog.csdn.net/sanqima/article/details/42746419
https://blog.csdn.net/weixin_42057852/article/details/82661667