【轉載】關聯分析中的支持度、置信度和提升度

目錄

1. 支持度(Support)

2. 置信度 (Confidence)

3. 提升度(Lift)


1. 支持度(Support)

 支持度表示項集{X,Y}在總項集裏出現的概率。公式爲:

                                               Support(X→Y) = P(X,Y) / P(I) = P(X \cap Y) / P(I) = num(X \cap Y) / num(I)

 其中,I表示總事務集。num()表示求事務集裏特定項集出現的次數。  

            比如,num(I)表示總事務集的個數;num(X \cap​​​​​​​ Y)表示含有{X,Y}的事務集的個數(個數也叫次數)。    

 

2. 置信度 (Confidence)

   置信度表示在先決條件X發生的情況下,由關聯規則”X→Y“推出Y的概率。即在含有X的項集中,含有Y的可能性,公式爲:

                                                  Confidence(X→Y) = P(Y|X)  = P(X,Y) / P(X) = P(X \cap​​​​​​​ Y) / P(X) 

                                                  Confidence(Y→X) = P(X|Y)  = P(X,Y) / P(Y) = P(X \cap​​​​​​​ Y) / P(Y) 

 

3. 提升度(Lift)

    提升度表示含有X的條件下,同時含有Y的概率,與Y總體發生的概率之比。

                                                                             Lift(X→Y) = P(Y|X) / P(Y)

注:提升度 = 置信度 / 支持度 (lift(X->Y)=confidence(X->Y) / support(Y)

 

     例1,已知有1000名顧客買年貨,分爲甲乙兩組,每組各500人,其中甲組有500人買了茶葉,同時又有450人買了咖啡;乙組有450人買了咖啡,如表(1)所示:

                                                                                    表(1)年貨購買表

      試求解 1)”茶葉→咖啡“的支持度

                   2) "茶葉→咖啡"的置信度

                   3)”茶葉→咖啡“的提升度

    分析:

         設X= {買茶葉},Y={買咖啡},則規則”茶葉→咖啡“表示”即買了茶葉,又買了咖啡“,於是,”茶葉→咖啡“的支持度爲

               Support(X→Y) = 450 / 500 = 90%

        "茶葉→咖啡"的置信度爲

               Confidence(X→Y) = 450 / 500 = 90%

          ”茶葉→咖啡“的提升度爲

               Lift(X→Y) = Confidence(X→Y) / P(Y) = 90% /  ((450+450) / 1000) = 90% / 90% = 1

        由於提升度Lift(X→Y) =1,表示X與Y相互獨立,即是否有X,對於Y的出現無影響。也就是說,是否購買咖啡,與有沒有購買茶葉無關聯。即規則”茶葉→咖啡“不成立,或者說關聯性很小,幾乎沒有,雖然它的支持度和置信度都高達90%,但它不是一條有效的關聯規則。

        滿足最小支持度和最小置信度的規則,叫做“強關聯規則”。然而,強關聯規則裏,也分有效的強關聯規則和無效的強關聯規則。

        如果Lift(X→Y)>1,則規則“X→Y”是有效的強關聯規則。

        如果Lift(X→Y) <=1,則規則“X→Y”是無效的強關聯規則。

        特別地,如果Lift(X→Y) =1,則表示X與Y相互獨立。

 

參考鏈接:

https://blog.csdn.net/sanqima/article/details/42746419

https://blog.csdn.net/weixin_42057852/article/details/82661667

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章