數據挖掘-----Apriori算法

又來記錄學習了鴨~好記性不如爛筆頭 記錄除了可以更好地學習 其次就是可以發現自己之前的理解是否出錯了!


首先,Apriori算法是關聯規則挖掘中很基礎也很經典的一個算法。

所以做如下補充:

關聯規則:形如X→Y的蘊涵式,其中, X和Y分別稱爲關聯規則的先導(antecedent或left-hand-side, LHS)和後繼(consequent或right-hand-side, RHS) 。其中,關聯規則XY,存在支持度和信任度。

支持度:規則前項LHS和規則後項RHS所包括的商品都同時出現的概率,可以理解爲LHS和RHS商品的交易次數/總交易次數。

置信度:在所有的購買了左邊商品的交易中,同時又購買了右邊商品的交易機率,包含規則兩邊商品的交易次數/包括規則左邊商品的交易次數。

提升度:(有這個規則和沒有這個規則是否概率會提升,規則是否有價值):無任何約束的情況下買後項的交易次數/置信度。注意:提升度必須大於1纔有意義

(截圖來源:Apriori算法原理總結 - 劉建平Pinard - 博客園


進入正題啦~

Apriori的算法思想

在Apriori算法z中,我們通常使用支持度來作爲我們判斷頻繁項集的標準。

Apriori算法的目標是找到最大的K項頻繁集

補充:{頻繁項集產生:其目標是發現滿足最小支持度閾值的所有項集,這些項集稱作頻繁項集(frequent itemset)}

Apriori定律1:如果一個集合是頻繁項集,則它的所有子集都是頻繁項集。

舉個栗子:假設一個集合{A,B}是頻繁項集,即A、B同時出現在一條記錄的次數大於等於最小支持度min_support,則它的子集{A},{B}出現次數必定大於等於min_support,即它的子集都是頻繁項集。

Apriori定律2:如果一個集合不是頻繁項集,則它的所有超集都不是頻繁項集。

舉個栗子:假設集合{A}不是頻繁項集,即A出現的次數小於 min_support,則它的任何超集如{A,B}出現的次數必定小於min_support,因此其超集必定也不是頻繁項集。


Apriori的算法步驟

輸入:數據集合D,支持度閾值α

    輸出:最大的頻繁k項集

    1)掃描整個數據集,得到所有出現過的數據,作爲候選頻繁1項集。k=1,頻繁0項集爲空集。

    2)挖掘頻繁k項集

      a) 掃描數據計算候選頻繁k項集的支持度

      b) 去除候選頻繁k項集中支持度低於閾值的數據集,得到頻繁k項集。如果得到的頻繁k項集爲空,則直接返回頻繁k-1項集的集合作爲算法結果,算法結束。如果得到的頻繁k項集只有一項,則直接返回頻繁k項集的集合作爲算法結果,算法結束。

      c) 基於頻繁k項集,連接生成候選頻繁k+1項集。

    3) 令k=k+1,轉入步驟2。


敲腦殼 重點來啦~

Apriori的算法的應用

下面這個表格是代表一個事務數據庫D,

其中最小支持度爲50%,最小置信度爲70%,求事務數據庫中的頻繁關聯規則。

 apriori算法的步驟如下所示:

  (1)生成候選頻繁1-項目集C1={{麪包},{牛奶},{啤酒},{花生},{尿布}}。

  (2)掃描事務數據庫D,計算C1中每個項目集在D中的支持度。從事務數據庫D中可以得出每個項目集的支持數分別爲3,3,3,1,2,事務數據庫D的項目集總數爲4,因此可得出C1中每個項目集的支持度分別爲75%,75%,75%,25%,50%。根據最小支持度爲50%,可以得出頻繁1-項目集L1={{麪包},{牛奶},{啤酒},{尿布}}。

  (3)根據L1生成候選頻繁2-項目集C2={{麪包,牛奶},{麪包,啤酒},{麪包,尿布},{牛奶,啤酒},{牛奶,尿布},{啤酒,尿布}}。

  (4)掃描事務數據庫D,計算C2中每個項目集在D中的支持度。從事務數據庫D中可以得出每個項目集的支持數分別爲3,2,1,2,1,2,事務數據庫D的項目集總數爲4,因此可得出C2中每個項目集的支持度分別爲75%,50%,25%,50%,25%,50%。根據最小支持度爲50%,可以得出頻繁2-項目集L2={{麪包,牛奶},{麪包,啤酒},{牛奶,啤酒},{啤酒,尿布}}。

  (5)根據L2生成候選頻繁3-項目集C3={{麪包,牛奶,啤酒},{麪包,牛奶,尿布},{麪包,啤酒,尿布},{牛奶,啤酒,尿布}},由於C3中項目集{麪包,牛奶,尿布}中的一個子集{牛奶,尿布}是L2中不存在的,因此可以去除。同理項目集{麪包,啤酒,尿布}、{牛奶,啤酒,尿布}也可去除。因此C3={麪包,牛奶,啤酒}。

  (6)掃描事務數據庫D,計算C3中每個項目集在D中的支持度。從事務數據庫D中可以得出每個項目集的支持數分別爲2,事務數據庫D的項目集總數爲4,因此可得出C2中每個項目集的支持度分別爲50%。根據最小支持度爲50%,可以得出頻繁3-項目集L3={{麪包,牛奶,啤酒}}。

  (7)L=L1UL2UL3={{麪包},{牛奶},{啤酒},{尿布},{麪包,牛奶},{麪包,啤酒},{牛奶,啤酒},{啤酒,尿布},{麪包,牛奶,啤酒}}。

  (8)我們只考慮項目集長度大於1的項目集,例如{麪包,牛奶,啤酒},它的所有非真子集{麪包},{牛奶},{啤酒},{麪包,牛奶},{麪包,啤酒},{牛奶,啤酒},分別計算關聯規則{麪包}—>{牛奶,啤酒},{牛奶}—>{麪包,啤酒},{啤酒}—>{麪包,牛奶},{麪包,牛奶}—>{啤酒},{麪包,啤酒}—>{牛奶},{牛奶,啤酒}—>{麪包}的置信度,其值分別爲67%,67%,67%,67%,100%,100%。由於最小置信度爲70%,可得},{麪包,啤酒}—>{牛奶},{牛奶,啤酒}—>{麪包}爲頻繁關聯規則。也就是說買麪包和啤酒的同時肯定會買牛奶,買牛奶和啤酒的同時也是會買麪包。

由這個例子可以看出apriori主要是根據 最小支持度來判斷的 逐步遞進

but~這其中也有一些缺點: 從算法的步驟可以看出,Aprior算法每輪迭代都要掃描數據集,因此在數據集很大,數據種類很多的時候,算法效率很低。

 

參考:關於apriori算法的一個簡單的例子 - 寧靜之家 - 博客園


附相關解釋圖:



轉載來自:鏈接:https://www.jianshu.com/p/26d61b83492e

呃呃呃背了兩節課單詞   突然課堂交作業。。。不到10分鐘學完Apriori算法 別說了我和我朋友真牛逼需要補充的就是

計算支持度的話。。。。比如 啤酒牛奶->麪包  分子是麪包出現的次數/(啤酒牛奶同時出現)的次數   這邊沒有搞清楚。。

OK還有術語的問題就網上找吧~~·

 

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章