數據挖掘-----Apriori算法

又來記錄學習了鴨~好記性不如爛筆頭記錄除了可以更好地學習其次就是可以發現自己之前的理解是否出錯了！

首先，Apriori算法是關聯規則挖掘中很基礎也很經典的一個算法。

所以做如下補充：

關聯規則：形如X→Y的蘊涵式，其中， X和Y分別稱爲關聯規則的先導(antecedent或left-hand-side, LHS)和後繼(consequent或right-hand-side, RHS) 。其中，關聯規則XY，存在支持度和信任度。

支持度：規則前項LHS和規則後項RHS所包括的商品都同時出現的概率，可以理解爲LHS和RHS商品的交易次數/總交易次數。

置信度：在所有的購買了左邊商品的交易中，同時又購買了右邊商品的交易機率，包含規則兩邊商品的交易次數/包括規則左邊商品的交易次數。

提升度：（有這個規則和沒有這個規則是否概率會提升，規則是否有價值）：無任何約束的情況下買後項的交易次數/置信度。注意：提升度必須大於1纔有意義。

（截圖來源：Apriori算法原理總結 - 劉建平Pinard - 博客園）

進入正題啦~

Apriori的算法思想

在Apriori算法z中，我們通常使用支持度來作爲我們判斷頻繁項集的標準。

Apriori算法的目標是找到最大的K項頻繁集。

補充：{頻繁項集產生：其目標是發現滿足最小支持度閾值的所有項集，這些項集稱作頻繁項集（frequent itemset）}

Apriori定律1：如果一個集合是頻繁項集，則它的所有子集都是頻繁項集。

舉個栗子：假設一個集合{A,B}是頻繁項集，即A、B同時出現在一條記錄的次數大於等於最小支持度min_support，則它的子集{A},{B}出現次數必定大於等於min_support，即它的子集都是頻繁項集。

Apriori定律2：如果一個集合不是頻繁項集，則它的所有超集都不是頻繁項集。

舉個栗子：假設集合{A}不是頻繁項集，即A出現的次數小於 min_support，則它的任何超集如{A,B}出現的次數必定小於min_support，因此其超集必定也不是頻繁項集。

Apriori的算法步驟

輸入：數據集合D，支持度閾值α

　　　　輸出：最大的頻繁k項集

　　　　1）掃描整個數據集，得到所有出現過的數據，作爲候選頻繁1項集。k=1，頻繁0項集爲空集。

　　　　2）挖掘頻繁k項集

　　　　　　a) 掃描數據計算候選頻繁k項集的支持度

　　　　　　b) 去除候選頻繁k項集中支持度低於閾值的數據集,得到頻繁k項集。如果得到的頻繁k項集爲空，則直接返回頻繁k-1項集的集合作爲算法結果，算法結束。如果得到的頻繁k項集只有一項，則直接返回頻繁k項集的集合作爲算法結果，算法結束。

　　　　　　c) 基於頻繁k項集，連接生成候選頻繁k+1項集。

　　　　3）令k=k+1，轉入步驟2。

敲腦殼重點來啦~

Apriori的算法的應用

下面這個表格是代表一個事務數據庫D，

其中最小支持度爲50%，最小置信度爲70%，求事務數據庫中的頻繁關聯規則。

　apriori算法的步驟如下所示:

　　(1)生成候選頻繁1-項目集C1={{麪包}，{牛奶}，{啤酒}，{花生}，{尿布}}。

　　(2)掃描事務數據庫D，計算C1中每個項目集在D中的支持度。從事務數據庫D中可以得出每個項目集的支持數分別爲3,3,3,1,2，事務數據庫D的項目集總數爲4，因此可得出C1中每個項目集的支持度分別爲75%，75%，75%，25%，50%。根據最小支持度爲50%，可以得出頻繁1-項目集L1={{麪包}，{牛奶}，{啤酒}，{尿布}}。

　　(3)根據L1生成候選頻繁2-項目集C2={{麪包，牛奶}，{麪包，啤酒}，{麪包，尿布}，{牛奶，啤酒}，{牛奶，尿布}，{啤酒，尿布}}。

　　(4)掃描事務數據庫D，計算C2中每個項目集在D中的支持度。從事務數據庫D中可以得出每個項目集的支持數分別爲3,2,1,2,1,2，事務數據庫D的項目集總數爲4，因此可得出C2中每個項目集的支持度分別爲75%，50%，25%，50%，25%，50%。根據最小支持度爲50%，可以得出頻繁2-項目集L2={{麪包，牛奶}，{麪包，啤酒}，{牛奶，啤酒}，{啤酒，尿布}}。

　　(5)根據L2生成候選頻繁3-項目集C3={{麪包，牛奶，啤酒}，{麪包，牛奶，尿布}，{麪包，啤酒，尿布}，{牛奶，啤酒，尿布}}，由於C3中項目集{麪包，牛奶，尿布}中的一個子集{牛奶，尿布}是L2中不存在的，因此可以去除。同理項目集{麪包，啤酒，尿布}、{牛奶，啤酒，尿布}也可去除。因此C3={麪包，牛奶，啤酒}。

　　(6)掃描事務數據庫D，計算C3中每個項目集在D中的支持度。從事務數據庫D中可以得出每個項目集的支持數分別爲2，事務數據庫D的項目集總數爲4，因此可得出C2中每個項目集的支持度分別爲50%。根據最小支持度爲50%，可以得出頻繁3-項目集L3={{麪包，牛奶，啤酒}}。

　　(7)L=L1UL2UL3={{麪包}，{牛奶}，{啤酒}，{尿布}，{麪包，牛奶}，{麪包，啤酒}，{牛奶，啤酒}，{啤酒，尿布}，{麪包，牛奶，啤酒}}。

　　(8)我們只考慮項目集長度大於1的項目集，例如{麪包，牛奶，啤酒}，它的所有非真子集{麪包}，{牛奶}，{啤酒}，{麪包，牛奶}，{麪包，啤酒}，{牛奶，啤酒}，分別計算關聯規則{麪包}—>{牛奶，啤酒}，{牛奶}—>{麪包，啤酒}，{啤酒}—>{麪包，牛奶}，{麪包，牛奶}—>{啤酒}，{麪包，啤酒}—>{牛奶}，{牛奶，啤酒}—>{麪包}的置信度，其值分別爲67%，67%，67%，67%，100%，100%。由於最小置信度爲70%，可得}，{麪包，啤酒}—>{牛奶}，{牛奶，啤酒}—>{麪包}爲頻繁關聯規則。也就是說買麪包和啤酒的同時肯定會買牛奶，買牛奶和啤酒的同時也是會買麪包。

由這個例子可以看出apriori主要是根據 最小支持度來判斷的逐步遞進

but~這其中也有一些缺點：　從算法的步驟可以看出，Aprior算法每輪迭代都要掃描數據集，因此在數據集很大，數據種類很多的時候，算法效率很低。

參考：關於apriori算法的一個簡單的例子 - 寧靜之家 - 博客園

附相關解釋圖：

轉載來自：鏈接：https://www.jianshu.com/p/26d61b83492e

呃呃呃背了兩節課單詞突然課堂交作業。。。不到10分鐘學完Apriori算法別說了我和我朋友真牛逼需要補充的就是

計算支持度的話。。。。比如啤酒牛奶->麪包分子是麪包出現的次數/（啤酒牛奶同時出現）的次數這邊沒有搞清楚。。

OK還有術語的問題就網上找吧~~·

數據挖掘-----Apriori算法

Apriori的算法思想

Apriori的算法步驟

Apriori的算法的應用

2015年Java組B組

L1-025__032

數據結構一些自己沒搞懂的點

PAT積甲級考試複習經驗和考完感想？？

L1- 017——024

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結