1、從大規模數據集中尋找物品間的隱含關係被稱作關聯分析或者關聯規則學習。
2、頻繁項集:經常出現在一塊的物品的集合。
3、關聯規則:暗示兩種物品之間可能存在很強的關係,而支持度和可信度是用來量化關聯分析是否成功的方法。
4、一個項集的支持度被定義爲數據集中包含該項集的記錄所佔的比例。
5、可信度或置信度:針對關聯規則來定義。例如{尿布,葡萄酒}的支持度爲3/5,{尿布}的支持度爲4/5,所以規則“尿布->葡萄酒”的可信度爲3/4=0.75,即對於包含“尿布”的所有記錄,規則對於其中75%的記錄都適用。
6、Apriori原理可以減少關聯規則學習時所需的計算量:
一般過程:
1)收集數據,適用任意方法;
2)準備數據:任何數據類型都可以,因爲我們只保存集合;
3)分析數據:使用任意方法;
4)訓練算法:使用Apriori算法來找到頻繁項集;
5)測試算法:不需要測試過程;
6)使用算法:用於發現頻繁項集以及物品之間的關聯規則。
7、簡述Apriori原理:意思是如果某個項集是頻繁的,那麼它的所有子集也是頻繁的,在直觀上這並沒有什麼幫助,但是如果反過來:也就是說如果一個項集是非頻繁集,那麼它的所有超集也是非頻繁的,這是非常有用的。
8、關聯分析的目標包括兩項:發現頻繁項集和發現關聯規則。
9、Apriori算法發現頻繁集的算法:
該算法首先生成所有單個物品的項集列表。接着掃描交易記錄來查看哪些項集滿足最小支持度要求,那些不滿足最小支持度的集合會被去掉。然後,對剩下了的集合進行組合以生成包含兩個元素的項集。接下來,再重新掃描交易記錄,去掉不滿足最小支持度的項集。該過程重複進行直到所有項集都被去掉。
10、如何生成候選項集:
對數據集中的每條交易記錄tran
對每個候選項集can:
檢查一下can是否是tran的自己:
如果是,則增加can的計數值
對每個候選項集:
如果其支持度不低於最小值,則保留該項集
返回所有頻繁項集列表