關聯規則探索
目標:確定同時購買的幾樣物品
方法:處理通過以下渠道收集的銷售數據
- 條形碼掃描儀以查找依賴關係
經典法則:
- 如果有人購買尿布和牛奶,那麼他/她就可能買啤酒
- 如果在尿布旁邊發現六包,不要感到驚訝!
定義
頻繁項集 frequent itemsets
關聯規則 Association rules::信心,支持,興趣
用於查找頻繁項集 frequent itemsets的算法
尋找頻繁的對 Finding frequent pairs
- A-Priori算法
- PCY算法
爲了減少規則數量,我們可以 對它們進行後處理,僅輸出: - 最大頻繁項集: Maximal frequent itemsets:
沒有立即的超集是頻繁的- 提供更多修剪 pruning
或者
- 封閉項目集:
沒有立即超集具有相同的支持(> 0)- 不僅存儲頻繁的信息,而且存儲準確的信息
支持/計數
- 不僅存儲頻繁的信息,而且存儲準確的信息
對於許多頻繁項集算法,主內存main-memory是關鍵資源
- 閱讀籃子時,我們需要數數,例如,成對物品的出現
- 我們可以計算的不同事物的數量受主內存限制
- 交換數進/出是一場災難