主要的指標包括:支持度support,置信度confidence,提升度lift。對於一個二項規則例如“A→B”,支持度是指A與B同時出現的概率,即P(A B);置信度是B關於A的條件概率,即P(B | A);提升度是B的概率的提升,即P(B | A) / P(B)。
頻繁項集:
閉集
極大頻繁項集
apriori算法:
- fp-growth 爲什麼是從支持度從小到大分配(想出來好幾次都忘了,次哦):
原因1: 支持度小的相比一定長,這樣能很好的分離出閉集,也就是絕對不會產生重複的頻繁項集.
原因2:支持度大的,還分配多的,容易reduce端傾斜,而且分離效果沒那麼好
舉例: 1234 123 12 :
從多到少:
1234 123 12
234 23
34
從少到多:
4321
321 321
21 21 21