數據挖掘之關聯分析的基本概念

6.關聯分析

6.1.Problem Definition

  關聯分析(Association Analysis)是指從大量的數據集中,搜索出有強關聯的規則(Rule),但是這個計算過程通常計算成本很高。建立關聯規則的兩個重要判據是:Support以及Confidence。Support簡單地講,就是指在數據集中,包含規則中所有Item的條目越多,Support越大,就越能夠排除偶然因素的影響。而Confidence則是,當規則前件出現時,規則後件出現地越多,Confidence越大。我們在關聯分析中所要做的工作,就是找出所有超過特定閾值的關聯規則。

  但是對於一個條目,它包含了許多個Item,理論上所能夠構成的規則特別多,如何有效快速地從這些規則中篩選出那些有用的規則是關聯分析的重點。因此,我們通常將關聯分析分成兩部分:(1)Frequent Itemset Generation,從可能的Itemset中找出比較頻繁出現的那些Itemset;(2)Rule Generation:則是在(1)之後,形成強關聯規則。

6.2.Frequent Itemset Generation

  這部分工作的計算複雜度高,我們通常用來減少(1)候選itemset的個數;(2)減少比較的次數來降低計算複雜度。

6.2.1.The Apriori Principle

  

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章