數據挖掘分類及常用算法

基於學習策略的分類
機械學習
傳授學習
類比學習
歸納學習
基於解釋的學習

基於學習方式的分類
(1)有導師學習(監督學習):輸入數據中有導師信號,以概率函數、代數函數或人工神經網絡爲基函數模型,採用迭代計算方法,學習結果爲函數。
(2)無導師學習(非監督學習):輸入數據中無導師信號,採用聚類方法,學習結果爲類別。典型的無導師學習有發現學習、聚類、競爭學習等。
(3)強化學習(增強學習):以環境反饋(獎/懲信號)作爲輸入,以統計和動態規劃技術爲指導的一種學習方法

基於數據形式的分類
(1)結構化學習:以結構化數據爲輸入,以數值計算或符號推演爲方法。典型的結構化學習有神經網絡學習、統計學習、決策樹學習、規則學習。
(2)非結構化學習:以非結構化數據爲輸入,典型的非結構化學習有類比學習、案例學習、解釋學習、文本挖掘、圖像挖掘、Web挖掘等。

基於學習目標的分類
(1)概念學習:即學習的目標和結果爲概念,或者說是爲了獲得概念的一種學習。典型的概念學習有示例學習。
(2)規則學習:即學習的目標和結果爲規則,或者說是爲了獲得規則的一種學習。典型的規則學習有決策樹學習。
(3)函數學習:即學習的目標和結果爲規則,或者說是爲了獲得函數的一種學習。典型的函數學習有神經網絡學習。
(4)類別學習:即學習的目標和結果爲對象類,或者說是爲了獲得類別的一種學習。典型的類別學習有聚類分析。
(5)貝葉斯網絡學習:即學習的目標和結果是貝葉斯網絡,或者說是爲了獲得貝葉斯網絡的一種學習。其又可分爲結構學習和參數學習。

數據挖掘任務有兩類:

第一類是描述性挖掘任務:刻劃數據庫中數據的一般特性;

第二類是預測性挖掘任務:在當前數據上進行推斷,以進行預測。


定義:關聯分析 (association analysis):發現關聯規則,這些規則展示“屬性—值”頻繁地在給定數據集中一起出現的條件。

(2)實例
age(x, “20..29”)  income(X, “20K..29K”) 
buys(X, “CD_player”) [support = 2%, confidence = 60%]

Diaper  Beer [0.5%, 75%]

定義
分類 (classification):通過構造模型(或函數)用來描述和區別類或概念,用來預測類型標誌未知的對象類。
(2)分類模型的導出方式
分類規則(IF-THEN)、決策樹、數學公式、神經網絡等。決策樹 gini係數確定分裂屬性

定義
聚類 (clustering):將類似的數據歸類到一起,形成一個新的類別進行分析。
(2)聚類或分組的原則
“最大化類內的相似性、最小化類間的相似性”
對象的簇(聚類)的形成辦法爲:使得在一個簇中的對象具有很高的相似性,而與其它簇中的對象很不相似。所形成的每個簇可以看作一個對象類,由它可以導出規則。

聚類(簇):數據對象的集合
在同一個聚類(簇)中的對象彼此相似
不同簇中的對象則相異
聚類分析
將物理或抽象對象的集合分組成爲由類似的對象組成的多個類的過程
聚類是一種無指導的學習:沒有預定義的類編號
聚類分析的數據挖掘功能
作爲一個獨立的工具來獲得數據分佈的情況
作爲其他算法(如:特徵和分類)的預處理步驟

 給定k, k-平均算法由以下四步來完成::
 把對象劃分爲k個非空的子集
 隨機的選擇一些種子點作爲目前劃分的簇的質心。質心是簇的中心(平均點)
 把每一個對象賦給最近的種子點
 重複第二步,直到沒有新的分配

詳見本人百度文庫
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章