機器學習筆記_ch4_分類算法

分類任務就是確定對象屬於哪個預定義的目標類。
- 介紹分類的基本概念
- 討論諸如模型過分擬合的問題
- 評估和比較分類性能的方法

1Prerequisite Knowledge

分類任務的輸入數據是記錄的集合,用元組表示
區分分類和迴歸的關鍵特徵:目標屬性是離散的還是連續的

  • 分類:分類任務就是通過學習得到一個目標函數f,把每個屬性x映射到一個預先定義的類標號y
  • 目標:

    • 描述性建模:作爲解釋性工具用於區分不同類中的對象

    • 預測性建模:分類模型還可以用於預測未知記錄的類標號

  • 非常適用於預測和描述二元或標稱類型的數據集。

2解決分類問題的一般方法

一種根據輸入數據集建立分類模型的系統方法
+ 典型方法
+ 決策樹分類法
+ 基於規則的分類法
+ 神經網絡
+ SVM
+ Navie Bayes Classification

共同點:使用一種學習算法確定分類模型,很好地擬合輸入數據中類標號和屬性集之間的聯繫/, 是一種很好的泛化能力模型。
  • 評估方式

    • 混淆矩陣:提供衡量分類模型性能的信息

    • 性能度量:準確率,錯誤率

3決策樹歸納Decision Tree

3.1決策樹的工作原理

一系列問題和這些問題的可能回答可以組織成決策樹的形式,決策樹是一種由結點和有向邊組成的層次結構。
三種結點
- 根節點
- 內部節點
- 葉節點:賦予一個類標號

3.2如何建立決策樹

由於:搜索空間是指數規模的,找出最佳是不可行的
解決:採用貪心算法,採取一系列局部最優決策來構造決策樹

3.2.1Hunt算法

屬性測試條件attribute test condition
+ 1.Dt數據在一個目標屬性:定位葉節點
+ 2.Dt數據在不同目標屬性,分裂劃分
+ 附加條件來簡化決策
+ 第二步所創建的子女節點可以爲空。

+ 如果與Dt相關聯的所有記錄都具有相同的屬性值(目標屬性除外),則不再進一步劃分,以majority作爲標號

3.2.2決策樹歸納的設計問題

  • 如何分類訓練記錄?屬性測試條件的選擇
  • 如何停止分裂過程?

3.3表示屬性測試條件的方法

爲不同類型的屬性提供表示屬性測試條件和其對應的輸出
+ 二元屬性
+ 標稱屬性:多路劃分
+ 序數屬性
+ 連續屬性

3.4選擇最佳劃分的度量

有很多度量可以用來確定劃分記錄的最佳方法,這些度量 用劃分前和劃分後記錄的類分佈定義。
選擇最佳劃分的度量通常是根據劃分後子女節點的不純度的程度。
- Entropy
- Gini
- C lassification error

比較劃分前的不純程度和子女結點的不純程度,期望獲得最大化的增益:

  • 1二元屬性的劃分
  • 2標稱屬性的劃分
  • 3連續屬性的劃分
  • 4增益率

3.5決策樹歸納算法

  • 輸入:訓練記錄集E和屬性集F
  • 精髓:遞歸地選擇最優的屬性來劃分數據,並擴展葉結點
  • 建立決策樹之後可以進行樹剪枝,以減小決策樹的規模。

3.6例子:Web機器人檢測

Web使用挖掘 是使用數據挖掘的技術,從web訪問日誌中提取有用的模式。
區分:用戶訪問和web機器人訪問

3.7決策樹歸納的特點

  • 1決策樹歸納是一種構建分類模型的非參數方法
  • 2 找到最佳的決策樹是NP完全問題
  • 決策邊界:屬性測試條件是涉及單個屬性
  • 斜決策樹:oblique decision tree,允許測試條件涉及多個屬性

4模型的過分擬合

  • 訓練誤差training error
  • 泛化誤差generalization error
    過分擬合和擬合不足是兩種與模型複雜度有關的異常現象

4.1噪聲導致的過分擬合

訓練記錄被錯誤的標記

4.2缺乏代表性樣本導致的過分擬合

根據少量訓練數據做出分類決策的模型,很可能做出錯誤的預測

4.3過分擬合與多重比較過程

大量的候選屬性和少量的訓練記錄最後導致了模型的過分擬合

4.4泛化誤差估計

模型的複雜度對模型的過分擬合有影響:如何確定正確的模型複雜度?理想的複雜度是能產生最低泛化誤差的模型的複雜度。
- 1.使用再代入估計:假設訓練數據集可以很好地代表整體數據,因而使用訓練誤差提供對泛化誤差的樂觀估計。
- 2.結合模型複雜度
模型越複雜,出現過擬合的機率就越高。採用更簡單的模型:
- 奧卡姆剃刀Occam’s razor:給定兩個具有相同泛化誤差的模型,較簡單的模型比較複雜的模型更可取。

     - 訓練誤差

     - 模型複雜度懲罰項penalty term:對於二叉樹來說,0.5的懲罰項意味着只要至少能夠改善一個訓練記錄的分類,結點就應該擴展。
     - 最小描述長度原則minimum description length:



     - 估計統計上界:泛化誤差可以用訓練誤差的統計修正來估計。 訓練誤差的上界

     - 使用確認集

- 節儉原則principle of parsimony

4.5處理決策樹歸納中的過分擬合

  • 先剪枝(提前終止規則)
  • 後剪枝:按照自底向上的方式修剪完全增長的決策樹。

5評估分類器的性能

模型選擇Model Selection:估計誤差有助於學習算法進行模型選擇。

5.1保持方法

將被標記的原始數據劃分成兩個不相交的集合,分別稱爲訓練及和檢驗集。
在訓練數據集上歸納分類模型,在檢驗集上評估模型的性能。

5.2隨機二次抽樣

可以多次重複保持方法來改進對分類器性能的估計

5.3交叉驗證cross-validation

每個訓練樣本數據都用於檢驗,且恰好一次。

自助法

有放回的抽樣法

6比較分類器的方法

依據數據集的大小,兩個分類器準確率上的差異可能不是統計顯著的。

6.1估計準確度的置信區間

6.2比較兩個模型的性能

6.3比較兩種分類法的性能

發佈了30 篇原創文章 · 獲贊 2 · 訪問量 9306
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章