分類任務就是確定對象屬於哪個預定義的目標類。
- 介紹分類的基本概念
- 討論諸如模型過分擬合的問題
- 評估和比較分類性能的方法

1Prerequisite Knowledge

分類任務的輸入數據是記錄的集合，用元組表示
區分分類和迴歸的關鍵特徵：目標屬性是離散的還是連續的

分類：分類任務就是通過學習得到一個目標函數f，把每個屬性x映射到一個預先定義的類標號y
目標：
- 描述性建模：作爲解釋性工具用於區分不同類中的對象
- 預測性建模：分類模型還可以用於預測未知記錄的類標號
非常適用於預測和描述二元或標稱類型的數據集。

2解決分類問題的一般方法

一種根據輸入數據集建立分類模型的系統方法
+ 典型方法
+ 決策樹分類法
+ 基於規則的分類法
+ 神經網絡
+ SVM
+ Navie Bayes Classification

共同點：使用一種學習算法確定分類模型，很好地擬合輸入數據中類標號和屬性集之間的聯繫/， 是一種很好的泛化能力模型。

評估方式
- 混淆矩陣：提供衡量分類模型性能的信息
- 性能度量：準確率，錯誤率

3決策樹歸納Decision Tree

3.1決策樹的工作原理

一系列問題和這些問題的可能回答可以組織成決策樹的形式，決策樹是一種由結點和有向邊組成的層次結構。
三種結點
- 根節點
- 內部節點
- 葉節點：賦予一個類標號

3.2如何建立決策樹

由於：搜索空間是指數規模的，找出最佳是不可行的
解決：採用貪心算法，採取一系列局部最優決策來構造決策樹

3.2.1Hunt算法

屬性測試條件attribute test condition
+ 1.Dt數據在一個目標屬性：定位葉節點
+ 2.Dt數據在不同目標屬性，分裂劃分
+ 附加條件來簡化決策
+ 第二步所創建的子女節點可以爲空。

+ 如果與Dt相關聯的所有記錄都具有相同的屬性值（目標屬性除外），則不再進一步劃分，以majority作爲標號

3.2.2決策樹歸納的設計問題

如何分類訓練記錄？屬性測試條件的選擇
如何停止分裂過程？

3.3表示屬性測試條件的方法

爲不同類型的屬性提供表示屬性測試條件和其對應的輸出
+ 二元屬性
+ 標稱屬性：多路劃分
+ 序數屬性
+ 連續屬性

3.4選擇最佳劃分的度量

有很多度量可以用來確定劃分記錄的最佳方法，這些度量用劃分前和劃分後記錄的類分佈定義。
選擇最佳劃分的度量通常是根據劃分後子女節點的不純度的程度。
- Entropy
- Gini
- C lassification error

比較劃分前的不純程度和子女結點的不純程度，期望獲得最大化的增益：

1二元屬性的劃分
2標稱屬性的劃分
3連續屬性的劃分
4增益率

3.5決策樹歸納算法

輸入：訓練記錄集E和屬性集F
精髓：遞歸地選擇最優的屬性來劃分數據，並擴展葉結點
建立決策樹之後可以進行樹剪枝，以減小決策樹的規模。

3.6例子：Web機器人檢測

Web使用挖掘是使用數據挖掘的技術，從web訪問日誌中提取有用的模式。
區分：用戶訪問和web機器人訪問

3.7決策樹歸納的特點

1決策樹歸納是一種構建分類模型的非參數方法
2 找到最佳的決策樹是NP完全問題
決策邊界：屬性測試條件是涉及單個屬性
斜決策樹：oblique decision tree，允許測試條件涉及多個屬性

4模型的過分擬合

訓練誤差training error
泛化誤差generalization error
過分擬合和擬合不足是兩種與模型複雜度有關的異常現象

4.1噪聲導致的過分擬合

訓練記錄被錯誤的標記

4.2缺乏代表性樣本導致的過分擬合

根據少量訓練數據做出分類決策的模型，很可能做出錯誤的預測

4.3過分擬合與多重比較過程

大量的候選屬性和少量的訓練記錄最後導致了模型的過分擬合

4.4泛化誤差估計

模型的複雜度對模型的過分擬合有影響：如何確定正確的模型複雜度？理想的複雜度是能產生最低泛化誤差的模型的複雜度。
- 1.使用再代入估計：假設訓練數據集可以很好地代表整體數據，因而使用訓練誤差提供對泛化誤差的樂觀估計。
- 2.結合模型複雜度
模型越複雜，出現過擬合的機率就越高。採用更簡單的模型：
- 奧卡姆剃刀Occam’s razor：給定兩個具有相同泛化誤差的模型，較簡單的模型比較複雜的模型更可取。

     - 訓練誤差

     - 模型複雜度懲罰項penalty term:對於二叉樹來說，0.5的懲罰項意味着只要至少能夠改善一個訓練記錄的分類，結點就應該擴展。
     - 最小描述長度原則minimum description length：



     - 估計統計上界：泛化誤差可以用訓練誤差的統計修正來估計。 訓練誤差的上界

     - 使用確認集

- 節儉原則principle of parsimony

4.5處理決策樹歸納中的過分擬合

先剪枝（提前終止規則）
後剪枝：按照自底向上的方式修剪完全增長的決策樹。

5評估分類器的性能

模型選擇Model Selection：估計誤差有助於學習算法進行模型選擇。

5.1保持方法

將被標記的原始數據劃分成兩個不相交的集合，分別稱爲訓練及和檢驗集。
在訓練數據集上歸納分類模型，在檢驗集上評估模型的性能。

5.2隨機二次抽樣

可以多次重複保持方法來改進對分類器性能的估計

5.3交叉驗證cross-validation

每個訓練樣本數據都用於檢驗，且恰好一次。

自助法

有放回的抽樣法

6比較分類器的方法

依據數據集的大小，兩個分類器準確率上的差異可能不是統計顯著的。

6.1估計準確度的置信區間

6.2比較兩個模型的性能

6.3比較兩種分類法的性能

沒錢吃白菜

發佈了30 篇原創文章 · 獲贊 2 · 訪問量 9306

私信關注

機器學習筆記_ch4_分類算法