分類任務就是確定對象屬於哪個預定義的目標類。
- 介紹分類的基本概念
- 討論諸如模型過分擬合的問題
- 評估和比較分類性能的方法
1Prerequisite Knowledge
分類任務的輸入數據是記錄的集合,用元組表示
區分分類和迴歸的關鍵特徵:目標屬性是離散的還是連續的
- 分類:分類任務就是通過學習得到一個目標函數f,把每個屬性x映射到一個預先定義的類標號y
目標:
描述性建模:作爲解釋性工具用於區分不同類中的對象
預測性建模:分類模型還可以用於預測未知記錄的類標號
非常適用於預測和描述二元或標稱類型的數據集。
2解決分類問題的一般方法
一種根據輸入數據集建立分類模型的系統方法
+ 典型方法
+ 決策樹分類法
+ 基於規則的分類法
+ 神經網絡
+ SVM
+ Navie Bayes Classification
共同點:使用一種學習算法確定分類模型,很好地擬合輸入數據中類標號和屬性集之間的聯繫/, 是一種很好的泛化能力模型。
評估方式
混淆矩陣:提供衡量分類模型性能的信息
性能度量:準確率,錯誤率
3決策樹歸納Decision Tree
3.1決策樹的工作原理
一系列問題和這些問題的可能回答可以組織成決策樹的形式,決策樹是一種由結點和有向邊組成的層次結構。
三種結點
- 根節點
- 內部節點
- 葉節點:賦予一個類標號
3.2如何建立決策樹
由於:搜索空間是指數規模的,找出最佳是不可行的
解決:採用貪心算法,採取一系列局部最優決策來構造決策樹
3.2.1Hunt算法
屬性測試條件attribute test condition
+ 1.Dt數據在一個目標屬性:定位葉節點
+ 2.Dt數據在不同目標屬性,分裂劃分
+ 附加條件來簡化決策
+ 第二步所創建的子女節點可以爲空。
+ 如果與Dt相關聯的所有記錄都具有相同的屬性值(目標屬性除外),則不再進一步劃分,以majority作爲標號
3.2.2決策樹歸納的設計問題
- 如何分類訓練記錄?屬性測試條件的選擇
- 如何停止分裂過程?
3.3表示屬性測試條件的方法
爲不同類型的屬性提供表示屬性測試條件和其對應的輸出
+ 二元屬性
+ 標稱屬性:多路劃分
+ 序數屬性
+ 連續屬性
3.4選擇最佳劃分的度量
有很多度量可以用來確定劃分記錄的最佳方法,這些度量 用劃分前和劃分後記錄的類分佈定義。
選擇最佳劃分的度量通常是根據劃分後子女節點的不純度的程度。
- Entropy
- Gini
- C lassification error
比較劃分前的不純程度和子女結點的不純程度,期望獲得最大化的增益:
- 1二元屬性的劃分
- 2標稱屬性的劃分
- 3連續屬性的劃分
- 4增益率
3.5決策樹歸納算法
- 輸入:訓練記錄集E和屬性集F
- 精髓:遞歸地選擇最優的屬性來劃分數據,並擴展葉結點
- 建立決策樹之後可以進行樹剪枝,以減小決策樹的規模。
3.6例子:Web機器人檢測
Web使用挖掘 是使用數據挖掘的技術,從web訪問日誌中提取有用的模式。
區分:用戶訪問和web機器人訪問
3.7決策樹歸納的特點
- 1決策樹歸納是一種構建分類模型的非參數方法
- 2 找到最佳的決策樹是NP完全問題
- 決策邊界:屬性測試條件是涉及單個屬性
- 斜決策樹:oblique decision tree,允許測試條件涉及多個屬性
4模型的過分擬合
- 訓練誤差training error
- 泛化誤差generalization error
過分擬合和擬合不足是兩種與模型複雜度有關的異常現象
4.1噪聲導致的過分擬合
訓練記錄被錯誤的標記
4.2缺乏代表性樣本導致的過分擬合
根據少量訓練數據做出分類決策的模型,很可能做出錯誤的預測
4.3過分擬合與多重比較過程
大量的候選屬性和少量的訓練記錄最後導致了模型的過分擬合
4.4泛化誤差估計
模型的複雜度對模型的過分擬合有影響:如何確定正確的模型複雜度?理想的複雜度是能產生最低泛化誤差的模型的複雜度。
- 1.使用再代入估計:假設訓練數據集可以很好地代表整體數據,因而使用訓練誤差提供對泛化誤差的樂觀估計。
- 2.結合模型複雜度
模型越複雜,出現過擬合的機率就越高。採用更簡單的模型:
- 奧卡姆剃刀Occam’s razor:給定兩個具有相同泛化誤差的模型,較簡單的模型比較複雜的模型更可取。
- 訓練誤差
- 模型複雜度懲罰項penalty term:對於二叉樹來說,0.5的懲罰項意味着只要至少能夠改善一個訓練記錄的分類,結點就應該擴展。
- 最小描述長度原則minimum description length:
- 估計統計上界:泛化誤差可以用訓練誤差的統計修正來估計。 訓練誤差的上界
- 使用確認集
- 節儉原則principle of parsimony
4.5處理決策樹歸納中的過分擬合
- 先剪枝(提前終止規則)
- 後剪枝:按照自底向上的方式修剪完全增長的決策樹。
5評估分類器的性能
模型選擇Model Selection:估計誤差有助於學習算法進行模型選擇。
5.1保持方法
將被標記的原始數據劃分成兩個不相交的集合,分別稱爲訓練及和檢驗集。
在訓練數據集上歸納分類模型,在檢驗集上評估模型的性能。
5.2隨機二次抽樣
可以多次重複保持方法來改進對分類器性能的估計
5.3交叉驗證cross-validation
每個訓練樣本數據都用於檢驗,且恰好一次。
自助法
有放回的抽樣法
6比較分類器的方法
依據數據集的大小,兩個分類器準確率上的差異可能不是統計顯著的。