機器學習常用概念辨析

目錄

Bagging & Boosting

方差 & 偏差

近似誤差 & 估計誤差

判別模型 & 生成模型

期望風險 & 經驗風險 & 結構風險

上採樣 & 下采樣

先驗概率 & 後驗概率

信息增益 & 基尼係數

正確率、精確率、召回率、虛警率和漏檢率


機器學習有好多概念需要理解,這裏做個總結

Bagging & Boosting

Bagging: Bagging 在每次迭代過程中通過bootstrap(有放回抽樣)的方式生成一個訓練集,最後將所有子分類器結果的平均值作爲最終的結果,代表算法爲隨機森林

Boosting: Boosting 在每次迭代過程中增加被分錯樣本的權重,最終將所有子分類器的結果相加得到最終的結果,代表算法爲AdaBoost

 

方差 & 偏差

方差:描述模型對於給定值的輸出穩定性,高方差類似與過擬合,降低方差主要通過增加數據量,增大正則化項,降維等方式

偏差:描述模型輸出結果的期望與樣本真實結果的差距,高偏差類似與欠擬合,通過增加特徵數量,減小正則化項實現

 

近似誤差 & 估計誤差

近似誤差:近似誤差是訓練集上的訓練誤差。如果近似誤差較小,表示對訓練集擬合效果較好,可能發生過擬合

估計誤差:估計誤差是測試集上的預測誤差。如果估計誤差較小,那麼表示所訓練的模型具有很好的泛化能力

 

判別模型 & 生成模型

判別模型:判別模型直接學習判別函數f\left(x\right )或者條件概率分佈P\left(Y|X \right ),代表算法有K鄰法、感知機、決策樹、邏輯迴歸、最大熵模型、支持向量機、提升方法、條件隨機場

生成模型:生成模型學習聯合概率分佈P\left(X,Y \right ),然後求出條件概率P\left(Y|X\right)作爲預測模型,代表的算法有貝葉斯模型和隱馬爾科夫模型

 

期望風險 & 經驗風險 & 結構風險

期望風險:對所有樣本(包含未知樣本和已知的訓練樣本)的預測能力,是全局概念。(經驗風險則是局部概念,僅僅表示決策函數對訓練數據集裏的樣本的預測能力。)

經驗風險:對所有訓練樣本都求一次損失函數,再累加求平均。即,模型f(x)對訓練樣本中所有樣本的預測能力。所謂經驗風險最小化即對訓練集中的所有樣本點損失函數的平均最小化。經驗風險越小說明模型f(x)對訓練集的擬合程度越好。

結構風險:結構風險是經驗風險和期望風險的折中,在經驗風險函數後面加一個正則化項(懲罰項),是一個大於0的係數lamada,表示的是模型的複雜度。

 

上採樣 & 下采樣

上採樣:從少類別中複製樣本使得數據達到平衡

下采樣:從多數類中隨機抽取樣本(抽取的樣本數量與少數類別樣本量一致)從而減少多數類別樣本數據,使數據達到平衡

 

先驗概率 & 後驗概率

先驗概率:是指根據以往經驗和分析得到的概率,就是在訓練集中得到的概率分佈

後驗概率:後驗概率是指在得到“結果”的信息後重新修正的概率,從訓練集的分佈中計算樣本屬於哪種類別的概率

 

信息增益 & 基尼係數

信息增益:信息增益的定義爲集合的經驗熵與特徵給定條件下的經驗條件熵之差,計算公式爲

g\left(D,A \right )=H\left(D\right)-H\left(D|A \right )

根據特徵A將數據集D分成兩部分D_{1},D_{2}時,有

g\left(D|A \right )=H\left(D\right)-\alpha H\left(D_{1}\right )-\left(1-\alpha \right )H\left(D_{2} \right )

其中

\alpha=\frac{\left|D_{1}\right|}{\left|D\right|}

基尼係數:基尼不純度表示一個隨機選中的樣本在子集中被分錯的可能性。基尼係數代表了模型的不純度,基尼係數越小,則不純度越低,特徵越好。這和信息增益是相反的,計算公式爲:

Gini\left(p \right )=\sum_{k=1}^{K}p_{k}\left(1-p_{k} \right )=1-\sum_{k=1}^{K}p_{k}^{2}

根據特徵A將數據集D分成兩部分時,有

Gini\left(D,A \right )=\alpha Gini\left(D_{1} \right )+\left(1-\alpha \right )Gini\left(D_{2} \right )

 

正確率、精確率、召回率、虛警率和漏檢率

正確率:正確率(Accuracy)表示政府樣本被正確分類的比例,計算公式如下:

其中NTP 表示正類樣本被正確分類的數目,NTN表示負類樣本被正確分類的數目,NFP表示負類樣本被分爲正類的數目,NFN表示正類樣本被分爲負類的數目。

精確率:精確率(Precision)表示原本爲正類樣本在所有被分爲正類樣本(正的被分爲正的+錯的被分爲正的)的比例

召回率:召回率(Recall)表示原本爲正類樣本在原本正類樣本(正的被分爲正的+正的被分爲錯的)的比例

虛警率:虛警率(False alarm)表示負類樣本被分爲正類樣本在所有負類樣本中的比例

漏警率:漏警率表示(Missing alarm)表示正類樣本被分爲負類樣本在所有正類樣本中的比例

 

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章