統計學習-基本術語和概念

1.統計學習和機器學習:
統計學習就是計算機系統利用數據和統計方法提高系統性能的機器學習,如今的機器學習一般指的就是統計學習。所謂的系統性能一般指對數據的分析和預測能力。

2.輸入空間,輸出空間,特徵空間
將輸入和輸出所有可能的取值稱之爲輸入空間和輸出空間;
每個輸入實例通常由一個特徵向量進行表示,這樣所有的特徵向量構成了特徵空間。有的時候輸入空間和特徵空間是相同的,有的時候是不同(比如:輸入是一張圖片實例,在圖片識別分類中,我們需要對圖片進行特徵提取)

3.統計學習三要素
模型:就是我們需要學習的條件概率分佈或者決策函數。模型的假設空間(hypothesis space)包含所有可能的條件概率分佈或決策函數。比如,假若決策函數是輸入變量的線性函數,那麼模型的假設空間就是所有線性函數構成的集合。
順便提一下,由決策函數表示的模型稱之非概率模型;由條件概率表示的模型稱之概率模型。

策略:就是如何從假設空間中選擇最優的模型。這就涉及到選擇的好壞問題,如何度量這種好壞就得引入損失函數(L(Y,f(X)) )和風險函數(Rexp(f)=Ep[L(Y,f(X))] )。
損失函數度量模型一次預測的好壞,對於非概率模型的損失函數一般有0-1損失函數,平方損失函數和絕對損失函數,對於概率模型的損失函數有對數損失函數。具體定義如下:
這裏寫圖片描述
風險函數度量平均意義下模型的預測好壞:
這裏寫圖片描述
但是風險函數的求解需要獲得X,Y 的聯合概率P(x,y) 。實際上,我們如果知道P(x,y) 就可以直接獲得輸出的條件概率P(y|x) 了,這就是一個雞生蛋,蛋生雞的問題。換個角度再想想,我們可以通過計算給定樣本的平均損失(即經驗風險)來估計期望風險:
這裏寫圖片描述
原因是:根據大數定律,當樣本容量N趨於無窮時,經驗風險趨於實際的期望風險。但是一般而言我們的樣本是有限的,所以單純的通過經驗風險估計期望風險所得到模型的泛化能力一般都是不足的。
針對經驗風險最小化(empirical risk minimization,ERM)泛化能力不足的問題,我們可以在代價函數中添加正則項,即結構風險最小化(structural risk minimization,SRM).
這裏寫圖片描述

算法:是指學習模型的具體計算方法。統計學習基於訓練數據集,根據學習策略從假設空間中選擇最優模型,最後需要考慮的就是用什麼樣的方法求解最優模型,這個時候就是在已知代價函數的基礎下求解模型參數。

4.正則化:在原本的經驗風險代價函數的後面添加一個用於描述模型複雜度的項目,該項目被稱作正則化項,正則化符合奧卡姆剃刀原理。所謂奧卡姆剃刀原理應用於模型選擇時就是:在所有可能的選擇的模型中,能夠很好的解釋已知的數據並且十分簡單纔是最好的模型。一般用於描述模型複雜度的有L0,L1和L2範數。
L0範數是指向量中非0的元素的個數。如果我們用L0範數來規則化一個參數矩陣W的話,就是希望W的大部分元素都是0。這太直觀了,太露骨了吧,換句話說,讓參數W是稀疏的。
L1範數是指向量中各個元素絕對值之和,也有個美稱叫“稀疏規則算子”(Lasso regularization)。L0範數很難優化求解(NP難問題),而L1範數是L0範數的最優凸近似,而且它比L0範數要容易優化求解,L0和L1都是用來進行特徵選擇的。
L2範數是指向量各元素的平方和然後求平方根。我們讓L2範數的規則項||W||2 最小,可以使得W的每個元素都很小,都接近於0,但與L1範數不同,它不會讓它等於0,而是接近於0,L2範數可以提高模型的泛化能力,同時L2範數方便優化求解,獲取的特徵相比於L1和L0更加平滑。

5.交叉驗證(cross validation)
首先涉及三類數據:訓練集(training set),驗證集(validation set)以及測試集(test set)。訓練集用來模型的訓練,驗證集用於模型的選擇,測試集用於最終對學習方法的評估。
1.簡單交叉驗證:將數據的70%作爲訓練集,30%作爲測試集。然後用訓練集在各種條件下訓練模型,從而得到不同的模型,在測試集上評價各個模型的測試誤差,選出測試誤差最小的模型。
2.S折交叉驗證:將數據隨機地切分爲S個互不相交的大小相同的子集;然後利用S-1個子集的數據訓練模型,利用餘下的子集測試模型;將這一個過程對可能的S種選擇重複進行,最後選擇S次評測中平均測試誤差最小的模型;
3.留一交叉驗證:往往在數據缺乏的情況下使用,假設存在N個數據,一般將S=N

6.生成模型和判別模型:
監督學習可以分爲生成方法(generative approach)和判別方法(discriminative approach)。
生成方法由數據學習聯合概率分佈P(X,Y) ,然後求出條件概率分佈P(Y|X) 作爲預測的模型,即生成模型:P(Y|X)=P(X,Y)P(X) ,這種方法之所以稱爲生成方法是因爲模型表示了給定輸入X產生輸出Y的生成關係,典型的生成模型有樸素貝葉斯和隱馬爾科夫模型。
判別模型則是由數據直接學習決策函數f(X) 或者條件概率分佈P(Y|X) 作爲預測的模型,典型的判別模型比如:kNN,感知機,決策樹,LR,最大熵模型,svm,提升方法(比如:AdaBoost,bagging,隨機森林)和條件隨機場。

7.準確率(precision),召回率(recall)和F1
TP(真陽):將正類預測爲正類
FP(假陽):將負類預測爲正類
TN(真陰):將負類預測爲負類
FN(假陰): 將正類預測爲負類
P()=TPTP+FP
R()=TPTP+FN
2F1=1P+1R ,準確率和召回率都高時,F1 值也會高。
TPR=TPTP+FN
FPR=FPFP+TN
這裏寫圖片描述
從圖中可以看出,ROC曲線一般在(0,0)和(1,1)直線的上方。(因爲對於二分類問題而言,這條直線就代表隨機猜測,0.5的概率預測正確)
在ROC 空間中,每個點的橫座標是FPR,縱座標是TPR,這也就描繪了分類器在TP(真正的正例)和FP(錯誤的正例)間的trade-off。Area Under roc Curve(AUC)就出現了。顧名思義,AUC的值就是處於ROC curve下方的那部分面積的大小。通常,AUC的值介於0.5到1.0之間,較大的AUC代表了較好的Performance。

8.監督學習的三類問題:
1.分類問題:當輸出變量Y取有限個離散值時,預測問題便成爲分類問題
2.標註問題:是分類問題的一個推廣,標註問題又是更復雜的結構預測。標註問題的目標在於學習一個模型,使它能夠對觀測序列給出標記序列作爲預測。(可能的標記個數是有限的,但其組合所成的標記序列的個數是依序列長度呈指數級別增長的),標註常用的統計學習方法有:隱馬爾科夫模型和條件隨機場。
3.迴歸問題:用於預測輸入變量和輸出變量之間的關係,迴歸問題的學習等價於函數擬合,選擇一條函數曲線使其可以很好地擬合已知數據且很好地預測未知數據。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章