[統計學習方法筆記]第1章-概論

介紹統計學習方法基本概念;三要素:模型、策略和算法;生成模型和判別模型;正則化、交叉驗證與學習的泛化能力等基礎實知識。

統計學習三要素

方法 = 模型 + 策略 + 算法

模型

在監督學習中,模型就是所要學習的條件概率分佈或決策函數。模型的假設空間包含所有可能的條件概率分佈或決策函數。

策略

按照什麼樣的準則學習,以及從假設空間中選擇最優的模型。
各類損失函數和風險函數:
(1)0-1損失函數(0-1 loss function)
L(Y,f(X))={1,Yf(X)0,Y=f(X) L(Y, f(X)) = \left\{\begin{matrix} 1, Y \neq f(X) \\ 0, Y = f(X) \end{matrix}\right. (2)平方損失函數(quadretic loss function)
L(Y,f(X))=(Yf(X))2 L(Y, f(X)) = (Y - f(X))^{2} (3)絕對損失函數(absolute loss function)
L(Y,f(X))=Yf(X) L(Y, f(X)) = |Y - f(X)| (4) 對數損失函數(logarithmic loss function)
L(Y,P(YX))=logP(YX) L(Y, P(Y|X)) = \log P(Y|X)
損失函數值越小,模型越好,學習的目標就是選擇期望風險最小的模型。損失函數的期望是:
Rexp=Ep[L(Y,f(X))]=x,yL(y,f(x))P(x,y)dxdy R_{exp} = E_{p}[L(Y,f(X))] = \int_{x,y}^{}L(y,f(x))P(x,y)dxdy

算法

算法是學習模型的具體計算方法。統計學習的問題一般爲最優化問題,所以這裏的算法主要指一些最優化算法,比如梯度下降法、牛頓迭代法、拉格朗日乘數法等。

模型評估與正則化

訓練誤差反應的是給定的問題是不是一個容易學習的問題,測試誤差反映了學習倉發對未知的測試數據的預測能力。
模型評估中還要考慮過擬合的問題,模型過度擬合於訓練數據,導致在測試集上表現不好,而且模型也會很複雜。
正則化就是解決解決過擬合問題的模型選擇的典型方法。在經驗風險上加一個正則化項,其一般是模型複雜度的單點遞增函數,模型越複雜,正則化值就越大。正則化可以是L1範數,也可以是L2範數。
平方損失函數增加L2正則化:
L(w)=1Ni=1N(f(xi)yi)2+λ2w2 L(w) = \frac{1}{N}\sum_{i=1}^{N}(f(x_{i})-y_{i})^{2} + \frac{\lambda}{2}\left \| w\right \|^{2}
平方損失函數增加L1正則化:
L(w)=1Ni=1N(f(xi)yi)2+λw L(w) = \frac{1}{N}\sum_{i=1}^{N}(f(x_{i})-y_{i})^{2} + \lambda\left \| w\right \|

生成模型與判別模型

監督學習的任務就是學習一個模型,應用這個模型,對新的輸入預測相應的輸出,模型的形式一般是決策函數:Y = f(X),或者條件概率分佈:P(Y|X)。
監督學習方法分兩類:生成方法(generative approach)和判別方法(discriminative approach)。

生成模型

生成模型一般根據聯合概率分佈P(X, Y),求出條件概率分佈P(Y|X) 作爲預測的模型,即生成模型:
P(YX)=P(X,Y)P(X) P(Y|X) = \frac{P(X,Y)}{P(X)}
典型生成模型:樸素貝葉斯法、隱馬爾可夫模型。

判別模型

判別模型是直接學習出決策函數或條件概率分佈P(Y|X),以此作爲預測的模型。
典型判別模型:k進鄰法、感知器、決策樹、邏輯迴歸模型、最大熵模型、支持向量機、提升方法和條件隨機場

監督學習主要是三類問題:分類問題,標註問題,迴歸問題。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章