《機器學習》——讀書筆記2

事實證明,寒假在家也並不能高效工作,年前準備過年,年後沒事了,想動手卻凍手,幸好姥姥家裏暖和,過年姥姥又傷風感冒,姥姥今年74,姥爺今年81,今天本來到邢臺的,但是放心不下又回來了,願姥姥姥爺健康長壽,別無他求。

第 3 章 線性模型

3.1 基本形式

給定由d個屬性描述的實例x=(x1;x2;...;xd) ,線性模型試圖學得一個通過屬性的線性組合來進行預測的函數,即f(x)=w1x1+w2x2+...+wdxd+b 用向量形式寫成f(x)=wTx+b .
由於w 直觀表達了個屬性在預測中的重要性,因此線性模型有很好的可解釋性。

3.2 線性迴歸

給定數據集D={(x1,y1),(x2,y2),...,(xm,ym)} ,其中xi=(xi1;xi2;...;xid),yiR . “線性迴歸”試圖學得一個線性模型以儘可能準確地預測實值輸出標記。
對離散屬性,若屬性值間存在“序”關,可通過連續化將其轉化爲連續值;若屬性值間不存在序關係,假定有k個屬性值,則通常轉化爲k維向量。

先考慮最簡單的情形:輸入屬性的數目只有一個
線性迴歸試圖學得

f(xi)=wxi+b,使f(xi)yi
利用均方誤差最小化確定w,b
(w,b)=argmin(w,b)i=1m(f(xi)yi)2=argmin(w,b)i=1m(yiwxib)2

基於均方誤差最小化來進行模型求解的方法稱爲“最小二乘法”。
求解w和b使E(w,b)=mi=1(yiwxib)2 最小化的過程,稱爲線性迴歸模型的最小二乘“參數估計”。將E(w,b) 分別對w和b求導,得
E(w,b)w=2(wi=1mx2ii=1m(yib)xi),E(w,b)b=2(mbi=1m(yiwxi)),
令上式得零得到w和b最優解的閉式解
w=mi=1yi(xix¯)mi=1x2i1m(mi=1xi)2,b=1mi=1m(yiwxi),

更一般的情形,樣本由d個屬性描述
此時我們試圖學得
f(xi)=wTxi+b,使f(xi)yi
這稱爲“多元線性迴歸”
把數據集D表示爲大小爲m×(d+1) 大小的矩陣X
X=x11x21xm1x12x22xm2x1dx2dxmd111=xT1xT2xTm111

再把標記也寫成向量形式y=(y1;y2;;ym) ,則類似均方誤差,有
w^=argminw^(yXw^)T(yXw^)

Ew^=(yXw^)T(yXw^) ,對w^ 求導得到
Ew^w^=2XT(Xw^y)

XTX滿秩矩陣時,令上式爲零可得
w^=(XTX)1XTy
x^i=(xi;1) ,則最終學得的多元線性迴歸模型爲
f(x^i)=x^Ti(XTX)1XTy

然而,現實任務中XTX 往往不是滿秩矩陣,此時可解出多個w^ 。選擇哪一個解作爲輸出,將由懸系算法的歸納偏好決定,常見的做法是引入正則化項。

線性模型的變形
線性模型的預測值逼近真是標記y時,就得到線性迴歸模型。
線性迴歸模型簡寫爲

y=wTx+b

令模型預測值逼近y的衍生物,例如:lny=wTx+b ——”對數線性迴歸”,實質上在求取輸入空間到輸出空間的非線性函數映射。

廣義線性模型
考慮單調可微函數g(.),令y=g1(wTx+b)

3.3 對數機率迴歸

上一節討論使用線性模型進行迴歸學習,對於分類任務,只需找一個單調可微函數將分類任務的真實標記y與線性迴歸模型的預測值聯繫起來。
對於二分類任務,可通過“單位階躍函數”把線性迴歸模型產生的預測值z=wTx+b 對應到輸出標記y{0,1}

y=0,0.5,1,z<0;z=0;z>0;

但是單位階躍函數不連續,不可直接作爲“廣義線性模型”中的g(.) ,可用對數機率函數
y=11+ez
替代之。

對數機率函數是一種“Sigmoid函數”,它將z值轉化爲一個接近0或1的y值,並且其輸出值在z=0附近變化很陡。
將對數機率函數代入

y=11+e(wTx+b).(1)lny1y=wTx+b

若將y視爲樣本x 作爲正例的可能性,則1-y時期反例可能性,故“對數機率”爲:
lny1y

小結:(1)式是在用線性迴歸模型的預測結果去逼近真實標記的對數機率,因此,其對應的模型稱爲“對數機率迴歸”,是一種分類學習方法。
優點:
- 直接對分類可能性進行建模,無需實現假設數據分佈,這樣就避免了假設分佈不準確所帶來的問題。
- 不僅預測出“類別”,還可得到近似概率預測。
- 對率函數是任意階可導的凸函數,現有的許多數值優化算法都可直接用於求取最優解。

確定(1)中的w和b(這裏不太懂)
若將式(1)中的y視爲類後驗概率估計p(y=1|x),則

lnp(y=1|x)p(y=1|x)=wTx+bp(y=1|x)=ewTx+b1+ewTx+bp(y=1|x)=11+ewTx+b

於是,通過“極大似然法”估計w和b。對率迴歸模型最大化“對數似然”
l(w,b)=i=1mlnp(yi|xi;w,b)(2)
即令每個樣本屬於其真實標記的概率越大越好。
爲便於討論,令β=(w,b),x^=(x;1),wTx+b 可簡寫爲βTx^ .再令p1(x^;β)=p(y=1|x^;β),p0(x^;β)=p(y=0|x^;β)=1p1(x^;β) ,則(2)式中的似然項可重寫爲
p(yi|xi;w,b)=yip1(x^i;β)+(1yi)p0(x^i;β)

最小化(2)式等價於最小化
l(β)=i=1m(yiβTx^i+ln(1+eβTx^i))

3.4 線性判別分析

Linear Discriminant Analysis,LDA 一種經典的線性學習方法,用於二分類問題。亦乘“Fisher”判別分析。
LDA思想:給定訓練樣例集,設法將樣例投影到一條直線上,使得同類樣例的投影點儘可能接近、異類樣例的投影點儘可能遠離;在對新樣本進行分類時,將其投影到同樣的這條直線上,再根據投影點的位置來確定新樣本的類別。

假設條件:給定數據集D={(xi,yi)}mi=1,yi{0,1} ,令XiμiΣi 分別表示第i{0,1} 類示例的集合、均值向量、協方差矩陣。
思想實現:欲使同類樣例的投影點儘可能接近,可以讓同類樣例投影點的協方差儘可能小,即wTΣ0w+wTΣ1w 儘可能小;而欲使異類樣例的投影點儘可能遠離,可以讓類中心之間的距離儘可能大,即||wTμ0wTμ1||22 儘可能大。即最大化下式

J=wTμ0wTμ1||22wTΣ0w+wTΣ1w(3)
定義“類內散度矩陣”
Sw=Σ0+Σ1=xX0(xμ0)(xμ0)T+xX1(xμ1)(xμ1)T

以及“類間散度矩陣”
Sb=(μ0μ1)(μ0μ1)T

則式(3)可重寫爲
J=wTSbwwTSww

這就是LDA欲最大化的目標,即SbSw 的“廣義瑞利商”
發佈了36 篇原創文章 · 獲贊 4 · 訪問量 3萬+
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章