事實證明,寒假在家也並不能高效工作,年前準備過年,年後沒事了,想動手卻凍手,幸好姥姥家裏暖和,過年姥姥又傷風感冒,姥姥今年74,姥爺今年81,今天本來到邢臺的,但是放心不下又回來了,願姥姥姥爺健康長壽,別無他求。
第 3 章 線性模型
3.1 基本形式
給定由d個屬性描述的實例x = ( x 1 ; x 2 ; . . . ; x d ) ,線性模型試圖學得一個通過屬性的線性組合來進行預測的函數,即f ( x ) = w 1 x 1 + w 2 x 2 + . . . + w d x d + b 用向量形式寫成f ( x ) = w T x + b .
由於w 直觀表達了個屬性在預測中的重要性,因此線性模型有很好的可解釋性。
3.2 線性迴歸
給定數據集D = { ( x 1 , y 1 ) , ( x 2 , y 2 ) , . . . , ( x m , y m ) } ,其中x i = ( x i 1 ; x i 2 ; . . . ; x i d ) , y i ∈ R . “線性迴歸”試圖學得一個線性模型以儘可能準確地預測實值輸出標記。
對離散屬性,若屬性值間存在“序”關,可通過連續化將其轉化爲連續值;若屬性值間不存在序關係,假定有k個屬性值,則通常轉化爲k維向量。
先考慮最簡單的情形:輸入屬性的數目只有一個
線性迴歸試圖學得
f ( x i ) = w x i + b , 使 得 f ( x i ) ≃ y i
利用均方誤差最小化確定w,b
( w ∗ , b ∗ ) = arg min ( w , b ) ∑ i = 1 m ( f ( x i ) − y i ) 2 = arg min ( w , b ) ∑ i = 1 m ( y i − w x i − b ) 2
基於均方誤差最小化來進行模型求解的方法稱爲“最小二乘法”。
求解w和b使
E ( w , b ) = ∑ m i = 1 ( y i − w x i − b ) 2 最小化的過程,稱爲線性迴歸模型的最小二乘“參數估計”。將
E ( w , b ) 分別對w和b求導,得
∂ E ( w , b ) ∂ w = 2 ( w ∑ i = 1 m x 2 i − ∑ i = 1 m ( y i − b ) x i ) , ∂ E ( w , b ) ∂ b = 2 ( m b − ∑ i = 1 m ( y i − w x i ) ) ,
令上式得零得到w和b最優解的閉式解
w = ∑ m i = 1 y i ( x i − x ¯ ) ∑ m i = 1 x 2 i − 1 m ( ∑ m i = 1 x i ) 2 , b = 1 m ∑ i = 1 m ( y i − w x i ) ,
更一般的情形,樣本由d個屬性描述
此時我們試圖學得
f ( x i ) = w T x i + b , 使 得 f ( x i ) ≃ y i
這稱爲“多元線性迴歸”
把數據集D表示爲大小爲
m × ( d + 1 ) 大小的矩陣
X ,
X = ⎛ ⎝ ⎜ ⎜ ⎜ ⎜ ⎜ x 11 x 21 ⋮ x m 1 x 12 x 22 ⋮ x m 2 … … ⋱ … x 1 d x 2 d ⋮ x m d 1 1 ⋮ 1 ⎞ ⎠ ⎟ ⎟ ⎟ ⎟ ⎟ = ⎛ ⎝ ⎜ ⎜ ⎜ ⎜ ⎜ x T 1 x T 2 ⋮ x T m 1 1 ⋮ 1 ⎞ ⎠ ⎟ ⎟ ⎟ ⎟ ⎟
再把標記也寫成向量形式
y = ( y 1 ; y 2 ; … ; y m ) ,則類似均方誤差,有
w ^ ∗ = arg min w ^ ( y − X w ^ ) T ( y − X w ^ )
令
E w ^ = ( y − X w ^ ) T ( y − X w ^ ) ,對
w ^ 求導得到
∂ E w ^ ∂ w ^ = 2 X T ( X w ^ − y ) ( 這 裏 對 矩 陣 求 導 不 懂 )
當
X T X 爲
滿秩矩陣 時,令上式爲零可得
w ^ ∗ = ( X T X ) − 1 X T y
令
x ^ i = ( x i ; 1 ) ,則最終學得的多元線性迴歸模型爲
f ( x ^ i ) = x ^ T i ( X T X ) − 1 X T y
然而,現實任務中X T X 往往不是滿秩矩陣,此時可解出多個w ^ 。選擇哪一個解作爲輸出,將由懸系算法的歸納偏好決定,常見的做法是引入正則化項。
線性模型的變形
線性模型的預測值逼近真是標記y時,就得到線性迴歸模型。
線性迴歸模型簡寫爲
y = w T x + b
令模型預測值逼近y的衍生物,例如:
ln y = w T x + b ——”對數線性迴歸”,實質上在求取輸入空間到輸出空間的非線性函數映射。
廣義線性模型
考慮單調可微函數g(.),令y = g − 1 ( w T x + b ) 。
3.3 對數機率迴歸
上一節討論使用線性模型進行迴歸學習,對於分類任務,只需找一個單調可微函數將分類任務的真實標記y與線性迴歸模型的預測值聯繫起來。
對於二分類任務 ,可通過“單位階躍函數”把線性迴歸模型產生的預測值z = w T x + b 對應到輸出標記y ∈ { 0 , 1 } 。
“ 單 位 階 躍 函 數 ” y = ⎧ ⎩ ⎨ ⎪ ⎪ 0 , 0.5 , 1 , z < 0 ; z = 0 ; z > 0 ;
但是單位階躍函數不連續,不可直接作爲“廣義線性模型”中的
g − ( . ) ,可用對數機率函數
y = 1 1 + e − z
替代之。
對數機率函數是一種“Sigmoid函數”,它將z值轉化爲一個接近0或1的y值,並且其輸出值在z=0附近變化很陡。
將對數機率函數代入
y = 1 1 + e − ( w T x + b ) . ( 1 ) ln y 1 − y = w T x + b
若將y視爲樣本
x 作爲正例的可能性,則1-y時期反例可能性,故“對數機率”爲:
ln y 1 − y
小結 :(1)式是在用線性迴歸模型的預測結果去逼近真實標記的對數機率,因此,其對應的模型稱爲“對數機率迴歸”,是一種分類學習方法。
優點:
- 直接對分類可能性進行建模,無需實現假設數據分佈,這樣就避免了假設分佈不準確所帶來的問題。
- 不僅預測出“類別”,還可得到近似概率預測。
- 對率函數是任意階可導的凸函數,現有的許多數值優化算法都可直接用於求取最優解。
確定(1)中的w和b (這裏不太懂)
若將式(1)中的y視爲類後驗概率 估計p(y=1|x),則
ln p ( y = 1 | x ) p ( y = 1 | x ) = w T x + b p ( y = 1 | x ) = e w T x + b 1 + e w T x + b p ( y = 1 | x ) = 1 1 + e w T x + b
於是,通過“極大似然法”估計w和b。對率迴歸模型最大化“對數似然”
l ( w , b ) = ∑ i = 1 m ln p ( y i | x i ; w , b ) ( 2 )
即令每個樣本屬於其真實標記的概率越大越好。
爲便於討論,令
β = ( w , b ) , x ^ = ( x ; 1 ) , 則
w T x + b 可簡寫爲
β T x ^ .再令
p 1 ( x ^ ; β ) = p ( y = 1 | x ^ ; β ) , p 0 ( x ^ ; β ) = p ( y = 0 | x ^ ; β ) = 1 − p 1 ( x ^ ; β ) ,則(2)式中的似然項可重寫爲
p ( y i | x i ; w , b ) = y i p 1 ( x ^ i ; β ) + ( 1 − y i ) p 0 ( x ^ i ; β )
最小化(2)式等價於最小化
l ( β ) = ∑ i = 1 m ( − y i β T x ^ i + ln ( 1 + e β T x ^ i ) )
3.4 線性判別分析
Linear Discriminant Analysis,LDA 一種經典的線性學習方法,用於二分類問題。亦乘“Fisher”判別分析。
LDA思想:給定訓練樣例集,設法將樣例投影到一條直線上,使得同類樣例的投影點儘可能接近、異類樣例的投影點儘可能遠離;在對新樣本進行分類時,將其投影到同樣的這條直線上,再根據投影點的位置來確定新樣本的類別。
假設條件:給定數據集D = { ( x i , y i ) } m i = 1 , y i ∈ { 0 , 1 } ,令X i 、 μ i 、 Σ i 分別表示第i ∈ { 0 , 1 } 類示例的集合、均值向量、協方差矩陣。
思想實現:欲使同類樣例的投影點儘可能接近,可以讓同類樣例投影點的協方差儘可能小,即w T Σ 0 w + w T Σ 1 w 儘可能小;而欲使異類樣例的投影點儘可能遠離,可以讓類中心之間的距離儘可能大,即| | w T μ 0 − w T μ 1 | | 2 2 儘可能大。即最大化下式
J = w T μ 0 − w T μ 1 | | 2 2 w T Σ 0 w + w T Σ 1 w ( 3 )
定義“類內散度矩陣”
S w = Σ 0 + Σ 1 = ∑ x ∈ X 0 ( x − μ 0 ) ( x − μ 0 ) T + ∑ x ∈ X 1 ( x − μ 1 ) ( x − μ 1 ) T
以及“類間散度矩陣”
S b = ( μ 0 − μ 1 ) ( μ 0 − μ 1 ) T
則式(3)可重寫爲
J = w T S b w w T S w w
這就是LDA欲最大化的目標,即
S b 與
S w 的“廣義瑞利商”