事實證明，寒假在家也並不能高效工作，年前準備過年，年後沒事了，想動手卻凍手，幸好姥姥家裏暖和，過年姥姥又傷風感冒，姥姥今年74，姥爺今年81，今天本來到邢臺的，但是放心不下又回來了，願姥姥姥爺健康長壽，別無他求。

第 3 章線性模型

3.1 基本形式

給定由d個屬性描述的實例x=(x1;x2;...;xd) ,線性模型試圖學得一個通過屬性的線性組合來進行預測的函數，即f(x)=w1x1+w2x2+...+wdxd+b 用向量形式寫成f(x)=wTx+b .
由於w 直觀表達了個屬性在預測中的重要性，因此線性模型有很好的可解釋性。

3.2 線性迴歸

給定數據集D={(x1,y1),(x2,y2),...,(xm,ym)} ,其中xi=(xi1;xi2;...;xid),yi∈R . “線性迴歸”試圖學得一個線性模型以儘可能準確地預測實值輸出標記。
對離散屬性，若屬性值間存在“序”關，可通過連續化將其轉化爲連續值；若屬性值間不存在序關係，假定有k個屬性值，則通常轉化爲k維向量。

先考慮最簡單的情形：輸入屬性的數目只有一個
線性迴歸試圖學得

f (x i) = w x i + b, 使 得 f (x i) ≃ y i

利用均方誤差最小化確定w,b

(w *, b *) = arg min (w, b) \sum i = 1 m (f (x i) - y i) 2 = arg min (w, b) \sum i = 1 m (y i - w x i - b) 2

基於均方誤差最小化來進行模型求解的方法稱爲“最小二乘法”。
求解w和b使

E(w,b)=∑mi=1(yi−wxi−b)2 最小化的過程，稱爲線性迴歸模型的最小二乘“參數估計”。將

E(w,b) 分別對w和b求導，得

\partial E ( w , b ) \partial w = 2 (w \sum i = 1 m x 2 i - \sum i = 1 m (y i - b) x i), \partial E ( w , b ) \partial b = 2 (m b - \sum i = 1 m (y i - w x i)),

令上式得零得到w和b最優解的閉式解

w = \sum m i = 1 y i ( x i - x ¯ ) \sum m i = 1 x 2 i - 1 m ( \sum m i = 1 x i ) 2, b = 1 m \sum i = 1 m (y i - w x i),

更一般的情形，樣本由d個屬性描述
此時我們試圖學得

f (x i) = w T x i + b, 使 得 f (x i) ≃ y i

這稱爲“多元線性迴歸”
把數據集D表示爲大小爲

m×(d+1) 大小的矩陣

X ，

X = ⎛ ⎝ ⎜ ⎜ ⎜ ⎜ ⎜ x 11 x 21 ⋮ x m 1 x 12 x 22 ⋮ x m 2 \dots \dots ⋱ \dots x 1 d x 2 d ⋮ x m d 11 ⋮ 1 ⎞ ⎠ ⎟ ⎟ ⎟ ⎟ ⎟ = ⎛ ⎝ ⎜ ⎜ ⎜ ⎜ ⎜ x T 1 x T 2 ⋮ x T m 11 ⋮ 1 ⎞ ⎠ ⎟ ⎟ ⎟ ⎟ ⎟

再把標記也寫成向量形式

y=(y1;y2;…;ym) ，則類似均方誤差，有

w^* = arg min w^(y - X w^) T (y - X w^)

令

Ew^=(y−Xw^)T(y−Xw^) ,對

w^ 求導得到

\partial E w ^ \partial w ^= 2 X T (X w^- y) （ 這 裏 對 矩 陣 求 導 不 懂 ）

當

XTX 爲滿秩矩陣時，令上式爲零可得

w^* = (X T X) - 1 X T y

令

x^i=(xi;1) ,則最終學得的多元線性迴歸模型爲

f (x^i) = x^T i (X T X) - 1 X T y

然而，現實任務中XTX 往往不是滿秩矩陣，此時可解出多個w^ 。選擇哪一個解作爲輸出，將由懸系算法的歸納偏好決定，常見的做法是引入正則化項。

線性模型的變形
線性模型的預測值逼近真是標記y時，就得到線性迴歸模型。
線性迴歸模型簡寫爲

y = w T x + b

令模型預測值逼近y的衍生物，例如：

lny=wTx+b ——”對數線性迴歸”，實質上在求取輸入空間到輸出空間的非線性函數映射。

廣義線性模型
考慮單調可微函數g(.)，令y=g−1(wTx+b)。

3.3 對數機率迴歸

上一節討論使用線性模型進行迴歸學習，對於分類任務，只需找一個單調可微函數將分類任務的真實標記y與線性迴歸模型的預測值聯繫起來。
對於二分類任務，可通過“單位階躍函數”把線性迴歸模型產生的預測值z=wTx+b 對應到輸出標記y∈{0,1} 。

“ 單 位 階 躍 函 數 ” y = ⎧ ⎩ ⎨ ⎪ ⎪ 0, 0.5, 1, z < 0; z = 0; z > 0;

但是單位階躍函數不連續，不可直接作爲“廣義線性模型”中的

g−(.) ，可用對數機率函數

y = 1 1 + e - z

替代之。

對數機率函數是一種“Sigmoid函數”，它將z值轉化爲一個接近0或1的y值，並且其輸出值在z=0附近變化很陡。
將對數機率函數代入

y = 1 1 + e - ( w T x + b ) . (1) ln y 1 - y = w T x + b

若將y視爲樣本

x 作爲正例的可能性，則1-y時期反例可能性，故“對數機率”爲：

ln y 1 - y

小結：（1）式是在用線性迴歸模型的預測結果去逼近真實標記的對數機率，因此，其對應的模型稱爲“對數機率迴歸”，是一種分類學習方法。
優點：
- 直接對分類可能性進行建模，無需實現假設數據分佈，這樣就避免了假設分佈不準確所帶來的問題。
- 不僅預測出“類別”，還可得到近似概率預測。
- 對率函數是任意階可導的凸函數，現有的許多數值優化算法都可直接用於求取最優解。

確定（1）中的w和b（這裏不太懂）
若將式（1）中的y視爲類後驗概率估計p(y=1|x),則

ln p ( y = 1 | x ) p ( y = 1 | x ) = w T x + b p (y = 1 | x) = e w T x + b 1 + e w T x + b p (y = 1 | x) = 1 1 + e w T x + b

於是，通過“極大似然法”估計w和b。對率迴歸模型最大化“對數似然”

l (w, b) = \sum i = 1 m ln p (y i | x i; w, b) (2)

即令每個樣本屬於其真實標記的概率越大越好。
爲便於討論，令

β=(w,b),x^=(x;1), 則

wTx+b 可簡寫爲

βTx^ .再令

p1(x^;β)=p(y=1|x^;β),p0(x^;β)=p(y=0|x^;β)=1−p1(x^;β) ，則(2)式中的似然項可重寫爲

p (y i | x i; w, b) = y i p 1 (x^i; β) + (1 - y i) p 0 (x^i; β)

最小化（2）式等價於最小化

l (β) = \sum i = 1 m (- y i β T x^i + ln (1 + e β T x^i))

3.4 線性判別分析

Linear Discriminant Analysis，LDA 一種經典的線性學習方法，用於二分類問題。亦乘“Fisher”判別分析。
LDA思想：給定訓練樣例集，設法將樣例投影到一條直線上，使得同類樣例的投影點儘可能接近、異類樣例的投影點儘可能遠離；在對新樣本進行分類時，將其投影到同樣的這條直線上，再根據投影點的位置來確定新樣本的類別。

假設條件：給定數據集D={(xi,yi)}mi=1,yi∈{0,1} ,令Xi、μi、Σi 分別表示第i∈{0,1} 類示例的集合、均值向量、協方差矩陣。
思想實現：欲使同類樣例的投影點儘可能接近，可以讓同類樣例投影點的協方差儘可能小，即wTΣ0w+wTΣ1w 儘可能小；而欲使異類樣例的投影點儘可能遠離，可以讓類中心之間的距離儘可能大，即||wTμ0−wTμ1||22 儘可能大。即最大化下式

J = w T μ 0 - w T μ 1 | | 2 2 w T Σ 0 w + w T Σ 1 w (3)

定義“類內散度矩陣”

S w = Σ 0 + Σ 1 = \sum x \in X 0 (x - μ 0) (x - μ 0) T + \sum x \in X 1 (x - μ 1) (x - μ 1) T

以及“類間散度矩陣”

S b = (μ 0 - μ 1) (μ 0 - μ 1) T

則式（3）可重寫爲

J = w T S b w w T S w w

這就是LDA欲最大化的目標，即

Sb 與

Sw 的“廣義瑞利商”

水木-劉

發佈了36 篇原創文章 · 獲贊 4 · 訪問量 3萬+

私信關注

《機器學習》——讀書筆記2

第 3 章線性模型

3.1 基本形式

3.2 線性迴歸

3.3 對數機率迴歸

3.4 線性判別分析

《利用條件隨機場實現中文病歷文本中時間關係的自動提取》——閱讀筆記

《概率統計與隨機過程》——筆記3

《線性代數》——讀書筆記2

《機器學習》——讀書筆記1

《線性代數》——讀書筆記1

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結

《機器學習》——讀書筆記2

第 3 章 線性模型

3.1 基本形式

3.2 線性迴歸

3.3 對數機率迴歸

3.4 線性判別分析

第 3 章線性模型