機器學習-學習筆記(三)第三章 線性模型

線性模型試圖通過一個屬性的線性組合來得到一個預測值進行預測,即

或者可以寫成矩陣形式,即

其中\omega和b通過學習得到,線性模型非常容易理解,他通過對所有屬性進行綜合考慮來進行預測,其中權值可以理解爲某個屬性的重要程度,例如在判斷蘋果是否成熟的問題上,表皮的顏色就是很重要的判斷依據,而相對來說蘋果的形狀可能沒有那麼重要,在模型中則反映在權值的大小上。線性模型也是許多複雜模型的基礎,理解線性模型有助於後續的學習,下面介紹幾種經典的線性模型。

線性迴歸(linear regression)

線性迴歸試圖用上面所說的線性模型一般形式來預測輸出,通過“最小二乘法”即使得預測輸出與真是標記的均方差最小來確定\omega和b的值。首先來討論簡單的輸入形式,假設數據集D=\left \{ \left ( x_{1},y_{1} \right ),\left ( x_{2},y_{2}\right ),......,\left ( x_{m},y_{m} \right ) \right \},其中x_{i}=\left ( x_{i1};x_{i2};...;x_{id} \right )。首先我們討論較爲簡單的情況,令d=1,即只有一個屬性的輸入,對於離散的屬性若屬性存在“序”,可通過連續化將其轉化爲連續值,例如“身高”的取值“高”、“矮”轉化爲{1,0},若不存在序的關係的有k個取值的屬性,則轉化爲k維向量如(1,0,0)、(0,1,0)的形式。

最小二乘法中的關鍵是均方差函數,對於上述輸入我們定義均方差函數E(\omega ,b)=\sum_{i=1}^{m}(y_{i}-\omega x_{i}-b)^{2},我們對\omega和b求偏導,得到\frac{\partial E_{\left ( \omega ,b \right )}}{\partial \omega }=2\left ( \omega \sum_{i=1}^{m} x_{i}^{2}-\sum_{i=1}^{m}\left (y_{i}-b \right )x_{i}\right )\frac{\partial E_{\left ( \omega,b \right )}}{\partial b}=2\left ( mb-\sum_{i=1}^{m}\left ( y_{i} -\omega x_{i}\right ) \right ),令兩個偏導爲0,可得到\omega和b的解。

當數據集D的樣本由d個屬性描述的時候,稱爲多元線性迴歸(multivariate linear regression)將我們的迴歸方程用矩陣表示f\left ( \chi_{i} \right )=\omega ^{T}\chi _{i}+b,一樣使用最小二乘法進行參數估計,這裏涉及對矩陣的求導運算,當我們希望預測y的衍生物時,則模型就是廣義線性模型,形如y=g^{-1}\left ( \omega ^{T}x+b \right ),其中g()爲單調可微函數。

對數機率迴歸

用對數機率函數替代單位階躍函數後便可得到對數機率迴歸模型,將y=\frac{1}{1+e^{-z}}代入廣義線性模型的g^{-}\left ( \right )中也可以得到這個模型,得到ln\frac{y}{1-y}=\omega ^{T}\chi +b,將y視爲樣本x作爲正例的可能性,1-y是其反例可能性,兩者比值\frac{y}{1-y}稱爲機率。根據上面說的概率我們將等式改寫成

用最大似然法來估計\omega和b,具體不再展開。

線性判別分析(Linear Discriminant Analysis)

其算法思想就是選取一條合適的直線,將所有的樣本點投影到該直線上,令同類樣本的投影點儘可能近,不同類樣本的投影點儘可能遠,令\chi _{i}\mu _{i}\varepsilon _{i}分別表示第i類示例的集合、均值向量、協方差矩陣,將數據投影到直線\omega上,則兩類樣本的中心在直線上的投影分別爲\omega ^{T}\mu _{0}\omega ^{T}\mu _{1},兩類樣本的協方差分別是\omega ^{T}\epsilon _{0}\omega\omega ^{T}\varepsilon _{1}\omega,爲了達成上述目的,使\omega ^{T}\epsilon _{0}\omega+\omega ^{T}\varepsilon _{1}\omega儘可能小,\left \| \omega ^{T}\mu _{0}-\omega ^{T}\mu _{1} \right \|^{2}_{2}儘可能大,定義幾個量

類內散度矩陣

類間散度矩陣

LDA欲最大化目標

由拉格朗日乘子法可以確定參數\omega,在解方程中要用到奇異值分解,這裏不展開討論,LDA可以很容易的推廣到多分類任務中,基本思想與二分類任務相同,最優化目標有很多種。

多分類任務,幾種基本思路就是用二分類的組合策略去實現多分類任務,包括OvO(一對一)、OvR(一對多)、MvM(多對多),其中OvO(一對一)、OvR(一對多)一般採用多數投票制,而MvM的正反例都得特殊構造,例如糾錯輸出碼。

上圖左邊是OvO模型,右邊是OvR模型。

ECOC(糾錯輸出碼)中選取與測試示例距離最近的類別作爲輸出,具有一定的糾錯能力。

第三章習題待續

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章