機器學習-學習筆記（三）第三章線性模型

原創

2018-08-24 17:57

線性模型試圖通過一個屬性的線性組合來得到一個預測值進行預測，即

或者可以寫成矩陣形式，即

其中 $\omega$ 和b通過學習得到，線性模型非常容易理解，他通過對所有屬性進行綜合考慮來進行預測，其中權值可以理解爲某個屬性的重要程度，例如在判斷蘋果是否成熟的問題上，表皮的顏色就是很重要的判斷依據，而相對來說蘋果的形狀可能沒有那麼重要，在模型中則反映在權值的大小上。線性模型也是許多複雜模型的基礎，理解線性模型有助於後續的學習，下面介紹幾種經典的線性模型。

線性迴歸（linear regression）

線性迴歸試圖用上面所說的線性模型一般形式來預測輸出，通過“最小二乘法”即使得預測輸出與真是標記的均方差最小來確定 $\omega$ 和b的值。首先來討論簡單的輸入形式，假設數據集 $D=\left \{ \left ( x_{1},y_{1} \right ),\left ( x_{2},y_{2}\right ),......,\left ( x_{m},y_{m} \right ) \right \}$ ,其中 $x_{i}=\left ( x_{i1};x_{i2};...;x_{id} \right )$ 。首先我們討論較爲簡單的情況，令d=1，即只有一個屬性的輸入，對於離散的屬性若屬性存在“序”，可通過連續化將其轉化爲連續值，例如“身高”的取值“高”、“矮”轉化爲{1，0}，若不存在序的關係的有k個取值的屬性，則轉化爲k維向量如（1，0，0）、（0，1，0）的形式。

最小二乘法中的關鍵是均方差函數，對於上述輸入我們定義均方差函數 $E(\omega ,b)=\sum_{i=1}^{m}(y_{i}-\omega x_{i}-b)^{2}$ ,我們對 $\omega$ 和b求偏導，得到 $\frac{\partial E_{\left ( \omega ,b \right )}}{\partial \omega }=2\left ( \omega \sum_{i=1}^{m} x_{i}^{2}-\sum_{i=1}^{m}\left (y_{i}-b \right )x_{i}\right )$ 和 $\frac{\partial E_{\left ( \omega,b \right )}}{\partial b}=2\left ( mb-\sum_{i=1}^{m}\left ( y_{i} -\omega x_{i}\right ) \right )$ ，令兩個偏導爲0，可得到 $\omega$ 和b的解。

當數據集D的樣本由d個屬性描述的時候，稱爲多元線性迴歸（multivariate linear regression）將我們的迴歸方程用矩陣表示 $f\left ( \chi_{i} \right )=\omega ^{T}\chi _{i}+b$ ,一樣使用最小二乘法進行參數估計，這裏涉及對矩陣的求導運算，當我們希望預測y的衍生物時，則模型就是廣義線性模型，形如 $y=g^{-1}\left ( \omega ^{T}x+b \right )$ ,其中g()爲單調可微函數。

對數機率迴歸

用對數機率函數替代單位階躍函數後便可得到對數機率迴歸模型，將 $y=\frac{1}{1+e^{-z}}$ 代入廣義線性模型的 $g^{-}\left ( \right )$ 中也可以得到這個模型，得到 $ln\frac{y}{1-y}=\omega ^{T}\chi +b$ ，將y視爲樣本x作爲正例的可能性，1-y是其反例可能性，兩者比值 $\frac{y}{1-y}$ 稱爲機率。根據上面說的概率我們將等式改寫成

用最大似然法來估計 $\omega$ 和b，具體不再展開。

線性判別分析（Linear Discriminant Analysis）

其算法思想就是選取一條合適的直線，將所有的樣本點投影到該直線上，令同類樣本的投影點儘可能近，不同類樣本的投影點儘可能遠，令 $\chi _{i}$ 、 $\mu _{i}$ 、 $\varepsilon _{i}$ 分別表示第i類示例的集合、均值向量、協方差矩陣，將數據投影到直線 $\omega$ 上，則兩類樣本的中心在直線上的投影分別爲 $\omega ^{T}\mu _{0}$ 和 $\omega ^{T}\mu _{1}$ ，兩類樣本的協方差分別是 $\omega ^{T}\epsilon _{0}\omega$ 和 $\omega ^{T}\varepsilon _{1}\omega$ ，爲了達成上述目的，使 $\omega ^{T}\epsilon _{0}\omega$ + $\omega ^{T}\varepsilon _{1}\omega$ 儘可能小， $\left \| \omega ^{T}\mu _{0}-\omega ^{T}\mu _{1} \right \|^{2}_{2}$ 儘可能大，定義幾個量