機器學習數學基礎之線性迴歸


(本文爲學習總結筆記,如有雷同請無視)

知識點:
1、利用矩陣的只是對線性公式進行整合
2、誤差項的分析
3、似然函數的理解
4、矩陣求偏導
5、線性迴歸的最終求解

1. 線性迴歸公式

y=wk+b y = wk +b

其中b爲誤差值,對最終的結果影響較小。
線性迴歸中最重要的求解即爲求w。
線性迴歸在有監督的情況下使用——先利用一定的已知數據進行求解w,再根據w與輸入的x求得y

2. 利用矩陣對線性公式整合

線性迴歸的特徵值一般有很多個,即存在很多x。
因此一個線性迴歸可表示爲:(不考慮誤差項b的時候)
hθ(x)=θ1x1+θ2x2++θnxn h_{\theta}(x)=\theta_1 x_1+\theta_2 x_2 +\cdots + \theta_n x_n

hθ(x)=i=1nθixi h_{\theta}(x)=\displaystyle\sum_{i=1}^n \theta_i x_i

將上述公式轉換爲矩陣的形式
提取特徵和係數:
[θ1,θ2,,θi] [ \theta_1,\theta_2,\cdots,\theta_i]

[x1,x2,,xi] [ x_1,x_2,\cdots,x_i]

因此,可知:
hθ(x)=θTx h_{\theta}(x)=\theta^T x

3. 誤差項分析

當誤差項滿足高斯分佈的時候,纔可以使用線性迴歸

根據以上得出的結果,可將上述公式添加誤差項,得到如下:
hθ(x)=θTx+ε h_{\theta}(x)=\theta^T x + \varepsilon

誤差項是獨立且具有相同的分佈,並且服從均值爲0,方差爲θ平方的高斯分佈

4. 似然函數

yi=θTxi+εi y^{i}=\theta^T x^{i} + \varepsilon^{i}

由於誤差項滿足高斯分佈,因此誤差項的概率值如下:

φ(εi)=12πσe((εi)22σ2) \varphi(\varepsilon_{i}) = \dfrac{1}{\sqrt{\smash[b]{2\pi}}\sigma} e^{(-\dfrac{-(\varepsilon^{i})^2}{2\sigma^{2}})}

再把函數帶入,消去誤差項,得:
P(yixi;θ)=12πσe((yiθTxi)22σ2) P(y_i | x_i;\theta) = \dfrac{1}{\sqrt{\smash[b]{2\pi}}\sigma} e^{(-\dfrac{(y_i - \theta^Tx_i)^2}{2\sigma^{2}})}

誤差項越小越好,引入似然函數的作用:根據樣本來求能夠最接近真實值的參數和特徵的組成。
得到似然估計函數:
L(θ)=i=1mP(yixi;θ)=i=1m12πσe((yiθTxi)22σ2) L(\theta)=\prod^m_{i=1} P(y_i | x_i;\theta) = \prod^m_{i=1}\dfrac{1}{\sqrt{\smash[b]{2\pi}}\sigma} e^{(-\dfrac{(y_i - \theta^Tx_i)^2}{2\sigma^{2}})}
目的即爲取得似然函數最大
接下來進行取對計算,從而對極大似然函數求解
logL(θ)=logi=1m12πσe((yiθTxi)22σ2) logL(\theta) =log \prod^m_{i=1}\dfrac{1}{\sqrt{\smash[b]{2\pi}}\sigma} e^{(-\dfrac{(y_i - \theta^Tx_i)^2}{2\sigma^{2}})}

最終求得:
logL(θ)=mlog12πσ1σ212i=1m(yiθTxi)2 logL(\theta) = m\cdot log\dfrac{1}{\sqrt{\smash[b]{2\pi}}\sigma} - \dfrac{1}{\sigma^{2}} \cdot \dfrac{1}{2}\displaystyle\sum_{i=1}^m (y_i - \theta^T\cdot x_i)^2

因此爲了求其最大值,而m爲頂置,故求減去值的最小值,減去最小即爲最終結果最大。
故爲求:
12i=1m(yiθTxi)2 \dfrac{1}{2}\displaystyle\sum_{i=1}^m (y_i - \theta^T\cdot x_i)^2
越小越好
而令:
J(θ)=12i=1m(yiθTxi)2 J(\theta)=\dfrac{1}{2}\displaystyle\sum_{i=1}^m (y_i - \theta^T\cdot x_i)^2
即爲最小二乘法公式,進行求解

5. 最小二乘★(矩陣求導公式)

有公式:
J(θ)=12i=1m(yiθTxi)2 J(\theta)=\dfrac{1}{2}\displaystyle\sum_{i=1}^m (y_i - \theta^T\cdot x_i)^2

用矩陣的方式進行轉換,可知:

J(θ)=12(xθy)T(xθy) J(\theta)=\dfrac{1}{2}(x\theta-y)^T(x\theta-y)

再對上式求偏導:

J(θ)=θ(12(xθy)T(xθy)) J(\theta)=\triangledown_\theta ( \dfrac{1}{2}(x\theta-y)^T(x\theta-y))

J(θ)=θ(12(θTxTxθθTxTyyTxθ+yTy)) J(\theta)=\triangledown_\theta ( \dfrac{1}{2}(\theta^Tx^T\cdot x\theta- \theta^Tx^Ty-y^Tx\theta +y^Ty))
令偏導爲零:
根據矩陣求導三重要公式
公式一:
當滿足A爲對稱陣的時候,有求導法則:
dXTAXdX=2AX \dfrac{dX^TAX}{dX} = 2AX

公式二:
dXTAdX=A \dfrac{dX^TA}{dX} = A

公式三:
dAXdX=AT \dfrac{dAX}{dX} = A^T

根據以上公式進行計算,得:

在這裏插入圖片描述

令上述結果爲0;
x和y均爲已知,故求得:
θ=(xTx)1xTy \theta = (x^Tx)^{-1}x^Ty

w=θ w = \theta

因此求得了w,即求得了最重要的參數w

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章