机器学习数学基础之线性回归


(本文为学习总结笔记,如有雷同请无视)

知识点:
1、利用矩阵的只是对线性公式进行整合
2、误差项的分析
3、似然函数的理解
4、矩阵求偏导
5、线性回归的最终求解

1. 线性回归公式

y=wk+b y = wk +b

其中b为误差值,对最终的结果影响较小。
线性回归中最重要的求解即为求w。
线性回归在有监督的情况下使用——先利用一定的已知数据进行求解w,再根据w与输入的x求得y

2. 利用矩阵对线性公式整合

线性回归的特征值一般有很多个,即存在很多x。
因此一个线性回归可表示为:(不考虑误差项b的时候)
hθ(x)=θ1x1+θ2x2++θnxn h_{\theta}(x)=\theta_1 x_1+\theta_2 x_2 +\cdots + \theta_n x_n

hθ(x)=i=1nθixi h_{\theta}(x)=\displaystyle\sum_{i=1}^n \theta_i x_i

将上述公式转换为矩阵的形式
提取特征和系数:
[θ1,θ2,,θi] [ \theta_1,\theta_2,\cdots,\theta_i]

[x1,x2,,xi] [ x_1,x_2,\cdots,x_i]

因此,可知:
hθ(x)=θTx h_{\theta}(x)=\theta^T x

3. 误差项分析

当误差项满足高斯分布的时候,才可以使用线性回归

根据以上得出的结果,可将上述公式添加误差项,得到如下:
hθ(x)=θTx+ε h_{\theta}(x)=\theta^T x + \varepsilon

误差项是独立且具有相同的分布,并且服从均值为0,方差为θ平方的高斯分布

4. 似然函数

yi=θTxi+εi y^{i}=\theta^T x^{i} + \varepsilon^{i}

由于误差项满足高斯分布,因此误差项的概率值如下:

φ(εi)=12πσe((εi)22σ2) \varphi(\varepsilon_{i}) = \dfrac{1}{\sqrt{\smash[b]{2\pi}}\sigma} e^{(-\dfrac{-(\varepsilon^{i})^2}{2\sigma^{2}})}

再把函数带入,消去误差项,得:
P(yixi;θ)=12πσe((yiθTxi)22σ2) P(y_i | x_i;\theta) = \dfrac{1}{\sqrt{\smash[b]{2\pi}}\sigma} e^{(-\dfrac{(y_i - \theta^Tx_i)^2}{2\sigma^{2}})}

误差项越小越好,引入似然函数的作用:根据样本来求能够最接近真实值的参数和特征的组成。
得到似然估计函数:
L(θ)=i=1mP(yixi;θ)=i=1m12πσe((yiθTxi)22σ2) L(\theta)=\prod^m_{i=1} P(y_i | x_i;\theta) = \prod^m_{i=1}\dfrac{1}{\sqrt{\smash[b]{2\pi}}\sigma} e^{(-\dfrac{(y_i - \theta^Tx_i)^2}{2\sigma^{2}})}
目的即为取得似然函数最大
接下来进行取对计算,从而对极大似然函数求解
logL(θ)=logi=1m12πσe((yiθTxi)22σ2) logL(\theta) =log \prod^m_{i=1}\dfrac{1}{\sqrt{\smash[b]{2\pi}}\sigma} e^{(-\dfrac{(y_i - \theta^Tx_i)^2}{2\sigma^{2}})}

最终求得:
logL(θ)=mlog12πσ1σ212i=1m(yiθTxi)2 logL(\theta) = m\cdot log\dfrac{1}{\sqrt{\smash[b]{2\pi}}\sigma} - \dfrac{1}{\sigma^{2}} \cdot \dfrac{1}{2}\displaystyle\sum_{i=1}^m (y_i - \theta^T\cdot x_i)^2

因此为了求其最大值,而m为顶置,故求减去值的最小值,减去最小即为最终结果最大。
故为求:
12i=1m(yiθTxi)2 \dfrac{1}{2}\displaystyle\sum_{i=1}^m (y_i - \theta^T\cdot x_i)^2
越小越好
而令:
J(θ)=12i=1m(yiθTxi)2 J(\theta)=\dfrac{1}{2}\displaystyle\sum_{i=1}^m (y_i - \theta^T\cdot x_i)^2
即为最小二乘法公式,进行求解

5. 最小二乘★(矩阵求导公式)

有公式:
J(θ)=12i=1m(yiθTxi)2 J(\theta)=\dfrac{1}{2}\displaystyle\sum_{i=1}^m (y_i - \theta^T\cdot x_i)^2

用矩阵的方式进行转换,可知:

J(θ)=12(xθy)T(xθy) J(\theta)=\dfrac{1}{2}(x\theta-y)^T(x\theta-y)

再对上式求偏导:

J(θ)=θ(12(xθy)T(xθy)) J(\theta)=\triangledown_\theta ( \dfrac{1}{2}(x\theta-y)^T(x\theta-y))

J(θ)=θ(12(θTxTxθθTxTyyTxθ+yTy)) J(\theta)=\triangledown_\theta ( \dfrac{1}{2}(\theta^Tx^T\cdot x\theta- \theta^Tx^Ty-y^Tx\theta +y^Ty))
令偏导为零:
根据矩阵求导三重要公式
公式一:
当满足A为对称阵的时候,有求导法则:
dXTAXdX=2AX \dfrac{dX^TAX}{dX} = 2AX

公式二:
dXTAdX=A \dfrac{dX^TA}{dX} = A

公式三:
dAXdX=AT \dfrac{dAX}{dX} = A^T

根据以上公式进行计算,得:

在这里插入图片描述

令上述结果为0;
x和y均为已知,故求得:
θ=(xTx)1xTy \theta = (x^Tx)^{-1}x^Ty

w=θ w = \theta

因此求得了w,即求得了最重要的参数w

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章