机器学习算法总结——linear regression

单元线性回归

定义
  • 假设目标值与特征之间线性相关: y^=wx+b\widehat{y}=wx+b
  • 其中y^\widehat{y}为预期值
损失函数
  • 假设有n对数据,则损失函数:L=1n1n(yi^y)2L=\frac{1}{n}\sum_{1}^{n}(\widehat{y_{i}}-y)^{2},即MSE
求解最小化L时,w与b的值
方法一:最小二乘参数估计
  • Lw=2n(w1nxi2+1nxi(byi))\frac{\partial L}{\partial w}=\frac{2}{n}(w\sum_{1}^{n}x_{i}^{2}+\sum_{1}^{n}x_{i}(b-y_{i}))
  • Lb=2n(1n(wxi+byi))\frac{\partial L}{\partial b}=\frac{2}{n}(\sum_{1}^{n}(wx_{i}+b-y_{i}))
梯度下降
  • 梯度下降核心内容是对自变量进行不断的更新(针对w和b求偏导),使得目标函数不断逼近最小值的过程
  • wαLwww-\alpha \frac{\partial L}{\partial w}\rightarrow w
  • bαLbbb-\alpha \frac{\partial L}{\partial b}\rightarrow b
  • 其中α\alpha为learning rate。若α\alpha太小,则收敛很慢;若太大,可能导致不能收敛
  • 注意:此方法可能收敛到局部最小化
  • w与b要同时更新。不能:先更新w,再求偏导b,最后更新b

多元线性回归

定义

假设目标值与特征之间线性相关: y^=θ3x3+θ2x2+θ1x1+θ0\widehat{y}=\theta_{3} x_{3}+\theta_{2} x_{2}+\theta_{1} x_{1}+\theta_{0} = ΘTX\Theta ^{T}X

梯度下降,同上
特征规格化
  • 在使用梯度下降时,为了时收敛更快,可以转换特征在相似的规模上,比如,0 - 1,-3 - +3。(x-avg)/(max - min)
最后解得特征为:Θ=(XTX)1XTy\Theta =(X^{T}X)^{-1}X^{T}y, y为已知值
若已知向量不可逆,可能是有冗余的特征,也可能是特征数量太多了
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章