逻辑回归LR推导

1 问题定义：
给定数据集{x1,x2,...,xm}\{x_1,x_2, ...,x_m\}{x1​,x2​,...,xm​}和标签{y1,y2,...,ym}\{y_1,y_2, ...,y_m\}{y1​,y2​,...,ym​}，训练一个模型，使得输入新的 xxx，输出对应的标签值。这里数据集 xi∈Rnx_i\in R^nxi​∈Rn，标签 yi∈{0,1}y_i\in\{0,1\}yi​∈{0,1}；

2 建立判别模型
建立一个判别模型，输入数据 xxx，输出该数据被分类成每个类别的概率；
对于二分类问题，我们使用sigmoid函数来建立判别模型：

p(y=1∣x,θ)=σ(θTx)p(y=1|x,\theta)=\sigma(\theta^Tx)p(y=1∣x,θ)=σ(θTx)

p(y=0∣x,θ)=1−σ(θTx)p(y=0|x,\theta)=1-\sigma(\theta^Tx)p(y=0∣x,θ)=1−σ(θTx)

3 建立似然函数：
对于所有数据集，建立似然函数：

L(θ)=∏i=1mp(yi=1∣x,θ)yip(yi=0∣x,θ)1−yiL(\theta)=\prod_{i=1}^mp(y_i=1|x,\theta)^{y_i}p(y_i=0|x,\theta)^{1-y_i}L(θ)=i=1∏m​p(yi​=1∣x,θ)yi​p(yi​=0∣x,θ)1−yi​
对数似然：

lnL(θ)=∑i=1m[yilnσ(θTxi)+(1−yi)ln(1−σ(θTxi))]lnL(\theta)=\sum_{i=1}^m[y_iln\sigma(\theta^Tx_i)+(1-y_i)ln(1-\sigma(\theta^Tx_i))]lnL(θ)=i=1∑m​[yi​lnσ(θTxi​)+(1−yi​)ln(1−σ(θTxi​))]
求导：

αlnL(θ)αθ=∑i=1mxi[yi−σ(θTxi)]\frac{\alpha lnL(\theta)}{\alpha \theta}=\sum_{i=1}^mx_i[y_i-\sigma(\theta^Tx_i)]αθαlnL(θ)​=i=1∑m​xi​[yi​−σ(θTxi​)]
令导数等于0，就得到了θ\thetaθ的极大似然估计，但为了方便求解，这里使用梯度下降法，因此需要建立损失函数。

4 交叉熵损失函数
我们基于对数似然来定义交叉熵损失函数，及极大化似然就等价于最小化交叉熵：

cost(θ)=−1mlnL(θ)=−1m∑i=1m[yilnσ(θTxi)+(1−yi)ln(1−σ(θTxi))]cost(\theta)=-\frac{1}{m}lnL(\theta)=-\frac{1}{m}\sum_{i=1}^m[y_iln\sigma(\theta^Tx_i)+(1-y_i)ln(1-\sigma(\theta^Tx_i))]cost(θ)=−m1​lnL(θ)=−m1​i=1∑m​[yi​lnσ(θTxi​)+(1−yi​)ln(1−σ(θTxi​))]
损失函数梯度：

▽cost(θ)=−1m∑i=1mxi[yi−σ(θTxi)]\bigtriangledown cost(\theta)=-\frac{1}{m}\sum_{i=1}^mx_i[y_i-\sigma(\theta^Tx_i)]▽cost(θ)=−m1​i=1∑m​xi​[yi​−σ(θTxi​)]

5 为什么不使用最小二乘损失函数（LSE）？
LSE损失函数：

costLSE(θ)=12m∑i=1m[yi−σ(θTxi)]2cost_{LSE}(\theta)=\frac{1}{2m}\sum_{i=1}^m[y_i-\sigma(\theta^Tx_i)]^2costLSE​(θ)=2m1​i=1∑m​[yi​−σ(θTxi​)]2
LSE损失函数梯度：

▽costLSE(θ)=1m∑i=1m[σ(θTxi)−yi]σ′(θTxi)xi\bigtriangledown cost_{LSE}(\theta)=\frac{1}{m}\sum_{i=1}^m[\sigma(\theta^Tx_i)-y_i]\sigma'(\theta^Tx_i)x_i▽costLSE​(θ)=m1​i=1∑m​[σ(θTxi​)−yi​]σ′(θTxi​)xi​
由于存在σ′(θTxi)\sigma'(\theta^Tx_i)σ′(θTxi​)项，会出现梯度消失问题，而交叉熵损失函数梯度不存在这个问题；

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

逻辑回归LR推导

1 问题定义：

2 建立判别模型

3 建立似然函数：

4 交叉熵损失函数

5 为什么不使用最小二乘损失函数（LSE）？

python 排序算法整理

C++參數傳遞【易錯題】

C++ 拷貝控制【學習筆記】

C++類【學習筆記】

C++ 標準庫string【學習筆記】

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結