线性回归和逻辑回归损失函数推导

@(数据挖掘)

线性回归和逻辑回归损失函数推导
- 一、线性回归最小二乘loss推导
- 二、logistics回归加sigmoid原因以及交叉熵损失函数推导

一、线性回归最小二乘loss推导

我们都知道线性回归是机器学习中最简单，使用范围也很广的一个算法，经典且使用。而它的损失函数最小二乘损失，大家也很熟悉，但是为什么要用最小二乘loss呢？正文开始：
可以通过一系列假设，从概率的角度去说明为什么选最小二乘（按理说，我们有许多函数可以定义损失）。
我们这里的假设证明不是唯一的，还有许多方法可以证明，有兴趣的可以自行google。

假设：
$y^{(i)} = θ^{T} x^{(i)} + ε^{(i)}$
$ε^{(i)} = e r r o r$
这里的error也就是模型和实际数值之间的误差值
根据中心极限定理(许多独立随机变量组合会符合高斯分布)，我们可以接着假设误差项符合高斯分布：
$ε^{(i)} \sim N (0, σ^{2})$
即概率密度函数为
$P (ε^{(i)}) = \frac{1}{\sqrt{2 π} σ} e x p (- \frac{(ε^{(i)})^{2}}{2 σ^{2}})$
上述误差函数的概率密度函数服从高斯分布，则我们易知：
$P (y^{(i)} | x^{(i)}; θ) = \frac{1}{\sqrt{2 π} σ} e x p (- \frac{{(y^{(i)} - θ^{T} x^{(i)})}^{2}}{2 σ^{2}})$
即： $y^{(i)} | x^{(i)}; θ \sim N (θ^{T} x^{(i)}, σ^{2})$
这里需要特别注意，我们不把 $θ$ 认为是随机变量，而是有着我们未知的确定值，也就是把它看成我们需要去估计得到的值，也就是说上面的概率 $P (y^{(i)} | x^{(i)}; θ)$ 意思是以 $θ$ 为参数时，给定 $x^{(i)}$ 条件下 $y^{(i)}$ 的条件概率分布
假设不同输入 $x^{(i)}$ 对应误差项 $ε^{(i)}$ 是独立同分布(IID:Independently and Identically Distributed;意思是条件独立的，但是都服从同一均值方差的高斯分布)：
则我们的模型可以用概率模型定义为一个极大似然估计问题：

L (θ) = P (\vec{y} | x; θ) = \prod_{i = 1}^{m} P (y^{(i)} | x^{(i)}; θ) = \prod_{i = 1}^{m} \frac{1}{\sqrt{2 π} σ} e x p (- \frac{{(y^{(i)} - θ^{T} x^{(i)})}^{2}}{2 σ^{2}})

4. 所以最后我们的寻找最优模型的参数

θ

问题变成了一个求上式关于

θ

的极大似然估计问题，为了方便计算，我们常常求对数似然，得到：

l o g L (θ) = l o g \prod_{i = 1}^{m} \frac{1}{\sqrt{2 π} σ} e x p (- \frac{{(y^{(i)} - θ^{T} x^{(i)})}^{2}}{2 σ^{2}}) = m l o g \frac{1}{\sqrt{2 π} σ} + \sum_{i = 1}^{m} - \frac{{(y^{(i)} - θ^{T} x^{(i)})}^{2}}{2 σ^{2}}

所以从上式易知，最大化

l o g L (θ)

问题就相当于最小化

\sum_{i = 1}^{m} \frac{{(y^{(i)} - θ^{T} x^{(i)})}^{2}}{2 σ^{2}}

问题，也就是我们定义的loss

二、logistics回归加sigmoid原因以及交叉熵损失函数推导

我们知道，其实逻辑回归模型变成了分类问题，但只是在线性回归的基础上加上了一个sigmoid函数，那么问题来了：
1. 为什么我们要选择使用一个sigmoid函数？
大家可以移步参考知乎上的回答：https://www.zhihu.com/question/35322351
2. 交叉熵损失函数的推导
- 同线性回归，我们可以把我们的模型用概率表示：
$P (y^{(i)} = 1 | x^{(i)}; θ) = h_{θ} (x^{(i)})$
$P (y^{(i)} = 0 | x^{(i)}; θ) = 1 - h_{θ} (x^{(i)})$
- 我们可以进一步把两式整合：
$P (y^{(i)} | x^{(i)}; θ) = h_{θ} (x^{(i)})^{y^{(i)}} (1 - h_{θ} (x^{(i)}))^{(1 - y^{(i)})}$
- 同样我们可以把模型最优问题看做是极大似然估计问题：
$L (θ) = P (\vec{y} | x; θ) = \prod_{i = 1}^{m} P (y^{(i)} | x^{(i)}; θ) = \prod_{i = 1}^{m} h_{θ} (x^{(i)})^{y^{(i)}} (1 - h_{θ} (x^{(i)}))^{(1 - y^{(i)})}$
- 还是去对数似然：
$l o g L (θ) = \sum_{i = 1}^{m} y^{(i)} l o g h_{θ} (x^{(i)}) + (1 - y^{(i)}) l o g (1 - h_{θ} (x^{(i)}))$
则，得证交叉熵函数

线性回归和逻辑回归损失函数推导

线性回归和逻辑回归损失函数推导

一、线性回归最小二乘loss推导

二、logistics回归加sigmoid原因以及交叉熵损失函数推导

NETCore中实现一个轻量无负担的极简任务调度ScheduleTask

使用c#强大的表达式树实现对象的深克隆之解决循环引用的问题

GPT-4o 引领人机交互新风向，向量数据库赛道沸腾了

free AI online tools All In One

痞子衡嵌入式：恩智浦i.MX RT1xxx系列MCU启动那些事（12.A）- uSDHC eMMC启动时间(RT1170)

基于Ubuntu-22.04安装K8s-v1.28.2实验（二）使用kube-vip实现集群VIP访问

基于Ubuntu-22.04安装K8s-v1.28.2实验（三）数据卷挂载NFS（网络文件系统）

企业大模型如何成为自己数据的“百科全书”？

本地SSL证书过期输入命令在IIS自动生成

.NET周刊【5月第2期 2024-05-12】

機器學習各優化算法的簡單總結

mac本機pySpark配置並且能在本地遠程調用服務器Spark以及文件

線性迴歸和邏輯迴歸損失函數推導

csdn如何快速完美的轉載別人的文章

LGBM是如何處理類別特徵，相比onehot編碼的優勢在哪

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結