统计学习方法第六章习题答案

习题6.1

题目：确认逻辑斯谛分布属于指数分布族.
答：
先看看指数分布族的定义

逻辑斯谛回归是广义线性模型的一种，而广义线性模型与最大熵模型都是源于指数族分布。
对于二项逻辑斯蒂回归模型：

$P(Y=1 | x)=\frac{\exp (w \cdot x)}{1+\exp (w \cdot x)}$
$P(Y=0 | x)=\frac{1}{1+\exp (w \cdot x)}$
（跟上面的指数分布族公式符号不太一样，Y是指数分布族公式符号中的x，x是指数分布族公式符号 $η$ 中的一个参数）

则有模型的分布列为：

$P(Y|x) = (\frac{\exp (w \cdot x)}{1+\exp (w \cdot x)})^{y}(\frac{1}{1+\exp (w \cdot x)})^{1-y}$

$P(Y|x) = exp(ylog(\frac{\exp (w \cdot x)}{1+\exp (w \cdot x)}) + (1-y)log(\frac{1}{1+\exp (w \cdot x)}))$

取 $\pi(x) = 1+\exp (w \cdot x)$

$P(Y|x) = exp(ylog(\frac{\pi(x)}{\pi(x)+1}) + (1-y)log(\frac{1}{1+\pi(x)}))$

$P(Y|x) = exp(ylog(\pi(x)) - log(\pi(x) + 1))$

则有

$h(y)=1$
$T(y)=y$
$η=log(\pi(x))$
$A(η) = log(\pi(x) + 1)=log(exp(η)+1)$
得证
对于多项逻辑斯蒂回归模型
（多项的感觉有点问题，大家可以一起讨论哈）
$P(Y=k | x)=\frac{\exp \left(w_{k} \cdot x\right)}{1+\sum_{k=1}^{K-1} \exp \left(w_{k} \cdot x\right)}, \quad k=1,2, \cdots, K-1$
$P(Y=K | x)=\frac{1}{1+\sum_{k=1}^{K-1} \exp \left(w_{k} \cdot x\right)}$
则分布列可以写为
$P(Y|x) = (\frac{\exp \left(w_{k} \cdot x\right)}{1+\sum_{k=1}^{K-1} \exp \left(w_{k} \cdot x\right)})^{f(y)}, \quad k=1,2, \cdots, K$

其中：

$f(y)=\left\{\begin{array}{ll}1, &y=k \\ 0, & y\neq k\end{array}\right.$

$\sum^{K}_{k=1}exp(w_{k}\cdot x) = 1 + \sum^{K-1}_{k=1}exp(w_{k}\cdot x)$
则有 $P(Y|x) = exp(f(y)log(\frac{\exp \left(w_{k} \cdot x\right)}{1+\sum_{k=1}^{K-1} \exp \left(w_{k} \cdot x\right)}))$
同理有
$h(y)=1$
$T(y)=f(y)$
$η=log(\frac{\exp \left(w_{k} \cdot x\right)}{1+\sum_{k=1}^{K-1} \exp \left(w_{k} \cdot x\right)})$
$A(η) = 0$

习题6.2

题目：写出逻辑斯谛回归模型学习的梯度下降算法.
对于逻辑斯谛模型，条件概率分布如下：
$P(Y=1 | x)=\frac{\exp (w \cdot x+b)}{1+\exp (w \cdot x+b)}$
$P(Y=0 | x)=\frac{1}{1+\exp (w \cdot x+b)}$
对数似然函数为：
$L(w)=\sum_{i=1}^{N}\left[y_{i}\left(w \cdot x_{i}\right)-\log \left(1+\exp \left(w \cdot x_{i}\right)\right)\right]$
（对数似然函数计算在书的79页）
对 $L(w)$ 求 $w$ 的导数
$\frac{\partial L(w)}{\partial w}=\sum_{i=1}^{N}\left[x_{i} \cdot y_{i}-\frac{\exp \left(w \cdot x_{i}\right) \cdot x_{i}}{1+\exp \left(w \cdot x_{i}\right)}\right]$
则
$\nabla L(w)=\left[\frac{\partial L(w)}{\partial w^{(0)}}, \ldots, \frac{\partial L(w)}{\partial w(m)}\right]$
算法流程：
（1）选取初值 $w_{0}$ ，取 $k=0$
（2）计算 $L(w_{k})$
（3）更新 $w$ ， $w_{(k+1)}=w_{(k)}+\lambda_{k} \nabla L\left(w_{k}\right)$
（4）转（2）同时 $k=k+1$ ，直到 $L(w)$ 的变化范围在可接受范围内。

习题6.3

题目：写出最大熵模型学习的DFP算法.（关于一般的DFP算法参见附录B）
这个解答可以参考：https://blog.csdn.net/xiaoxiao_wen/article/details/54098476

参考

指数分布族
 指数分布族笔记
 指数分布族相关公式推导

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

统计学习方法第六章习题答案

习题6.1

习题6.2

习题6.3

参考

linux安装cuda和cudnn

Mellanox网卡开启SR-IOV

模拟手机设备：使用 Playwright 实现移动端自动化测试

全面系统的AI学习路径，帮助普通人也能玩转AI

HTML 00 Tutorial

从零开始：使用 Playwright 脚本录制实现自动化测试

uni-app实现上拉加载

vue3编译优化之“静态提升”

又是一个月-20240513

flask 如何保证返回json有序

DCGAN生成二次元頭像（Pytorch）

1020 Delete At Most Two Characters (35 分)（C++）

PAT頂級目錄（C++）

爬取知乎表情包

WaveNet筆記

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結

统计学习方法 第六章习题答案

习题6.1

习题6.2

习题6.3

参考

统计学习方法第六章习题答案