习题6.1
题目:确认逻辑斯谛分布属于指数分布族.
答:
先看看指数分布族的定义
逻辑斯谛回归是广义线性模型的一种,而广义线性模型与最大熵模型都是源于指数族分布。
对于二项逻辑斯蒂回归模型:
P(Y=1∣x)=1+exp(w⋅x)exp(w⋅x)
P(Y=0∣x)=1+exp(w⋅x)1
(跟上面的指数分布族公式符号不太一样,Y是指数分布族公式符号中的x,x是指数分布族公式符号η中的一个参数)
则有模型的分布列为:
P(Y∣x)=(1+exp(w⋅x)exp(w⋅x))y(1+exp(w⋅x)1)1−y
P(Y∣x)=exp(ylog(1+exp(w⋅x)exp(w⋅x))+(1−y)log(1+exp(w⋅x)1))
取π(x)=1+exp(w⋅x)
P(Y∣x)=exp(ylog(π(x)+1π(x))+(1−y)log(1+π(x)1))
P(Y∣x)=exp(ylog(π(x))−log(π(x)+1))
则有
h(y)=1
T(y)=y
η=log(π(x))
A(η)=log(π(x)+1)=log(exp(η)+1)
得证
对于多项逻辑斯蒂回归模型
(多项的感觉有点问题,大家可以一起讨论哈)
P(Y=k∣x)=1+∑k=1K−1exp(wk⋅x)exp(wk⋅x),k=1,2,⋯,K−1
P(Y=K∣x)=1+∑k=1K−1exp(wk⋅x)1
则分布列可以写为
P(Y∣x)=(1+∑k=1K−1exp(wk⋅x)exp(wk⋅x))f(y),k=1,2,⋯,K
其中:
f(y)={1,0,y=ky=k
∑k=1Kexp(wk⋅x)=1+∑k=1K−1exp(wk⋅x)
则有P(Y∣x)=exp(f(y)log(1+∑k=1K−1exp(wk⋅x)exp(wk⋅x)))
同理有
h(y)=1
T(y)=f(y)
η=log(1+∑k=1K−1exp(wk⋅x)exp(wk⋅x))
A(η)=0
习题6.2
题目:写出逻辑斯谛回归模型学习的梯度下降算法.
对于逻辑斯谛模型,条件概率分布如下:
P(Y=1∣x)=1+exp(w⋅x+b)exp(w⋅x+b)
P(Y=0∣x)=1+exp(w⋅x+b)1
对数似然函数为:
L(w)=∑i=1N[yi(w⋅xi)−log(1+exp(w⋅xi))]
(对数似然函数计算在书的79页)
对L(w)求 w的导数
∂w∂L(w)=∑i=1N[xi⋅yi−1+exp(w⋅xi)exp(w⋅xi)⋅xi]
则
∇L(w)=[∂w(0)∂L(w),…,∂w(m)∂L(w)]
算法流程:
(1)选取初值w0,取k=0
(2)计算L(wk)
(3)更新w,w(k+1)=w(k)+λk∇L(wk)
(4)转(2)同时k=k+1,直到L(w)的变化范围在可接受范围内。
习题6.3
题目:写出最大熵模型学习的DFP算法.(关于一般的DFP算法参见附录B)
这个解答可以参考:https://blog.csdn.net/xiaoxiao_wen/article/details/54098476
参考
指数分布族
指数分布族笔记
指数分布族相关公式推导