机器学习(十四)——证明softmax回归属于GLM模型族

原文:http://cs229.stanford.edu/notes/cs229-notes1.pdf

让我们再看一个GLM的例子。考虑一个分类问题,其中响应变量y可以接受任意一个k值,因此y∈{1,2,…,k}。例如,与其将电子邮件分为垃圾邮件或非垃圾邮件--垃圾邮件--这可能是二进制分类问题--不如将其分为三类,例如垃圾邮件, 个人邮件和与工作有关的邮件。响应变量仍然是离散的,但现在可以接受两个以上的值。因此,我们将根据多项式分布将其建模为分布。

我们可以导出一个GLM来模拟这类多项式数据。为此,我们首先将多项式表示为指数族分布。

要参数化k个可能的结果上的多项式,可以使用k参数φ1,…,φk来指定每个结果的概率。然而,这些参数将是多余的,或者更正式地说,它们将不是独立的。(因为知道任何k−1的φi唯一决定最后一个,因为它们必须满足)。因此,我们将只含k−1个参数的多项式参数化为φ1,…,φk−1,其中φi=p(y=i;φ)和。为方便起见,我们还会让,但我们应记住这不是一个参数,并且它完全由φ1,…,φk−1指定。为了将多项式表示为指数族分布,我们将定义如下:


与前面的例子不同,这里没有T(Y)=y;并且,T(Y)现在是k-1维向量,而不是实数。我们将写来表示向量T(Y)的第i元素。我们再介绍一个非常有用的符号。如果指示函数1{·}的参数为真,则其值为1,否则为0(1{True}=1,1{false}=0)。例如,1{2=3}=0,1{3=5−2}=1。因此,我们也可以写出T(Y)和y之间的关系。(在你继续阅读之前,请确保你明白为什么这是真的!)。此外,我们有

我们现在可以证明多项式是指数族的一个成员。我们有


其中


这就完成了多项式作为指数族分布的公式化。

给出了链接函数(i=1,…,k)


为了方便起见,我们还定义了。为了反演链接函数并导出响应函数,我们有


这意味着可以推导出,将这代入方程(7)可以给出的响应函数


这是从η到φ的函数映射,这个函数叫做softmax函数。

为了完成我们的模型,我们使用了前面给出的假设3,即与x是线性相关的。因此,有,其中是我们模型的参数。为了方便起见,我们还可以定义,以便,就像前面给出的那样。因此,我们的模型假设给定x,y的条件分布是


该模型适用于y∈{1,…,k}的分类问题,称为Softmax回归。这是Logistic回归的推广。

我们的假设会产生



换句话说,我们的假设将输出p(y=i|x;θ)对i=1,…,k的每一个值的估计概率。

最后,讨论参数拟合。类似于我们对普通最小二乘和Logistic回归的原始推导,如果我们有一组训练的m个例子,并且想学习这个模型的参数,我们将从记录对数似然开始


为了得到上面的第二行,我们使用了方程(8)中给出的p(y|x;θ)的定义。利用梯度上升法或牛顿法等方法,利用最大似然(ℓ,θ)方法,得到参数的最大似然估计。


發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章