機器學習（十四）——證明softmax迴歸屬於GLM模型族

原創

2020-06-07 04:29

原文：http://cs229.stanford.edu/notes/cs229-notes1.pdf

讓我們再看一個GLM的例子。考慮一個分類問題，其中響應變量y可以接受任意一個k值，因此y∈{1,2，…，k}。例如，與其將電子郵件分爲垃圾郵件或非垃圾郵件--垃圾郵件--這可能是二進制分類問題--不如將其分爲三類，例如垃圾郵件，個人郵件和與工作有關的郵件。響應變量仍然是離散的，但現在可以接受兩個以上的值。因此，我們將根據多項式分佈將其建模爲分佈。

我們可以導出一個GLM來模擬這類多項式數據。爲此，我們首先將多項式表示爲指數族分佈。

要參數化k個可能的結果上的多項式，可以使用k參數φ1，…，φk來指定每個結果的概率。然而，這些參數將是多餘的，或者更正式地說，它們將不是獨立的。(因爲知道任何k−1的φi唯一決定最後一個，因爲它們必須滿足)。因此，我們將只含k−1個參數的多項式參數化爲φ1，…，φk−1，其中φi=p(y=i；φ)和。爲方便起見，我們還會讓，但我們應記住這不是一個參數，並且它完全由φ1，…，φk−1指定。爲了將多項式表示爲指數族分佈，我們將定義如下：

與前面的例子不同，這裏沒有T(Y)=y；並且，T(Y)現在是k-1維向量，而不是實數。我們將寫來表示向量T(Y)的第i元素。我們再介紹一個非常有用的符號。如果指示函數1{·}的參數爲真，則其值爲1，否則爲0(1{True}=1，1{false}=0)。例如，1{2=3}=0，1{3=5−2}=1。因此，我們也可以寫出T(Y)和y之間的關係。(在你繼續閱讀之前，請確保你明白爲什麼這是真的！)。此外，我們有。

我們現在可以證明多項式是指數族的一個成員。我們有

其中

這就完成了多項式作爲指數族分佈的公式化。

給出了鏈接函數(i=1，…，k)

爲了方便起見，我們還定義了。爲了反演鏈接函數並導出響應函數，我們有

這意味着可以推導出，將這代入方程（7）可以給出的響應函數

這是從η到φ的函數映射，這個函數叫做softmax函數。

爲了完成我們的模型，我們使用了前面給出的假設3，即與x是線性相關的。因此，有，其中是我們模型的參數。爲了方便起見，我們還可以定義，以便，就像前面給出的那樣。因此，我們的模型假設給定x，y的條件分佈是

該模型適用於y∈{1，…，k}的分類問題，稱爲Softmax迴歸。這是Logistic迴歸的推廣。

我們的假設會產生

換句話說，我們的假設將輸出p(y=i|x；θ)對i=1，…，k的每一個值的估計概率。

最後，討論參數擬合。類似於我們對普通最小二乘和Logistic迴歸的原始推導，如果我們有一組訓練的m個例子，並且想學習這個模型的參數，我們將從記錄對數似然開始

爲了得到上面的第二行，我們使用了方程(8)中給出的p(y|x；θ)的定義。利用梯度上升法或牛頓法等方法，利用最大似然(ℓ，θ)方法，得到參數的最大似然估計。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

What is the Best Multi-Stage Architecture for Object Recognition?

Deep Learning論文筆記之（六）Multi-Stage多級架構分析 [email protected] http://blog.csdn.net/zouxy09 自己平時看了一些論文，但老感覺看完過

2020-07-04 16:59:32

論文筆記之Structural Deep Network Embedding

本論文是kdd2016的一篇論文主要的目的也是做node embedding。主要的想法就是通過deep autoencode對node進行embedding，不過在在embedding的時候不僅考慮了1-hop的信息而且考慮

2020-07-08 10:23:34

神經網絡動量因子

其中動量係數一般取（0,1），直觀上理解就是要是當前梯度方向與前一步的梯度方向一樣，那麼就增加這一步的權值更新，要是不一樣就減少更新。更詳細的介紹參見《DeepLearning最優化方法之Momentum（動量）》

2020-07-08 10:23:34

Deep Learning 之參數初始化

本文僅對常見的參數初始化方法進行總結（大部分內容來自deep learning一書），原理性的問題不進行過多的探討。 Deep Learning中參數初始化十分重要，一般來說有以下這些原因： 1.初始點的選取，有時候能夠決定算法

2020-07-08 10:23:34

BERT預訓練模型的演進過程！(附代碼)

文章目錄1. 什麼是BERT2. 從Word Embedding到Bert模型的發展2.1 圖像的預訓練2.2 Word Embedding2.3 ELMO2.4 GPT2.5 BERT2.5.1 Embedding2.5.2 M

2020-07-07 14:42:00

Transformer各層網絡結構詳解！面試必備！(附代碼實現)

文章目錄1. 什麼是Transformer2. Transformer結構2.1 總體結構2.2 Encoder層結構2.2.1 Positional Encoding2.2.2 Self-Attention2.2.3 Multi

2020-07-07 14:42:00

XLNet預訓練模型，看這篇就夠了！(代碼實現)

文章目錄1. 什麼是XLNet2. 自迴歸語言模型（Autoregressive LM）3. 自編碼語言模型（Autoencoder LM）4. XLNet模型4.1 排列語言建模（Permutation Language Mod

2020-07-07 14:41:58

seq2seq通俗理解----編碼器和解碼器(TensorFlow實現)

文章目錄1. 什麼是seq2seq2. 編碼器3. 解碼器4. 訓練模型5. seq2seq模型預測5.1 貪婪搜索5.2 窮舉搜索5.3 束搜索6. Bleu得分7. 代碼實現8. 參考文獻 1. 什麼是seq2seq 在⾃然語

2020-07-07 14:41:58

【Model Log】模型評估指標可視化，自動畫Loss、Accuracy曲線圖工具，無需人工參與!

文章目錄1. Model Log 介紹2. Model Log 特性3. Model Log 演示地址4. Model Log 安裝5. Model Log 使用5.1 啓動 web 端5.2 Model Log API使用5.3

2020-07-07 14:41:56

OpenCV學習教程入門篇

OpenCV，是Inter公司開發的免費開源專門由於圖像處理和機器視覺的C/C++庫，英文全稱是Open Source Computer Vision。 1. 可視化語言Matlab與OpenCV都可以用於圖像處理，學哪種比較好

2020-07-07 04:51:46

NLP筆記 CS224n（1）—— 詞向量

詞向量 NLP 處理文本，所以在進行處理之前，要先解決文本的表示。文本由詞組成，本文討論了表示詞彙的幾種方案。 WordNet 這種方法基於如下思想：用詞彙的意義來代表詞。所以我們可以建立若干個集合，每個集合代表一組同義詞，每個詞

是不是测评机针对我

2020-07-06 12:37:25

NLP筆記 CS224n （2） —— 詞向量與詞傳感器

傳送門 Word2Vec Optimization 梯度下降，隨機梯度下降。實質上是無監督學習，每個batch的最小單位可以是一組word2word的映射，輸入值是一箇中心詞，輸出值是一個其對應的outside詞，要學習是從中心

是不是测评机针对我

2020-07-06 12:37:24

自動微分(Automatic Differentiation)

目錄什麼是自動微分手動求解法數值微分法符號微分法自動微分法自動微分Forward Mode 自動微分Reverse Mode 參考引用現代深度學習系統中（比如MXNet， TensorFlow等）都用到了一種技術——自動微分

2020-07-05 23:45:02

詞向量 — word2vec

自然語言是一套用來表達含義的複雜系統。在這套系統中，詞是表義的基本單元。在機器學習中，如何使用向量表示詞？顧名思義，詞向量是用來表示詞的向量，通常也被認爲是詞的特徵向量。近年來，詞向量已逐漸成爲自然語言處理的基礎知識。爲

2020-07-04 09:16:03

Pytorch實現一個用於學習正態分佈的GAN網絡

2014 年，Ian Goodfellow 和他在蒙特利爾大學的同事發表了一篇震撼學界的論文《Generative Adversarial Nets》，這標誌着生成對抗網絡（GAN）的誕生，而這是通過對計算圖和博弈論的創新

2020-07-04 09:16:03

24小時熱門文章

最新文章

最新評論文章