爲什麼 LR 模型要使用 sigmoid 函數,背後的數學原理是什麼?

爲什麼 LR 模型要使用 sigmoid 函數,背後的數學原理是什麼?
這個問題經常被問到,但一直沒找到較好的資料。Ng的視頻裏提到過Exponential Family相關的東西,但覺得並不能很好的解釋這個問題。

著作權歸作者所有。
商業轉載請聯繫作者獲得授權,非商業轉載請註明出處。
作者:謝澎濤
鏈接:https://www.zhihu.com/question/35322351/answer/65308207
來源:知乎

設計一個分類模型,首先要給它設定一個學習目標。在支持向量機中,這個目標是max-margin;在adaboost中,目標是優化一個指數損失函數。那麼在logistic regression (LR)中,這個目標是什麼呢?最大化條件似然度。考慮一個二值分類問題,訓練數據是一堆(特徵,標記)組合,(x1,y1), (x2,y2), .... 其中x是特徵向量,y是類標記(y=1表示正類,y=0表示反類)。LR首先定義一個條件概率p(y|x;w)。 p(y|x;w)表示給定特徵x,類標記y的概率分佈,其中w是LR的模型參數(一個超平面)。有了這個條件概率,就可以在訓練數據上定義一個似然函數,然後通過最大似然來學習w。這是LR模型的基本原理。

那麼接下來的問題是如何定義這個條件概率呢?sigmoid函數就派上用場了。我們知道,對於大多數(或者說所有)線性分類器,response value(響應值) <w,x> (w和x的內積) 代表了數據x屬於正類(y=1)的confidence (置信度)。<w,x>越大,這個數據屬於正類的可能性越大;<w,x>越小,屬於反類的可能性越大。<w,x>在整個實數範圍內取值。現在我們需要用一個函數把<w,x>從實數空間映射到條件概率p(y=1|x,w),並且希望<w,x>越大,p(y=1|x,w)越大;<w,x>越小,p(y=1|x,w)越小(等同於p(y=0|x,w)越大),而sigmoid函數恰好能實現這一功能(參見sigmoid的函數形狀):首先,它的值域是(0,1),滿足概率的要求;其次,它是一個單調上升函數。最終,p(y=1|x,w)=sigmoid (<w,x>).

綜上,LR通過最大化類標記的條件似然度來學習一個線性分類器。爲了定義這個條件概率,使用sigmoid 函數將線性分類器的響應值<w,x>映射到一個概率上。sigmoid的值域爲(0,1),滿足概率的要求;而且是一個單調上升函數,可將較大的<w,x>映射到較大的概率p(y=1|x,w)。sigmoid的這些良好性質恰好能滿足LR的需求。

著作權歸作者所有。
商業轉載請聯繫作者獲得授權,非商業轉載請註明出處。
作者:匿名用戶
鏈接:https://www.zhihu.com/question/35322351/answer/67193153
來源:知乎

看了一下,幾乎所有的回答都只解釋了“爲什麼可以用sigmoid”,而沒有解釋“爲什麼要用sigmoid”。雖然也有回答提到了exponential family中bernoulli的形式,但高票回答基本只說明了sigmoid的各種良好性質。

若是光從這個角度解釋的話,probit也具有相同的性質,爲什麼除了做GLM的,基本上就沒人用呢?

說到底源於sigmoid,或者說exponential family所具有的最佳性質,即maximum entropy的性質。
雖然不清楚歷史上孰先孰後,但這並不妨礙maximum entropy給了logistic regression一個很好的數學解釋。

爲什麼maximum entropy好呢?entropy翻譯過來就是熵,所以maximum entropy也就是最大熵。熵原本是information theory中的概念,用在概率分佈上可以表示這個分佈中所包含的不確定度,熵越大不確定度越大。所以大家可以想象到,均勻分佈熵最大,因爲基本新數據是任何值的概率都均等。

而我們現在關心的是,給定某些假設之後,熵最大的分佈。也就是說這個分佈應該在滿足我假設的前提下越均勻越好。比如大家熟知的正態分佈,正是假設已知mean和variance後熵最大的分佈。

回過來看logistic regression,這裏假設了什麼呢?首先,我們在建模預測 Y|X,並認爲 Y|X 服從bernoulli distribution,所以我們只需要知道 P(Y|X);其次我們需要一個線性模型,所以 P(Y|X) = f(wx)。接下來我們就只需要知道 f 是什麼就行了。而我們可以通過最大熵原則推出的這個 f,就是sigmoid。

其實前面也有人劇透了bernoulli的exponential family形式,也即是 1/ (1 + e^-z)

具體推導詳見:http://www.win-vector.com/dfiles/LogisticRegressionMaxEnt.pdf

發佈了27 篇原創文章 · 獲贊 11 · 訪問量 1萬+
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章