爲什麼 LR 模型要使用 sigmoid 函數，背後的數學原理是什麼？

爲什麼 LR 模型要使用 sigmoid 函數，背後的數學原理是什麼？

這個問題經常被問到，但一直沒找到較好的資料。Ng的視頻裏提到過Exponential Family相關的東西，但覺得並不能很好的解釋這個問題。

著作權歸作者所有。
商業轉載請聯繫作者獲得授權，非商業轉載請註明出處。
作者：謝澎濤
鏈接：https://www.zhihu.com/question/35322351/answer/65308207
來源：知乎

設計一個分類模型，首先要給它設定一個學習目標。在支持向量機中，這個目標是max-margin；在adaboost中，目標是優化一個指數損失函數。那麼在logistic regression （LR）中，這個目標是什麼呢？最大化條件似然度。考慮一個二值分類問題，訓練數據是一堆（特徵，標記）組合，（x1,y1), (x2,y2), .... 其中x是特徵向量，y是類標記（y=1表示正類，y=0表示反類）。LR首先定義一個條件概率p(y|x；w）。 p(y|x；w）表示給定特徵x，類標記y的概率分佈，其中w是LR的模型參數（一個超平面）。有了這個條件概率，就可以在訓練數據上定義一個似然函數，然後通過最大似然來學習w。這是LR模型的基本原理。

那麼接下來的問題是如何定義這個條件概率呢？sigmoid函數就派上用場了。我們知道，對於大多數（或者說所有）線性分類器，response value(響應值) <w,x> （w和x的內積）代表了數據x屬於正類（y=1)的confidence (置信度）。<w,x>越大，這個數據屬於正類的可能性越大；<w,x>越小，屬於反類的可能性越大。<w,x>在整個實數範圍內取值。現在我們需要用一個函數把<w,x>從實數空間映射到條件概率p(y=1|x，w)，並且希望<w,x>越大，p(y=1|x，w)越大；<w,x>越小，p(y=1|x，w)越小（等同於p(y=0|x，w)越大），而sigmoid函數恰好能實現這一功能（參見sigmoid的函數形狀）：首先，它的值域是（0,1），滿足概率的要求；其次，它是一個單調上升函數。最終，p(y=1|x，w)=sigmoid (<w,x>).

綜上，LR通過最大化類標記的條件似然度來學習一個線性分類器。爲了定義這個條件概率，使用sigmoid 函數將線性分類器的響應值<w,x>映射到一個概率上。sigmoid的值域爲（0,1），滿足概率的要求；而且是一個單調上升函數，可將較大的<w,x>映射到較大的概率p(y=1|x，w）。sigmoid的這些良好性質恰好能滿足LR的需求。

著作權歸作者所有。
商業轉載請聯繫作者獲得授權，非商業轉載請註明出處。
作者：匿名用戶
鏈接：https://www.zhihu.com/question/35322351/answer/67193153
來源：知乎

看了一下，幾乎所有的回答都只解釋了“爲什麼可以用sigmoid”，而沒有解釋“爲什麼要用sigmoid”。雖然也有回答提到了exponential family中bernoulli的形式，但高票回答基本只說明了sigmoid的各種良好性質。

若是光從這個角度解釋的話，probit也具有相同的性質，爲什麼除了做GLM的，基本上就沒人用呢？

說到底源於sigmoid，或者說exponential family所具有的最佳性質，即maximum entropy的性質。
雖然不清楚歷史上孰先孰後，但這並不妨礙maximum entropy給了logistic regression一個很好的數學解釋。

爲什麼maximum entropy好呢？entropy翻譯過來就是熵，所以maximum entropy也就是最大熵。熵原本是information theory中的概念，用在概率分佈上可以表示這個分佈中所包含的不確定度，熵越大不確定度越大。所以大家可以想象到，均勻分佈熵最大，因爲基本新數據是任何值的概率都均等。

而我們現在關心的是，給定某些假設之後，熵最大的分佈。也就是說這個分佈應該在滿足我假設的前提下越均勻越好。比如大家熟知的正態分佈，正是假設已知mean和variance後熵最大的分佈。

回過來看logistic regression，這裏假設了什麼呢？首先，我們在建模預測 Y|X，並認爲 Y|X 服從bernoulli distribution，所以我們只需要知道 P(Y|X)；其次我們需要一個線性模型，所以 P(Y|X) = f(wx)。接下來我們就只需要知道 f 是什麼就行了。而我們可以通過最大熵原則推出的這個 f，就是sigmoid。

其實前面也有人劇透了bernoulli的exponential family形式，也即是 1/ (1 + e^-z)

具體推導詳見：http://www.win-vector.com/dfiles/LogisticRegressionMaxEnt.pdf

jinesse

發佈了27 篇原創文章 · 獲贊 11 · 訪問量 1萬+

私信關注

爲什麼 LR 模型要使用 sigmoid 函數，背後的數學原理是什麼？

《Python進階》學習筆記

Leetcode 3161. 物塊放置查詢

leetcode 60 排列序列

一個docker容器暴露多個端口

微服務實踐之使用 Visual Studio 2022 調試Dapr 應用程序

wpf附加屬性理解 WPF附加屬性

挖掘頻繁模、關聯和相關性（3）

挖掘頻繁模、關聯和相關性（2）

挖掘頻繁模、關聯和相關性（1）

第9章多元函數微分法及其應用

第1章概率論的基本概念

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結