「機器學習_5」邏輯迴歸（Logistic Regression ）

原創

qq_36098284

2020-05-02 07:17

學習邏輯迴歸需要清楚的幾件事：假設函數怎麼用（怎麼預測），決策邊界怎麼用（一般取0.5），損失函數如果計算（因爲要取最小），優化方法（重新計算各個權重）

建議：我閱讀的英文參考資料的相關內容除了公式我並沒有往上發佈。但是我會放到我的下載資料中，建議，想徹底理解這幾個內容的，如果不想直接從公式推導入手，可以考慮看下具體的例子，就會明白其中的含義。

前言

　本文主要介紹邏輯迴歸的基礎知識，文章小節安排如下：
　1）邏輯迴歸定義
　2）假設函數（Hypothesis function）
　3）決策邊界（Decision Boundary）
　4）代價函數（Cost Function）
　5）優化方法

1. 邏輯迴歸定義

1.1 定義 & 適用條件

邏輯迴歸是一種用於解決二分類（0 or 1）問題的機器學習方法，用於估計某種事物的可能性。比如某用戶購買某商品的可能性，某病人患有某種疾病的可能性，以及某廣告被用戶點擊的可能性等。注意，這裏用的是“可能性”，而非數學上的“概率”，logisitc迴歸的結果並非數學定義中的概率值，不可以直接當做概率值來用。該結果往往用於和其他特徵值加權求和，而非直接相乘。

1.2 邏輯迴歸 & 線性迴歸

邏輯迴歸（Logistic Regression）與線性迴歸（Linear Regression）都是一種廣義線性模型（generalized linear model）。

邏輯迴歸假設因變量 y 服從伯努利分佈（0-1分佈），而線性迴歸假設因變量 y 服從高斯分佈（正太分佈 normal disturbution）。

因此與線性迴歸有很多相同之處，去除Sigmoid映射函數的話，邏輯迴歸算法就是一個線性迴歸。可以說，邏輯迴歸是以線性迴歸爲理論支持的，但是邏輯迴歸通過Sigmoid函數引入了非線性因素，因此可以輕鬆處理0/1分類問題。

2.假設函數（Hypothesis function）

　邏輯迴歸的假設函數形式如下：

這個函數稱爲Sigmoid函數，也稱爲邏輯函數（Logistic function），其函數曲線如下：

從上圖可以看到sigmoid函數是一個s形的曲線，它的取值在[0, 1]之間，在遠離0的地方函數的值會很快接近0/1。這個性質使我們能夠以概率的方式來解釋。
　一個機器學習的模型，實際上是把決策函數限定在某一組條件下，這組限定條件就決定了模型的假設空間。當然，我們還希望這組限定條件簡單而合理。而邏輯迴歸模型所做的假設是：

這裏的 g(h) 是上邊提到的 sigmoid 函數，相應的決策函數爲：

選擇0.5作爲閾值是一個一般的做法，實際應用時特定的情況可以選擇不同閾值，如果對正例的判別準確性要求高，可以選擇閾值大一些，對正例的召回要求高，則可以選擇閾值小一些。

3.決策邊界（Decision Boundary）

　決策邊界，也稱爲決策面，是用於在N維空間，將不同類別樣本分開的平面或曲面。
　首先看Andrew Ng老師課程上的兩張圖：
　線性決策邊界：

　決策邊界：
　
　
　非線性決策邊界：

　決策邊界：
　

上面兩張圖很清晰的解釋了什麼是決策邊界，決策邊界其實就是一個方程，在邏輯迴歸中，決策邊界由theta’X=0定義。
　要注意理解假設函數和決策邊界函數的區別與聯繫。決策邊界是假設函數的屬性，由假設函數的參數決定。
　在邏輯迴歸中，假設函數（h=g(z)）用於計算樣本屬於某類別的可能性；決策函數（h=1(g(z)>0.5)）用於計算（給出）樣本的類別；決策邊界（θ^Tx=0）是一個方程，用於標識出分類函數（模型）的分類邊界。

4. 代價函數

代價函數和損失函數實質應該是一回事，但是我看的英文參考資料中，損失函數公式爲第二個。

5.優化方法

　在邏輯迴歸中，依然使用梯度下降法對代價函數進行優化，完整形式如下：

但是我閱讀的材料中，優化方法是處理的log likelihood wrt。所以可以參考下面的公式

其實該優化辦法的實質就是重新計算各個features的權重。

轉載：

https://zhuanlan.zhihu.com/p/28408516

https://blog.csdn.net/walilk/article/details/51107380

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

「機器學習_5」邏輯迴歸（Logistic Regression ）

如何使用 JS 判斷用戶是否處於活躍狀態

lightdb秒級增加列和刪除列（not null帶默認值）

lightdb數據庫超時相關控制參數

通過HPA+CronHPA組合應對業務複雜彈性伸縮場景

❤️‍🔥 Solon Cloud Event 新的事務特性與應用

lightdb mysql 8.0兼容之不可見主鍵

使用 JS 實現在瀏覽器控制檯打印圖片 console.image()

基於Ubuntu-22.04安裝K8s-v1.28.2實驗（四）使用域名訪問網站應用

「機器學習_8」Bag-of-Words

「ds」Monolithic && Microkernel區別

「python」DataFrame數據合併

「java」線程 & 進程

「python」set集合

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結