&&機器學習實戰&&Logistic迴歸

原創

Luemmm

2019-06-12 16:57

1.概述

假設現在有一些數據點，我們用一條直線對這些點進行擬合，該擬合過程就稱作迴歸。利用Logisti迴歸進行分類的主要思想是：根據現有的數據對分類邊界線建立迴歸公式，以此進行分類。這裏的迴歸一詞源於最佳擬合，表示要找到最佳擬合參數集。

這個二值型輸出分類器的數學原理：

本章首先闡述logistic迴歸的定義，然後介紹一些最優化算法，其中包括基本的梯度上升法和一個改進的隨機梯度上升法，這些最優化算法將用於分類器的訓練。

優點：計算代價不高，易於理解和實現。

缺點：容易欠擬合，分類精度可能不高。

適用數據類型：數值型和標稱型數據。

海維塞德階越函數和sigmoid函數：

確定了分類器的函數形式之後，現在的問題變成了：最佳迴歸係數是多少？如何確定它們的大小？

2.基於最優化方法的最佳迴歸係數確定

3.梯度上升法

基本思想：要找到某函數的最大值，最好的方法是沿着該函數的梯度方向探尋。

梯度上升算法和梯度下降算法是同一個算法。

梯度上升算法僞代碼：

3.隨機梯度上升算法

梯度上升算法在每次更新迴歸係數時都需要遍歷整個數據集，該方法在數據量大時，計算複雜度也太高。一種改進方法是一次僅用一個樣本點來更新迴歸係數，該方法稱爲隨機梯度上升算法。由於可以在新樣本到來時對分類器進行增量式更新，因而隨機梯度上升算法是一個在線學習算法。與在線學習相對應，一次處理所有數據被稱作是批處理。

隨機梯度算法的僞代碼：

5.小結

logistic迴歸的目的是尋找一個非線性函數sigmoid的最佳擬合參數，求解過程可以由最優化算法來完成。在最優化算法中，最常用的就是梯度上升算法，而梯度上升算法又可以簡化爲隨機梯度上升算法。

隨機梯度上升算法在新書據到來時就完成參數更新，而不需要重新讀取整個數據集來進行批處理運算。

機器學習的一個重要問題就是如何處理缺失數據。這個問題沒有標準答案，取決於實際應用中的需求。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

&&機器學習實戰&&Logistic迴歸

「Pygors跨平臺GUI」1：Pygors跨平臺GUI應用研究

[轉帖]

python列出centos7內存使用前50的進程信息

「Pygors跨平臺GUI」2：安裝MinGW-w64、MSYS2還是WSL2

Garnet：微軟官方基於.NET開源的高性能分佈式緩存存儲數據庫

Flink執行圖

Java響應式編程

評估統計算法在銀行僞造鈔票檢測中的價值

nodejs學習06——小案例

Ubuntu14.04 安裝VTK7.1.1 並在QT 4.5.3下調用

理解dropout,梯度下降,反向傳播算法

機器學習之激活函數

機器學習任務類別&&性能度量

&&機器學習實戰&&DBSCAN

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結