最大化對數似然函數——牛頓方法(The Newton's method)

原創

2018-09-01 23:20

回到邏輯迴歸中sigmoid函數g(z) ，我們討論另一個最小化對數似然函數的方法。
讓我們從使用牛頓方法求0點開始。給一個一元函數f:R↦R ，我們試圖去找一個點θ 使得f(θ)=0 。其中θ 是一個實數。牛頓方法將會這樣迭代尋找0點：

θ : = θ - f ( θ ) f ' ( θ ) .

這個方法的幾何闡述是很直接的。從某一初始位置出發，做函數的切線與y軸相交，交點的x值即爲下一次畫切線的出發點，依次循環直至收斂。下圖是整個過程的圖示：

牛頓方法是一種快速尋找f(θ)=0 點的方法，怎樣將其應用於最大化對數似然函數上呢？考慮對數似然函數ℓ 的最大值點對應的一階導爲0，所有我們令f(θ)=ℓ′(θ) ，然後我們就可以使用同樣的算法求得最大值點：

θ : = θ - ℓ ' ( θ ) ℓ '' ( θ ) .

最後在我們的邏輯迴歸中，θ 是一個向量值，所以我們需要將牛頓算法推廣到多元函數的情況：

θ : = θ - H - 1 \nabla θ ℓ (θ) .

上式中，∇θℓ(θ) 是對數函數關於向量θ 的偏導。而H−1 是一個n*n的矩陣，稱爲海森矩陣，它的每一項定義如下：

H i j = \partial 2 ℓ ( θ ) \partial θ i \partial θ j .

普遍而言，牛頓方法的收斂速度比梯度下降要快得多，他只需要很少的迭代次數就可以收斂。但需要注意的是牛頓方法每一次迭代的時間成本比梯度下降要大得多，因爲它每次都要求海森矩陣。即使如此，在維數n不是特別大的情況下，牛頓方法的表現要好很多。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

論文翻譯——基於數據的最優直方圖

On Optimal and Data-Based Histograms Author(s) : David W. Scott Source : Biometrika, Vol. 66, No. 3 (Dec., 1979), p

2020-07-05 03:49:27

正規化和模型選擇(Regularization and model selection)

對於某個學習問題，我們如何在幾種不同的模型中進行選擇。例如，如果我們使用一個多項式迴歸模型hθ(x)=g(θ0+θ1x+θ2x2+…+θkxk)h_\theta(x) = g(\theta_0 + \theta_1x + \th

2020-07-05 03:49:27

資料翻譯——核密度估計簡介

An introduction to kernel density estimation These notes are an edited version of a seminar given by Tarn Duong on

2020-07-05 03:49:27

論文翻譯——用於大型社交網絡的推薦系統：主要挑戰及解決方案回顧

Recommender Systems for Large-Scale Social Networks: A review of challenges and solutions Punished in: ELSEVIER, Vo

2020-07-05 03:49:27

MNIST數據集格式轉化

MNIST數據集是ubyte格式存儲的，現在轉化爲png格式：訓練集： import numpy as np import struct from PIL import Image import os data_file

2020-07-02 01:58:14

機器學習: 邏輯迴歸(Logistic Regression) 小項目

該項目的所有代碼在我的github上，歡迎有興趣的同學與我探討研究~ 地址：Machine-Learning/machine-learning-ex2/ 1. Introduction 邏輯迴歸(Logistic Regres

2020-07-01 21:05:53

機器學習：手寫數字識別(Hand-written digits recognition)小項目

該項目的所有代碼在我的github上，歡迎有興趣的同學與我探討研究~ 地址：Machine-Learning/machine-learning-ex3/ 1. Introduction 手寫數字識別(Hand-written

2020-07-01 21:05:52

GBDT- gradient boosting decision tree

to be continued … 決策樹談森林之前，先說一說決策樹。小藍書裏說，決策樹可以看作是if-then規則的集合。就是將空間用超平面進行劃分，每次都一分爲二，每個葉子節點（即類別）都是在空間中不相交的區域。對於訓練數

2020-07-01 03:21:08

1 - 統計學習方法概論

1 統計學習 statistical learning: 基於數據構建概率統計模型並運用模型對數據進行預測與分析的一門學科。統計學習也稱統計機器學習(statistical machine learning)。現在，當人們提及機器

2020-06-29 14:09:08

LLE（locally linear embedding）原理介紹

LLE原理局部線性嵌入（Locally Linear Embedding, LLE）是無監督非線性降維算法，是流行學習的一種。 LLE和Isomap一樣試圖在降維過程中保持高維空間中的流形結構。Isomap把任意兩個樣本點之間

2020-06-27 04:41:13

method_LLE(Locally linear embdding)

局部線性嵌入(Locally Linear Embedding，以下簡稱LLE)也是非常重要的降維方法。和傳統的PCA，LDA等關注樣本方差的降維方法相比，LLE關注於降維時保持樣本局部的線性特徵，由於LLE在降維時保持了

2020-06-27 04:41:13

機器學習中的最優化方法進階

前言：在機器學習方法中，若模型理解爲決策模型，有些模型可以使用解析方法。不過更一般的對模型的求解使用優化的方法，更多的數據可以得到更多的精度。一、線性規劃線性規劃、整數規劃、目標規劃等

2020-06-27 04:41:13

method_LPP(Locality preserving projections)

本文是對何曉飛老師的論文Locality Preserving Projections及其代碼的一些簡單j介紹，論文及代碼均可以在何老師主頁上下載。一、LPP簡介線性投影映射最優化地保存了數據集的鄰近結構與PCA可作

2020-06-27 04:41:13

algo_KNN(k-nearest neighbor)

1 k-NN算法 k-近鄰（k-Nearest Neighbors, k-NN）算法是機器學習中非常簡單的一個算法，可以用於分類和迴歸問題。其基本思想是，在特徵空間中接近的兩個實例，其類別/函數值也接近。對實例x，找到訓練樣

2020-06-27 04:41:13

模型誤差的來源

誤差有兩個方面：bias和variance。簡單的模型（如線性模型），variance比較小，且不容易受樣品數據影響，不易過擬合。與此相反，複雜的模型的bias比較小。如果你的模型都不能擬合訓練數據，訓練error比較大，

2020-06-26 22:07:45

24小時熱門文章

Wireshark 安裝+使用（一）

最新文章

最新評論文章