負對數似然(negative log-likelihood)

negative log likelihood

文章目錄

negative log likelihood

似然函數(likelihood function)

Reference

似然函數(likelihood function)

Overview

在機器學習中，似然函數是一種關於模型中參數的函數。“似然性(likelihood)”和"概率(probability)"詞意相似，但在統計學中它們有着完全不同的含義：概率用於在已知參數的情況下，預測接下來的觀測結果；似然性用於根據一些觀測結果，估計給定模型的參數可能值。

Probability is used to describe the plausibility of some data, given a value for the parameter. Likelihood is used to describe the plausibility of a value for the parameter, given some data.

—from wikipedia $^[3]$

其數學形式表示爲：

假設 $X$ 是觀測結果序列，它的概率分佈 $f_{x}$ 依賴於參數 $\theta$ ，則似然函數表示爲

$L(\theta|x)=f_{\theta}(x)=P_{\theta}(X=x)$

Definition

似然函數針對**離散型概率分佈(Discrete probability distributions)和連續型概率分佈(Continuous probability distributions)**的定義通常不同.

離散型概率分佈(Discrete probability distributions)

假設 $X$ 是離散隨機變量,其概率質量函數 $p$ 依賴於參數 $\theta$ ,則有

$L(\theta|x)=p_{\theta}(x)=P_{\theta}(X=x)$

$L(\theta|x)$ 爲參數 $\theta$ 的似然函數, $x$ 爲隨機變量 $X$ 的輸出.

Sometimes the probability of "the value of for the parameter value " is written as P(X = x | θ) or P(X = x; θ).

連續型概率分佈(Continuous probability distributions)

假設 $X$ 是連續概率分佈的隨機變量,其密度函數(density function) $f$ 依賴於參數 $\theta$ ,則有

$L(\theta|x)=f_{\theta}(x)$

最大似然估計(Maximum Likelihood Estimation,MLE)

假設每個觀測結果 $x$ 是獨立同分布的，通過似然函數 $L(\theta|x)$ 求使觀測結果 $X$ 發生的概率最大的參數 $\theta$ ，即 $argmax_{\theta}f(X;\theta)$ 。

在“模型已定，參數未知”的情況下，使用最大似然估計算法學習參數是比較普遍的。

對數似然(log likelihood)

由於對數函數具有單調遞增的特點，對數函數和似然函數具有同一個最大值點。取對數是爲了方便計算極大似然估計，MLE中直接求導比價困難，通常先取對數再求導，找到極值點。

負對數似然(negative log-likelihood)

實踐中,softmax函數通常和負對數似然(negative log-likelihood,NLL)一起使用,這個損失函數非常有趣,如果我們將其與softmax的行爲相關聯起來一起理解.首先,讓我們寫下我們的損失函數:

$L(y)=-log(y)$

回想一下,當我們訓練一個模型時,我們渴望能夠找到使得損失函數最小的一組參數(在一個神經網絡中,參數指權重weights和偏移biases).

因此假如我們將負對數似然(negative log-likelihood)作爲我們的損失函數,模型的效果如何呢?讓我們嘗試畫出它的範圍:

最大似然估計的一般步驟如下:
(1) 寫出似然函數;
(2) 對似然函數取對數,得到對數似然函數;
(3) 求對數似然函數的關於參數組的偏導數,並令其爲0,得到似然方程組;
(4) 解似然方程組,得到參數組的值.

Reference

[1]王海良,李卓恆,林旭鳴.智能問答與深度學習[M].北京:電子工業出版社,2019:19-20.

[2]Lj Miranda.Understanding softmax and the negative log-likelihood.2017.

[link]https://ljvmiranda921.github.io/notebook/2017/08/13/softmax-and-the-negative-log-likelihood/

[3]wikipedia-likelihood function

[link]https://en.wikipedia.org/wiki/Likelihood_function#Log-likelihood

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

負對數似然(negative log-likelihood)

negative log likelihood

文章目錄

似然函數(likelihood function)

Overview

Definition

離散型概率分佈(Discrete probability distributions)

連續型概率分佈(Continuous probability distributions)

最大似然估計(Maximum Likelihood Estimation,MLE)

對數似然(log likelihood)

負對數似然(negative log-likelihood)

Reference

AI 畫圖真刺激，手把手教你如何用 ComfyUI 來畫出刺激的圖

公司剛入職了一名 Java 中級開發，短短 4 行代碼居然湊齊了 3 個 bug！我哭了~~

數據展示動態（跑分）顯示

公衆號5月C#/.NET熱文一覽

git 下載大陸鏡像地址

TiDB整體架構以及在Mac系統上快速安裝部署TiDB

在Linux上安裝Flink以及編寫打包WordCount程序

Flink Streaming流式滑動窗口單詞計數_With IntelliJ IDEA

【課程筆記】Lecture2-斯坦福自然語言處理cs224n

深度解讀FRAGE: Frequency-Agnostic Word Representation(2018-NIPS)

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結