最近在上“交通大數據”一課,裏面的公式推導還是有點麻煩的,今天就來推導下在什麼情況下最大似然估計和最小二乘估計等價。
先來說一下結論:當模型估計值和真實值間的殘差項服從均值是0的高斯分佈時,就有最小二乘估計和最大似然估計等價。
推導過程
極大似然估計
首先,我們知道最大似然估計如下所示:
ΘML = arg maxΘEx-pdata[ logpmodel(x(i);Θ) ]
對於模型 = g(x) ,即y = g(x)+ ϵ,如果我們假設ϵ ~ N(0,σ):
根據 y = + ϵ,我們可以得出 y ~ N(,σ)
可以寫出它的極大似然估計如下所示:(打字好麻煩,就手寫了,大家將就着看吧!)
最小二乘估計(最小均方誤差)
MinΘ( 1/M*Σ ||y - ||2 2)
兩者比較
大家注意最大似然估計中與樣本有關的項也就是最後一項就是1/M * Σ ||y - ||2 2,這和最小二乘估計是一模一樣的,因此可以得出結論:當模型估計值和真實值間的殘差項服從均值是0的高斯分佈時,就有最小二乘估計和最大似然估計等價。
————————————————————————————————————
今天在《deep learning》中看到一句話:
之前,我們看到了對輸出分佈的最大似然估計和對線性模型均方誤差的最小化之間的等價性,但事實上,這種等價性並不要求g(x)用於預測高斯分佈的均值。
所以應該可以有更加寬鬆的等價條件,但是對於更深入的理解,我目前並無法達到。