最小二乘法、最大似然估計和卡爾曼濾波

一、最小二乘法和最大似然估計

最小二乘法可以從Cost/Loss function角度去想,這是統計(機器)學習裏面一個重要概念,一般建立模型就是讓loss function最小,而最小二乘法可以認爲是 loss function = (y_hat -y )^2的一個特例,類似的想各位說的還可以用各種距離度量來作爲loss function而不僅僅是歐氏距離。所以loss function可以說是一種更一般化的說法。

最大似然估計是從概率角度來想這個問題,直觀理解,似然函數在給定參數的條件下就是觀測到一組數據realization的概率(或者概率密度)。最大似然函數的思想就是什麼樣的參數才能使我們觀測到目前這組數據的概率是最大的。

類似的從概率角度想的估計量還有矩估計(moment estimation)。就是通過一階矩 二階矩等列方程,來反解出參數。

各位有人提到了正態分佈。最大似然估計和最小二乘法還有一大區別就是,最大似然估計是需要有分佈假設的,屬於參數統計,如果連分佈函數都不知道,又怎麼能列出似然函數呢? 而最小二乘法則沒有這個假設。 二者的相同之處是都把估計問題變成了最優化問題。但是最小二乘法是一個凸優化問題,最大似然估計不一定是。
 

從優化的角度上來講,負的log likelihood 就是求MLE要優化的目標函數。
那麼爲啥MLE需要設置分佈這麼麻煩,還有這麼多應用,因爲當likelihood設置正確的時候,這個目標函數給出的解最efficient。
那麼爲啥有這麼多人把MLE和OLSE搞混,因爲當likelihood用的是gaussian的時候,由於gaussian kernel裏有個類似於Euclidean distance的東西,一求log就變成square loss了,導致解和OLSE是一樣的。而碰巧剛接觸MLE的時候基本都是gaussian假設,這才導致很多人分不清楚。

最大似然估計和最小二乘法怎麼理解?

二、最小二乘法和卡爾曼濾波

常用的估計準則包括: 

  1. 無偏估計:估計量的均值等於真實值,即具體每一次估計值可能大於真實值,也可能小於真實值,而不能總是大於或小於真實值(這就產生了系統誤差)。
  2. 最小二乘估計:不考慮數據的統計特性,如期望,方差等,直接用最小二乘法得到最優估計。 
  3. 誤差方差最小:在滿足最小二乘估計的同時,使得估計的誤差方差最小。這一約束可以通過一系列等價的推導獲得,前提是要事先知道測量數據噪聲的方差。 

簡單來說就是,滿足誤差方差最小必滿足誤差平方和最小,反之不成立。而無偏估計是最基本假設。

  • 最小二乘估計是方差最小的無偏估計。
  • 最小二乘法有三種:常量估計、加權最小二乘估計、遞推最小二乘估計

1、遞推最小二乘法

也是想使方差之和最小,然後發現,方差之和就是狀態的協方差矩陣的跡,跡裏面又包含了K,所以也就是求K使得跡最小

遞推最小二乘估計:

可見相比遞推最小二乘法,卡爾曼就是相當於在兩次迭代之間多了一步系統的狀態轉移,也就是這一項。

其實,卡爾曼濾波就是遞推最小二乘法的一種特殊情況,卡爾曼濾波也是去通過最小化方差來求得最優的估計值。

三、貝葉斯濾波和卡爾曼濾波

貝葉斯原理的實質是希望用所有一直信息來構造系統狀態變量的後驗概率密度,即用系統模型預測狀態的先驗概率密度,再用最新的觀測數據進行修正,得到後驗概率密度。通過觀測數據來計算狀態變量取不同值的置信度,由此獲得狀態的最優估計。

卡爾曼濾波是貝葉斯濾波的一種特例,是在線性濾波的前提下,以最小均方誤差爲最佳準則的。採用最小均方誤差準則作爲最佳濾波準則的原因在於這種準則下的理論分析比較簡單,因而可以得到解析結果。貝葉斯估計和最大似然估計都要求對觀測值作概率描述,線性最下均方誤差估計卻放鬆了要求,不再設計所用的概率假設,而只保留對前兩階矩的要求。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章