機器學習:線性迴歸的理解

關於假設數據高斯分佈的理解

  • 當誤差符合正態分佈ξN(0,σ2)\xi -N(0,σ^2)時,因變量則符合正態分佈N(Xθ,σ2))N(Xθ,σ^2)),其中預測函數y=Xθy=Xθ,則觀測值應該爲y^=y+ξ\hat{y}=y+\xi,這個也就是說當誤差符合正態分佈時,其因變量必然也符合正態分佈。
  • 在用線性迴歸模型擬合數據之前,首先要求數據應符合或近似符合正態分佈,否則得到的擬合函數不正確。若本身樣本不符合正態分佈或不近似服從正態分佈,則要採用其他的擬合方法(若服從二項分佈<二值分類問題>,用邏輯迴歸)。這就是說不應該“選用迴歸方法擬合完後再看看殘差的分佈情況”,應該是在擬合之前就應該是樣本數據有一個瞭解,然後再選用哪種迴歸方法;
  • 線性迴歸模型中,響應變量服從正態分佈,誤差項滿足高斯–馬爾科夫條件(零均值、等方差、不相關)只是理想化的假定,爲的是數學上有相應的較爲成熟的結論。其實大多數實際問題都不完全滿足這些理想化的假定。線性迴歸模型理論的發展正是在不斷克服理想化條件不被滿足時得到許多新方法。如加權LSE、嶺估計、壓縮估計、BOX_COX變換等一系列手段。做實際工作時一定是要超越書本上的理想化條件的。
  • 噪聲(誤差)假設爲服從正太分佈,同圖像處理中噪聲假設服從正太分佈是一樣的道理。圖像中,噪聲被視爲一種平穩隨機過程。

我們視噪聲爲一個針對每一個相似的平均值爲0,方差是σ²的隨機變量。假定噪聲爲0是因爲任何非0的平均值將構成一個系統偏置值,該系統偏置值會作用於每個獲取到的像素值上,這是我們無法檢測的。“平穩”指同樣分佈的,是指噪聲與圖像上像素位置無關,也就是對圖像上每個像素,噪聲是同樣地分佈。

平穩隨機過程是在固定時間和位置的概率分佈與所有時間和位置的概率分佈相同的隨機過程,即隨機過程的統計特性不隨時間的推移而變化,因此數學期望和方差這些參數不隨時間和位置變化。

如果假設不成立,那麼在此假設條件下的分析,效果都不會好,有時甚至會產生很差的結果

學習

數據服從高斯分佈N(Xθ,σ2))N(Xθ,σ^2)),用MLE或MAP進行估計參數θ。
在這裏插入圖片描述
在這裏插入圖片描述

在這裏插入圖片描述

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章