Why least squares so powerful?

1. Residual Distribution

在這裏插入圖片描述

  • 通常,我們使用Generalized Gauss-Markov假設。假設輸出變量的殘差都是zero-mean,服從高斯分佈,同時他們之間的關係使用covariance matrix表示(對角線是變量的variance,非對角線則表示了不同變量之間的糾纏關係)。
  • 但是明顯的是,這樣的假設並不一定是正確的。我們面臨的可能是非高斯的分佈。

在下面我們會看到:

  • 對高斯誤差的優化,其實是最小二乘優化。
  • 對非高斯誤差的優化,也可以使用最小二乘獲得很好的近似。

2. 高斯誤差的優化

todo

3. 凸優化中的凸包定理

todo

4. L2範數

  • LJ“橢圓”是所有凸集的scale爲n下的近似。
  • L2是其他所有模在sqrt(n)下的近似。

總得來說:

  • 如果我們假設高斯噪音,那麼最小二乘是最合適的範數選擇。
  • 但是哪怕假設不成立,無論實際是什麼樣的誤差,應該選取什麼樣的範數。最小二乘都可以取得一個很好的近似。

也就是說,當然高斯假設下用最小二乘是最好的。但是無論你是什麼噪音模型,使用最小二乘都可以得到很好的結果!

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章