【機器學習】（3）擬合度與最大似然估計

在大致瞭解了機器學習的算法分類（監督式、非監督式以及增強學習）和梯度算法後，今天我們來了解下擬合度和最大似然估計的相關問題。

一、最小二乘法的擬合度

監督式學習中一類典型的應用就是迴歸問題，基本的就是線性迴歸，即用一條直線去逼近訓練集合。最小二乘法就是根據已有的訓練集樣本來確定擬合度最好的函數曲線。但是由於選擇一個什麼樣的曲線是人工決定的，而不同的曲線又具有不同的性質，從而導致不同函數模型使用最小二乘法的擬合度是不同的。以一個m個樣本的房屋價格和大小數據M爲例，我們可以選擇線性迴歸（用一條直線模擬），也可以選擇使用一個三次曲線來模擬（存在上下峯值），但是最好的擬合或許是一個二次曲線（拋物線）。對於一個本身分佈近似拋物線的訓練集來說，線性擬合明顯是“欠擬合”的，而三次曲線則是“過擬合”的，效果都不如拋物線要來的好。所以說，即便是監督式學習的迴歸問題，也存在一個擬合度的把握，而這非常依賴於研究人員自身的經驗。這類函數模型確定後運用最小二乘法擬合的方法稱作參數學習，其要點是在訓練學習前已經有了關於函數模型的一個判斷（參數的個數是確定的）；但是還有一類情況，訓練集很複雜，我們很難直接假設一個模型，因此參數的個數也許是隨着樣本集動態變化的，這類問題稱作非參數學習。我們的方法是採用局部加權迴歸。

二、局部加權迴歸

對於線性迴歸問題LR來說，對於給定的假設函數H(X,θ)，我們的目標是找到θ使得(H(X,θ)-Y)的平方最小，其實也就是要求針對已知訓練集M來說H(X,θ)與樣本的偏差最小，最後返回θ。

對於局部加權迴歸LWR來說，找到θ使得的值最小，其中的權值的意義在於，當我們測試一個新的樣本值的時候，距離測試屬性最近的一些樣本訓練集將發揮作用，權重較大，而距離該位置較遠的樣本值的影響則較小。因此局部加權迴歸的做法就是每次只使用新的數值位置附近的訓練樣本來進行擬合，每次計算都需要針對所有的訓練集進行擬合。

三、最大似然概率

上述算法可以用最大似然概率進行推導，由於涉及較多的數學公式，這裏不再證明。藉着這個機會來複習下最大似然概率的知識。最大似然概率可以用來解決非參數模型的迴歸。其主要的思想就是，將含參數的概率函數H(X,θ)看作是θ的函數，當X已知的時候，就意味着從全體樣本中隨機抽出了m個樣本，假設它們都是獨立的，那麼我從一個樣本集中隨機抽出這m個樣本的概率應該是它們的概率乘積P（θ）；若存在一個這樣的函數假設模型，則這個模型中的參數θ應當使得P的值最大，即重新抽出這m個樣本的可能最大。然後用這個似然估計去代替真實的θ。

這裏講的未免過於簡單，詳細的內容可以參考CSDN博友的文章：最大似然估計總結

【機器學習】（3）擬合度與最大似然估計

【機器學習】（4）：監督式學習

【機器學習】（2）：梯度下降算法

我的友情鏈接

【安全健行】（1）：Hacker編程技能

我的友情鏈接

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結