AI-機器學習-監督學習-線性迴歸

迴歸算法是監督學習其中之一。

線性迴歸算法是已知樣本和樣本對應的預測結果,求新的樣本的預測結果。

1、先對已知樣本進行適當的處理,包括去除一些缺省值,一些不正常的值等。

2、樣本和結果進行了建模,如下:

 

其中x爲樣本,h爲y也爲樣本對應的值,爲係數,通過可以很好擬合y,現在要求出來的就是

後加入了非常非常關鍵的誤差,如下:


假設求的係數爲矩陣,含有很多的參數值,這是需要求解的。就是要求一個直線擬合所有的已知的樣本和結果值。

其中x爲樣本屬性,y爲x對應的預測值,這兩個值一直是已知了,比如x1,x2爲工資和年齡,y爲樣本對應的銀行給予的貸款值,

爲誤差,這個是關鍵突破點。

現在就是要通過x和y值求出來,使得x和y擬合最好。

3、關鍵點就是誤差,誤差特點是:1、獨立。2、同分布。3、服從均值爲0,方差爲,高斯分佈,也就是正態分佈。方差體現的是樣本誤差與誤差均值的離散程度。

4、由於上面說到誤差爲高斯分佈,所以如下:

 

這是概率密度函數。由2步驟得:

 

其實就是線性方程,解出來誤差,帶入到高斯分佈的式子裏面。

5、現在就要求,用參數估計的方法,求出值,現在根據樣本估計參數方法求,方法是似然函數。

參數估計有點估計(point estimation)和區間估計(interval estimation)兩種。

點估計是依據樣本估計總體分佈中所含的未知參數或未知參數的函數。通常它們是總體的某個特徵值,如數學期望、方差和相關係數等。點估計問題就是要構造一個只依賴於樣本的量,作爲未知參數或未知參數的函數的估計值。例如,設一批產品的廢品率爲θ。爲估計θ,從這批產品中隨機地抽出n個作檢查,以X記其中的廢品個數,用X/n估計θ,這就是一個點估計。

 

構造點估計常用的方法是:

①矩估計法。用樣本矩估計總體矩,如用樣本均值估計總體均值。

②最大似然估計法。於1912年由英國統計學家R.A.費希爾提出,用來求一個樣本集的相關概率密度函數的參數。

③最小二乘法。主要用於線性統計模型中的參數估計問題。

④貝葉斯估計法。基於貝葉斯學派(見貝葉斯統計)的觀點而提出的估計法。

區間估計是依據抽取的樣本,根據一定的正確度與精確度的要求,構造出適當的區間,作爲總體分佈的未知參數或參數的函數的真值所在範圍的估計。例如人們常說的有百分之多少的把握保證某值在某個範圍內,即是區間估計的最簡單的應用。

1934年統計學家 J.奈曼創立了一種嚴格的區間估計理論。求置信區間常用的三種方法:

①利用已知的抽樣分佈。

②利用區間估計與假設檢驗的聯繫。(請參考幾種常見的參數估計)

③利用大樣本理論。

 

最大似然估計:就是把我們觀察到每個樣本所對應的誤差的概率乘到一起,然後試圖調整參數以最大化這個概率的乘積,概率最大就是說明,誤差最小,因爲誤差是在e的負指數,體現出來樣本是符合這個概率分佈,這樣也是最佳參數,使得樣本最佳擬合了這個分佈最大。另外的解釋,利用已知的樣本結果,反推最有可能(最大概率)導致這樣結果的參數值。還有一種解釋是,現在已經拿到了很多個樣本(你的數據集中所有因變量),這些樣本值已經實現,最大似然估計就是去找到那個(組)參數估計值,使得前面已經實現的樣本值發生概率最大,這和迴歸的思路一樣,線性迴歸是通過找到一個最好的參數,來最好的擬合樣本和結果值,轉化爲最大似然估計是找到一組參數,使得樣本發生的概率最大。

然後通過誤差的密度函數高斯分佈求出,自然函數:

 

求解出方法就是使得乘法化爲加法,使用log,使得e指數爲加法進行計算。

 

爲了使得最大,就要使得後面的一項最小,所以單獨提出後面一項。

 

這就是最小二乘法,這是通過最大似然估計法推出了最小二乘法。這就是目標函數。

6、對於最小二乘法,求最小值,也就是求極值,可以用導數方式,求其偏導,然後讓偏導等於0,求出參數

 

7,評估越接近1越好。其中分子爲預測值和真實值差。這裏說明下,評估方式有很多。都是爲了評估模型的好壞。

 

8、梯度下降法,爲什麼引入,因爲其實引入了目標函數後,怎麼求解是最快,雖然是求偏導,但是不一定求出來,承接6步驟。所以這裏引入了梯度下降法。

 

梯度下降法步驟:

1、找到下降的方向,梯度的反方向,梯度是上升的方向。

2、找到一小步,也有的可以先進行一大步,後面慢慢變小,這樣可以提高速度,步長大小一般認爲是目標函數對求導的值的相關線性關係,有時候會求平均,有時候會求批量平均,有時候直接就認爲是一小步的值。

3、迭代,每次對係數進行更新。

 

x和y都是確定了,對參數進行迭代,一直到目標函數最小時候,返回的值,就是所求的值。所以每次完成更新參數後,要帶入目標函數進行求解,看是否最小,如果不是,就繼續進行迭代,直到最小。初始值可以自己定義。m可以不必要全部進行迭代,可以選擇64個樣本進行迭代,當然如果內存高,不需要效率,只看結果,可以迭代更多的樣本。

 

總結:

1、定義樣本擬合的方程,參數有x,y,係數參數,誤差。

2、誤差爲獨立同分布的高斯分佈,均值爲0,方差爲,通過擬合方程,求出誤差。

3、通過誤差的特性,把2求的擬合方程帶入高斯分佈中,參數有x,y,,注意2中的均值和方差已經得到了。

3、通過點估計中的最大似然估計,轉換求解擬合方程中的係數爲求解樣本最大分佈的概率問題。最大似然估計用log求解,轉換爲最小二乘法。

4、梯度下降法,幫助快速求解最小二乘法。可以很好的迭代出來參數值得結果。

思路是比較簡單,求解過程比思路相對來說多一些。

 


 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章