【機器學習技術】高斯過程初探

概述

高斯過程是基於統計學習理論和貝葉斯理論發展起來的一種機器學習方法,適於處理高維度、小樣本和非線性等複雜迴歸問題,且泛化能力強,與神經網絡、支持向量機相比,GP具有容易實現、超參數自適應獲取、非參數推斷靈活以及輸出具有概率意義等優點。
在統計學和機器學習兩個領域中,一些基本理論和算法是共享通用的,但統計學的一個基本關注點在於對數據和模型關係之間的理解,而機器學習的目標主要是用於更準確的預測和對學習算法行爲的理解上。機器學習是一種黑盒算法,而統計學更希望得到模型的理論解釋。高斯過程模型在某種層面將統計學和機器學習聯繫到了一起,我們將看到,高斯過程在數學上等價於很多有名的模型,包括貝葉斯線性模型、樣條模型、合適條件下的神經網絡,並且其也與支持向量機有密切的聯繫。

隨機過程基本概念

隨機過程是一個比隨機變量更廣泛的概念。在概率論中,通常研究一個或多個這樣有限個數的隨機變量,即使在大數定律和中心極限定理中考慮了無窮多個隨機變量,但也要假設隨機變量之間互相獨立。而隨機過程主要是研究無窮多個互相不獨立的、有一定相關關係的隨機變量。隨機過程就是許多隨機變量的集合,代表了某個隨機系統隨着某個指示向量的變化,這個指示向量常用的是時間向量。

高斯過程

隨機過程可以用一個隨機變量簇{X(t,w), t∈T}來表示,而高斯過程區別於其他隨機過程的地方就在於從這個隨機變量簇中任意抽取有限個指標(如n個,t1,…tn)所得到的變量構成的向量(X_t1,…, T_tn)的聯合分佈爲多維高斯分佈。在一個高斯過程中,輸入空間的每一個點都關聯了一個服從高斯分佈的隨機變量,而任意有限個這些隨機變量的組合的聯合概率也服從高斯分佈。當指示向量t是二維或多維時,高斯過程就變成了高斯隨機場GRF。對高斯過程的刻畫,如同高斯分佈一樣,也是用均值和方差來刻畫。通常在應用高斯過程f~GP(m,K)的方法中,都是假設均值m爲零,而協方差函數K則是根據具體應用而定。

線性迴歸模型和高斯過程模型的關係

在貝葉斯線性迴歸模型y(x,w) = wT·φ(x)中,先給定w的先驗分佈p(w)=N(w|0, α^(-1)I),然後得到y(x,w)的對應的先驗分佈。給定訓練數據集,計算w上的後驗概率分佈,從而得到和迴歸函數對應的參數的後驗概率分佈。
得到模型的向量形式是y=Φ·w,這個式子說明y=(y1,...,yn)相當於是高斯變量w的線性組合,因此y也服從高斯分佈,進而得到y的期望和方差:E[y]=Φ·E[w]=0cov[y]=E[y·yT]=Φ·E[w·wT]ΦT=Φ·ΦT/α=K
所以,線性迴歸可以看做是高斯過程的一個特殊例子,這裏的高斯過程體現在函數y(x)上,對任意給定的n個樣本構成的(y1,…,yn)的聯合分佈都是高斯分佈,因此可以認爲y(x)就是服從高斯過程分佈的。

高斯過程迴歸

在高斯過程的觀點中,拋棄參數模型,直接定義函數上的先驗概率分佈。乍一看來,在函數組成的不可數的無窮空間中對概率分佈進行計算似乎很困難。但是,正如我們將看到的那樣,對於一個有限的訓練數據集,我們只需要考慮訓練數據集合測試數據集的輸入xn處的函數值即可,因此在實際應用中我們可以在有限空間中進行計算。
在高斯過程迴歸中,不用指定f(x)的具體形式,n個訓練數據的觀測值(y1,…,yn)被認爲是從某個多維(n維)的高斯分佈中採樣出來的一個點(n維),而類似的f(x)也可以認爲是從高斯過程中採樣得到的一個無窮維的點。

高斯過程迴歸建模階段的推導:

給定訓練數據x1,…,xn,其對應的函數值是y1,…yn。
假設對觀測t建模爲某個目標函數y(x),加上高斯噪聲:

於是目標變量t的聯合概率分佈爲:

根據高斯過程的定義,p(y)的邊緣分佈如下,其中協方差由K矩陣定義:

得到p(t)的邊緣分佈爲:

其中協方差矩陣C的元素爲:

高斯過程迴歸預測階段的推導:

預測的任務就是給定新的輸入x*,得到預測變量t*的分佈。
首先我們得到t_(N+1)={t1,…,tn,t*}的聯合分佈:

其協方差矩陣是:

根據多維高斯分佈的條件分佈公式,可以得到p(t*|t):

於是我們就用該分佈的均值來作爲估計值。

參考資料

轉載請註明作者Jason Ding及其出處
Github博客主頁(http://jasonding1354.github.io/)
GitCafe博客主頁(http://jasonding1354.gitcafe.io/)
CSDN博客(http://blog.csdn.net/jasonding1354)
簡書主頁(http://www.jianshu.com/users/2bd9b48f6ea8/latest_articles)
Google搜索jasonding1354進入我的博客主頁

發佈了185 篇原創文章 · 獲贊 86 · 訪問量 94萬+
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章