機器學習理論與實驗2

徐海蛟  Teaching.


考慮一個隨機變量X,如果給出X的一系列獨立同分布的觀察值,那麼如何由這些觀察值來估計出X的密度函數P(X)?這就是密度估計問題。


概率分佈可分爲參數分佈和非參數分佈。參數分佈函數是由一些參數控制的,比如高斯分佈中平均值和方差,用參數分佈的方法去估計密度時,必須確定合適的參數。從頻率論來看,可用極大似然函數來確定參數;而從貝葉斯論來看,需要引入共軛先驗,它使得後驗分佈與先驗分佈有相同的函數形式。比如多項分佈的共軛先驗是狄利克雷分佈。


非參數分佈一般依賴於觀察數據集的大小,雖然也包含參數,但這些參數只控制模型的複雜度而不是分佈函數的形式。此類方法主要有直方圖,核函數和最近鄰方法。


We emphasized the central role played by probability theory in the

solution of pattern recognition problems. We turn now to an exploration of some particular examples of probability distributions and their properties. As well as being of great interest in their own right, these distributions can form building blocks for more complex models. The distributions introduced here will also serve another important purpose, namely to provide us with the opportunity to discuss some key statistical concepts, such as Bayesian inference (貝葉斯推理), in the context of simple models before we encounter them in more complex situations.


One role for the distributions discussed here is to model the probability distribution p(x) of a random variable x, given a finite set x1,..., xN of observations. This problem is known as density estimation (密度估計). For the purposes, we shall assume that the data points are independent and identically distributed (獨立同分布). It should be emphasized that the problem of density estimation (密度估計) is fundamentally ill-posed, because there are infinitely many probability distributions that could have given rise to the observed finite data set. Indeed, any distribution p(x) that is nonzero at each of the data points x1,..., xN is a potential candidate. The

issue of choosing an appropriate distribution relates to the problem of model selection that has already been encountered in the context of polynomial curve fitting (多項式擬合) and that is a central issue in pattern recognition.


We begin by considering the binomial and multinomial distributions (二項分佈與多項式分佈) for discrete random variables and the Gaussian distribution (高斯分佈) for continuous random variables. These are specic examples of parametric distributions (參數分佈), so-called because they are governed by a small number of adaptive parameters, such as the mean and variance in the case of a Gaussian for example. To apply such models to the problem of density estimation, we need a procedure for determining suitable values for the parameters, given an observed data set. In a frequentist treatment, we choose specic values for the parameters by optimizing some criterion, such as the likelihood function (似然函數). By contrast, in a Bayesian treatment we introduce prior distributions over the parameters and then use Bayes’ theorem to compute the corresponding posterior distribution

given the observed data.


We shall see that an important role is played by conjugate priors (共軛先驗), that lead to posterior distributions having the same functional form as the prior (它使得後驗分佈與先驗分佈有相同的函數形式), and that therefore lead to a greatly simplied Bayesian analysis. For example, the conjugate prior for the parameters of the multinomial distribution is called the Dirichlet distribution (狄利克雷分佈), while the conjugate prior for the mean of a Gaussian is another Gaussian. All of these distributions are examples of the exponential family of distributions, which possess a number of important properties, and which will be discussed in some detail.


One limitation of the parametric approach is that it assumes a specic functional form for the distribution, which may turn out to be inappropriate for a particular application. An alternative approach is given by nonparametric density estimation methods (非參數密度估計方法) in which the form of the distribution typically depends on the size of the data set. Such models still contain parameters, but these control the model complexity rather than the form of the distribution. We end this discussions by considering three nonparametric methods based respectively on histograms, nearest-neighbours, and kernels (直方圖,最近鄰和核函數).


2.1 二項分佈

考慮隨機變量X描述拋硬幣實驗的結果,當爲正面時,X=1;反面

時,X=0。那麼X的概率分佈就是如下的伯努力分佈:


當給出X的一組觀察數據集時,可由此得到它的似然函數:



取對求導後可得參數的極大似然值,發現此值只與觀察數據值有關,這

種情況是充分統計。然而從頻率論的角度得出的極大似然值有可能產生

過擬合現象。

如果將上述實驗重複N次,記m爲X=1次數,就可得到二項分佈:


2.1.1 貝塔分佈

從貝葉斯觀點看,需要引入一個先驗分佈。注意觀察到似然函數的形

式,則可考慮如下形式的貝塔先驗分佈:



那麼後驗分佈就和似然函數與先驗分佈的乘積成正比,且與先驗分佈有

相同的形式,也是貝塔分佈。即有:



通過對比先後驗分佈發現,先驗分佈中的參數a和b可分別看做影響觀察

值X=1和X=0的數目。


     此外,如果我們連續地觀察到新的數據,那麼後驗分佈也可做爲先驗

分佈。每次觀察一個新數據,計算包含新數據的似然函數,乘以修改前

的後驗分佈後再規範化,就可得到修改後的後驗分佈。每新增一個X=1

的觀察數據,a增加1;每新增一個X=0的觀察數據,b就增加1。

    連續方法不依賴於先驗的選擇和似然函數,只依賴於數據的獨立同分

布。由於它不需要全部數據存在內存,所以可用於大數據集。

    根據式子(2.20)可得出,當數據集是無窮大的情況下,從貝葉斯和

似然函數得到的結果是一致的;當數據集是有限的時,後驗值介於先驗

值和似然值之間。


2.2 多項分佈

    考慮一個K維的隨機變量X,其中的元素只有一個等於1,其它爲零。

表示X有K個取值狀態,每個狀態被取都有一定的概率,且這些概率和

爲1,實際上是伯努利分佈的一種推廣。那麼變量X的分佈函數爲:



如果取N個獨立的觀察數據值,那麼相應的似然函數爲:




從似然函數可看出,此分佈顯出了充分統計。通過取對數,加入拉格朗

日因子,求導可得出似然值。

    如果考慮每個狀態被觀察的次數的聯合分佈,那就得出如式(2.34)

的多項分佈。


2.2.1 狄利克雷分佈

    考慮如何找多項分佈的先驗,通過觀察似然函數並由共軛先驗性,得

到先驗分佈是如下的狄利克雷分佈:



由貝葉斯理論可得後驗分佈如下:





發現後驗也是狄利克雷分佈,這也證實了狄利克雷分佈確實多項分佈的

共軛先驗。狄利克雷先驗分佈中的參數和貝塔先驗分佈中的參數解釋類

似。


2.3 高斯分佈

    中心極限定理說明無窮多個獨立隨機變量組成和的分佈是高斯分佈。

    多元高斯分佈的函數依賴是指數中的二次型:


它的開方也就是馬氏距離,當協方差矩陣是單位矩陣時,馬氏距離就成

了歐氏距離。通過求特徵值與特徵向量等矩陣知識,可變二次型爲:



這樣就從一個座標系轉到另一個座標系,新座標方向沿着各個特徵向

量,比例爲特徵值的根值。協方差距陣至少應該是半正定的。


    通過計算雅可比矩陣,可得新座標下的高斯分佈:



高斯分佈中的參數分別代表均值和協方差。

    雖然高斯分佈應用廣泛,但也有侷限性。一般高斯分佈的參數個數隨

着數據集的二次方增長;如果協方差是對角的,那麼參數個數是數據集

個數的2倍;如果協方差是與單位矩陣成比例,那麼參數個數是數據集個

數加1。但是這些條件會限制高斯分佈獲取數據相關性的能力。

    高斯分佈的另一個侷限是它不能模擬多峯分佈,因爲它本身是一個單

峯分佈。


2.3.1  高斯條件分佈

    高斯條件分佈還是高斯分佈。考慮一個D維的向量X,把它分成兩部

分,給出一部分時,求另一部分的條件分佈。一般的二次形式爲:



計算高斯條件分佈時用到協方差矩陣的逆,稱爲精度矩陣。用分塊矩陣

的知識可得高斯條件分佈的二次形式(2.70),然後對比就得到條件分

布的均值和協方差,由此得到的值是關於精度矩陣的。當然,通過一些

矩陣知識,也可得到關於協方差的表現形式,精度矩陣表示比協方差表

示簡單。

    由於條件分佈的均值是Xb的線性函數,並且條件分佈的方差獨立於

Xa,所以稱這樣的模型爲線性高斯模型。


2.3.2  高斯邊緣分佈

     高斯邊緣分佈也是高斯分佈。爲求(2.83),考慮高斯的二次形式,

從(2.70)中挑出Xb並完全平方化得到(2.84)。在整個二次型中對

Xb求積分後剩下結果只是關於Xa的函數,可用來與(2.71)作對比,

就得到了邊緣分佈以精度分塊矩陣表示的均值和協方差,換成協方差表

示的如下所示:



    與高斯條件分佈相比,邊緣分佈的均值和協方差用分塊的協方差表示

更簡單。


2.3.3  高斯變量的貝葉斯理論

    給出高斯邊緣分佈P(X)和高斯條件分佈P(Y|X),如何求得邊緣分

布P(Y)和條件分佈P(X|Y)?

    首先,由P(Z)=P(Y|X)P(X)算出聯合分佈。用聯合分佈的二次

型與(2.71)比較可得出聯合分佈的均值(2.108)和協方差(2.105)。

    其次,由上節求高斯邊緣分佈的結論,可得聯合分佈P(Z)關於X的

邊緣分佈P(Y),其均值和協方差分別是(2.109)和(2.110)。

    最後,由求高斯條件分佈的結論,可得條件分佈P(X|Y)的均值和協方差,分別用(2.111)和(2.112)表示。

    如果把P(X)看作是先驗分佈,那麼P(X|Y)可以看成在觀察到Y之

後的後驗分佈,這可看做是貝葉斯理論的例子。


2.3.4  高斯的極大似然

    給出N個獨立同分佈於多元高斯分佈的觀察值,如何對高斯分佈的參

數進行估計?

    首先求得多元高斯分佈的似然函數的如下對數形式:



然後對參數求導就可得極大似然值,其中求協方差的似然值比較複雜,

有文章給出了獨特的解法。



可以驗證,均值的似然估計是無偏的,而協方差的似然估計是有偏的,

但可以通過調整得到無偏的。


2.3.5 連續估計

    考慮高期分佈的均值極大似然,當把最後一個數據分離出來,就形成

(2.126),它通過新觀察到的數據值與以前的似然值的差來修改當前的

似然值,體現了連續性。

    Robbins-Monro算法,定義了一個迴歸函數(2.127),目標是找到回

歸函數的根。假設每次只有一個觀察,如何找到一個相應的連續估計來

找到根。


    那麼如何對一般的似然函數用Robbins-Monro算法求解?通過觀察

(2.133)和(2.134),發現似然函數的解對應於迴歸函數的根,就有

(2.135)。文中給出了一個單變量高斯分佈連續分佈的例子。


2.3.6  高斯的貝葉斯推理

    考慮單變量高斯分佈,方差已知,從貝葉斯觀點來推理均值,由一些

觀察數據集,就可得似然函數(2.137)。觀察似然函數,可得共軛先驗

是高斯分佈,通過相乘似然函數與先驗並規範化後得後驗分佈,其均值

與方差如下:




發現後驗均值是先驗均值與似然值的組合,當N=0時,爲先驗均值;N

無窮大時爲似然值。當觀察數據增加時,後驗精度是增加的;當N=0時

後驗精度是先驗精度;當N無窮大時,後驗方差爲0,後驗分佈在變得無

限尖。當先驗有無窮大的方差時,後驗均值成了似然值。

    另外,貝葉斯推理能自然地說明連續估計,見(2.144)。


    考慮均值已知,方差未知的高斯單變量分佈,關於精度的似然函數爲

(2.145),通過觀察可得相應的共軛先驗爲伽馬分佈:



其a與b爲參數。通過先驗與似然函數的乘積,可得後驗分佈的參數:


發現N個觀察數據能增長係數a,爲參數b貢獻了


    考慮均值與方差都不未知的單變量高斯分佈,關於均值與方差的似然

函數爲(2.152),通過完全平方,發現共軛先驗是高斯分佈和伽馬分佈

的聯合形式,被稱爲高斯-伽馬分佈:


注意到此分佈不是簡單的高斯分佈和伽馬分佈的乘積,因爲各自的參數

有線性關係。

    考慮多元變量,若協方差已知,關於均值的共軛先驗是高斯分佈;若

均值已知,關於精度矩陣未知的共軛先驗是Wishart分佈,見(2.155)

若均值與協方差都未知,那麼共軛先驗是Gaussian-Wishart分佈。


2.3.7  t分佈

    考慮一個單變量的高斯分佈和伽馬分佈,經過融合,對精度求積分,

可得邊緣分佈如(2.158),再通過代量變換,就得到t分佈:




若v=1,t分佈就成了柯西分佈;若v趨於無窮大,t分佈就成了高斯分佈

    通過觀察(2.158),t分佈就是無窮多個有相同均值不同精度的高斯

分佈的和,實際上就是高斯的混合模型。t分佈比高斯分佈有一個長尾巴

因此它也就比高斯分佈健壯,這可從圖2.16看出。

    通過運用和單變量相同的方法可以得到多元變量的t分佈:


2.3.8  週期變量

    考慮一個週期變量的N個數據集,如何估計它們的均值?可以把它們

看成是單位圓上的點,並用二維的單位向量來表示。這樣通過座標變換

就得週期變量的均值(2.169)。

    考慮週期變量的分佈,它必須滿足(2.170)—(2.172)三個條件,

找一個符合條件的類高斯分佈:



此分佈的輪廓是一系列圓,從笛卡爾換到極座標,由上式可得到週期

變量的分佈,即von Mises分佈:


    考慮von Mises分佈的極大似然估計,它的似然函數的對數形式爲:



對第一個參數求導可推出似然值:



對第二個參數求導可得(2.187),求其逆即爲似然值。

    一般有如下處理週期分佈的方法:第一,用柱狀圖,把極座標分成固

定的箱子,此方法簡單靈活;第二,就是類似於von Mises的方法;第三

通過把寬度爲2派的連續區間映射到週期變量,任何在實座標上有效的分

布都能轉換成周期分佈。

    von Mises分佈的侷限性是它是單峯的。


2.3.9  混合高斯

    任意連續的密度能被足夠多的高斯分佈以任意的精度逼近。考慮混合

高斯分佈:


混合係數滿足(2.190),由全概率公式可得(2.191)和(2.192)。

    混合高斯的似然函數的對數形式爲:




由於出現了下標k,使得似然的最大化很難求,一般採用EM算法。


2.4  指數家族

    指數家族的分佈形式一般爲:


    首先考慮伯努利分佈,它通過簡單的變換可表成標準分佈形式:


通過比較,可得到各個參數形式。

    其次考慮單個觀察值的多項分佈,它能寫成(2.204),標準形式爲:


其相應參數也可通過比較可得。根據條件(2.209),現在想用前M-1個

參數來表示第M個參數,這樣多項分佈可表示成(2.21),經過一系列

數運算可得標準形式:


    最後考慮了單變量高斯分佈。


2.4.1  極大似然和充分統計

    考慮N個獨立同分布的數據集,指數家族分佈的似然函數如下:



對似然函數取對數,求導可得:



這樣就可以從理論上求得似然估計值。

    另外,似然估計值以...的形式只依賴於數據,這樣的性質稱

爲指數家族分佈的充分統計。


2.4.2  共軛先驗

    給出一個密度分佈          ,可以找到共與似然函數共軛的先驗分佈,

也能得到和先驗分佈有相同形式的後驗分佈。對於指數家族中的任一分

布,都有如下形式的共軛先驗:


那麼,後驗分佈就正比於似然函數與共軛先驗的乘積,其形式如下:



2.4.3  無信息先驗

    許多情況下,不能確定先驗分佈是什麼分佈,於是我們想找到不提供

信息的先驗,它儘可能少地影響到後驗分佈,讓數據本身表達自己。

    給出一個分佈P(x|λ),如何找到先驗分佈?如果λ是K個狀態的離散

變量,可取概率爲均值。如果是連續的,則存在兩個潛問題:第一,對

參數λ的積分有可能發散,會產生不合適的先驗;第二,概率密度在變

量非線性變換下引起變化。

    舉了兩個不提供信息先驗的例子,分別描述了平移不變性和比例不變

性。可以找到反映(2.232)和(2.233)性質的先驗分佈,使(2.234)

成立,進而可得分佈是不變的,相應的位置參數例子是高斯分佈的均

值。然而通過(2.239)發現有比例參數的先驗分佈是合適的先驗,通過

取對可修正。相應的例子是高斯分佈的標準差,其先驗分佈是伽馬分佈


2.5  非參數方法

    參數方法需要找到合適的密度分佈模型,如果模型找的不好,就會產

生不好的效果。如多峯數據集用高斯分佈模擬是不會有好效果的。

    考慮連續單變量x,把x分成有一定寬度的不同格子,數出落進不同格

子的觀察數據,通過規範化,可得每個格子的概率值(2.241),通常格

子的寬度是相同的。這就是柱狀圖方法,它能處理大數據集和連續到達

數據。但是也有侷限:由於格子邊的存在,估計密度不是連續的;在高

維空間引起維度災難。

    它給我們的啓發:爲了估計某點的概率密度,可考慮此點的鄰域,柱

狀圖中鄰域相當於格子,它的光滑參數就是格子的寬度;爲了得到較好

的效果,光滑參數既不能太大也不能太小。


2.5.1  核密度估計

    考慮D維空間的密度估計,在點x鄰域內概率可由(2.242)表示,這

樣落進區域的觀察數據的數目就服從二項分佈(2.243),由相關知識可

得密度估計值:


在這裏,鄰域應該足夠小以使在其中的密度保持不變;鄰域又應該足夠

大以使落進其中觀察數據數目服從二項分佈。

    當固定K值,從數據中決定V的值,就是K近鄰方法;當固定V值,從

數據中決定K,就是核方法。

    把x的鄰域看成超立方體,爲了數出落入立方體的觀察點,定義瞭如

(2.247)的核函數,從而可得K,表達式如(2.248),代入(2.246)

就得如(2.249)的估計密度。爲了得到光滑的密度模型,通常用高斯核

函數(2.250)。


2.5.2  最近鄰方法

    最近鄰方法能解決核函數中h的取值問題。

    考慮以點x爲中心的小球鄰域,允許小球射線增長,止到小球含有K個

數據點,這就是K最近鄰方法,它也有一個K的取值問題。

    K近鄰方法可用到分類問題,考慮總共有N個點,C個類,每個類Ck有

Nk個點,如果想分類一個新點x,可設想一個以x爲中心的包含K個點的

小球,然後通過貝葉斯理論,就可得到:



使上式取最大值類別就是點x應該分的類。


發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章