PRML 閱讀筆記(八)

2.4 The Exponential Family

       到目前爲止,書中講過的除了高斯混合分佈以外的大部分概率分佈都是屬於一類更廣義的分佈--Exponential Family。這一節就是闡述這類分佈的一些共同性質。

       給定參數η,如果x的分佈符合如下形式,則稱x服從指數族分佈:

       

        η在此稱爲natural parameter。g(η)是爲了確保概率密度的歸一化。接着作者又證明了伯努利分佈,二項分佈,高斯分佈都可以推導爲上述形式,即它們都是指數族分佈的一員。


2.4.1 Maximum likelihood and sufficient statistics

        既然提出了一種更爲廣義的分佈,那麼在利用它進行建模的時候,自然而然的就要想到一個重要的問題,即如何來估計參數η。

       從理論上進行推導,通過書上(2.195)的式子兩邊求關於η的梯度,再經過一些簡單推導可以得到:

       

        書中寫到,從推導過程我們也可以看出來,如果對η球二階導數,則在積分號內部會出現u(x)*u(x),即最後可以得到E(u²(x)),這樣,u(x)的方差便可以用η表示了。表示u(x)的方差有什麼用呢?

         接下來,在實際建模過程中,我們假設所有的樣本服從指數族分佈,且是獨立同分布的。我們利用使似然函數的log形式的梯度爲0,進而得到了η的最大似然估計:

         

          注意當N趨於無窮大的時候,等式右邊便是u(x)的期望。

          所以作者開始先是從理論上對η的值進行推導是爲了證明最大似然估計是有理有據的麼?


2.4.2 Conjugate priors

          書中之前已經出現過共軛先驗的概念,就是我們要觀察似然函數的形式,然後找到一個先驗函數,確保先驗函數和似然函數的乘積即後驗函數的形式是與先驗函數相同的,其意義在之前的2.1或2.2節簡單闡述過了。

           所以通過觀察指數族分佈,我們得到了指數族分佈的共軛先驗的形式:

           

            書上這一小節的最後一句話我沒看懂,希望大家能幫着解釋一下,謝謝。

            

 

2.4.3 Noninformative priors


       有的時候,也許是因爲經驗或知識不足等等原因,我們不想讓先驗分佈對後驗分佈產生太大的影響,這時選取先驗分佈就需要一些技巧了。

       假設有分佈p(x|λ),想使先驗分佈對後驗無太大影響,在選取先驗時,當λ取值連續,可以使p(λ)=const,當λ取值離散的時候,可以使λ的每種取值的概率均等。(所以這種無影響還是相對的,假設在λ的取值離散,使其每種取值概率相同時,還是會對後驗分佈產生影響,因爲從樣本得到的結論仍然有可能與先驗假設差別很大?)

       作者下面講到在λ取值連續時,取p(λ)=const可能面臨的兩種問題。首先,如果λ的取值是無限的話,先驗分佈的積分不會是1,因爲它的積分是發散的。則此先驗分佈稱爲improper,但往往這樣improper的先驗分佈所對應的後驗分佈是proper的。作者舉了一個高斯分佈期望的例子,我沒看懂,希望大家可以講解一下,謝謝。

        其次,在對變量做非線性替換的時候,可能會因爲Jacobian因子的問題使得先驗分佈不再是一個常數。

        之後,作者又舉了兩個Noninformative priors的例子,並在後面分別輔以高斯分佈期望和方差的例子來說明,這裏就不具體敘述了。

        我的疑問是,既然不想讓先驗對後驗產生影響,爲什麼不直接用似然函數來估計參數的值,還非要搞一個Noninformative priors呢?


2.5 Nonparametric Methods

       這一章前面的章節所介紹的方法都有一個共同特點,就是用一個具體的模型對樣本的分佈建模,而模型的參數則取決於樣本,稱之爲parametric。當選擇的模型無法很好擬合樣本的時候,就會得到很差的預測結果。最後一節要介紹另外一種不同的方法,Nonparametric。

       作者首先介紹了histogram methods,以一維模型爲例,把座標橫軸劃成一個個小間隔Δi,通常的Δi都是相等的,然後根據樣本落在Δi內的點的個數,對樣本進行擬合。落在Δi內的點的概率密度是:

        

         這裏並沒有主觀的選擇任何模型去擬合樣本,只是通過劃分Δ,讓樣本自然的落到Δi內,形成概率密度。可是其中還是Δ的大小還是人爲控制的,如書中圖2.24所示,Δ過大,存在着欠擬合,Δ太小,也會有過擬合的問題。當然,histogram methods還有另外兩個問題,第一,在Δi的邊界,密度函數是不連續的。第二,如果每個樣本是D維的,而每一個維度上我們又劃分了M個Δ,則Δ的總數會是M的D次方。

          下面作者介紹了兩種比histogram methods效果更好的Nonparametric方法。


2.5.1 Kernel density estimators

         假設樣本取自未知的分佈p(x)。那麼某點落在很小的R區域中的概率爲:

         

          根據二項分佈,假設取自p(x)的樣本個數爲N,那麼其中有K個點落在區域R中的概率爲:

          

           而當樣本足夠大的時候,我們可以認爲K的近似於N*P;下面我們假設R足夠小,這就使得落在R內的概率近似的表示爲一個常數值p(x),則有P=p(x)*V,關於V的解釋,如果在平面座標中,V就是R在橫軸上的寬度,再乘p(x),即是這以概率密度所圍成的面積,亦即R的概率。結合這兩個式子,就得到了關於p(x)的估計:

           

            書上明確的說,我們在推導p(x)的估計的過程中,用了兩個相悖的假設。首先假設了R足夠小,以致在R內的概率密度可以近似看作是一個常數,另一個是K足夠大會使二項分佈to be sharply peaked,是什麼意思?

             所以,問題就出在了上式中的V和K上。所以解決方法是,如果固定V的大小來決定K,稱爲kernel density estimators。如果固定K的大小來決定V,稱爲K-nearest-neighbor方法。下面具體介紹kernel estimators。

            書中是先是定義了一個kernel函數,這個kernel函數的含義應該是如果當樣本點和我們要計算概率密度的點小於等於規定閾值的時候,就判斷這個點在我們的V中,如果大於閾值,則不在V中,通過所有在V中的點的個數和所有樣本點個數的比值來判斷要計算的點的概率密度,即:

             

              這裏的h應該是與前面histogram中的Δ相似的,但是h在這裏的具體含義是什麼呢?不太明白,希望大家幫忙,謝謝。

              同樣的,像histogram中一樣,我們還是把整個空間劃分了,所以在各個區域的邊界上還是存在不連續的問題,所以如果選擇一個平滑一些的kernel函數,Gaussian是通常的選擇:

              

                這樣就得到了kernel estimators下x點的概率密度。書中最後講到,這樣的算法不存在訓練的過程,預測的過程是將所有樣本存儲,在要對某個點進行預測的時候實時計算這一點的概率密度就可以了,因爲x的取值是連續的,這樣的方法永遠也不可能把所有x的可能取值的概率密度都計算出來再去預測。


2.5.2 Nearest neighbor methods

           現在我們固定前面提到的K,來決定V的值,即允許V的增大直到達到規定的K值。K Nearest neighbor methods通常應用於分類問題,假設現在有Nk個點屬於分類Ck,所有點的個數的總和爲N。如果我們要對某個點x進行分類,就以這個點爲中心劃出一個球體,直到這個球體中包含了規定的K個點,假設球體的體積是V,K個點中有Kk個點來自Ck。有了這些量,再根據Bayes公式,就可以推導出x屬於分類Ck的概率:

           

            K Nearest neighbor methods也需要將整個樣本集存儲來實時計算某一點屬於某一個分類的概率,雖然可以通過建立一些基於樹的查找結構來一次性解決這個問題,但用書中的話,總的來說這樣的方法應用起來還是很侷限的。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章