PRML 閱讀筆記(三)

1.5 Decision Theory

       在我們計算出所需要的概率之後,該如何決策,如何做出準確合理的預測,這便是這一小節主要討論的內容。書上舉了一個診斷癌症病人的例子,輔助接下來的探討。


1.5.1 Minimizing the misclassification rate

         拿診斷癌症病人的例子來講,我們的目標就是要降低病人的誤診率。誤診有兩種情況,第一種是把本無癌症的病人診斷爲了癌症患者,第二種則是與上述情況剛好相反。

          所以可以定義誤診率爲:

     

           這個誤診率,或者把它簡稱爲"錯誤率"的大致含義是,P(x落在R1區域,x屬於C2類)與P(x落在R2區域,x屬於C1類),即x落在了A區域中,卻屬於B類的概率。書上說我們根據p(x,c1)和p(x,c2)的相對大小關係,選擇大的一個作預測,可以減小”錯誤率“。但是根據下面的圖,”錯誤率“似乎又和你選擇哪個p沒有關係。

           先看這幅圖:

           

           書上講到,當我們改變x(hat)的時候,紅色區域的面積也會改變,而綠色和藍色區域的面積不變。當x(hat)平移到x0的時候,紅色區域消失。關於這個圖,要理解綠色區域和藍色區域的面積之和不變,那麼只要關注落在Rj區域內,又在p(x,Ck)(k!=j)下的所有面積均視爲”錯誤率“。但是,這幅圖我有點不理解:x的boundry和p是什麼關係,當x的boundry改變的時候p(x,c)不應該變化麼,而且從這幅圖看,"錯誤率"的大小似乎和我們做預測時怎麼選擇p(x|c)是沒有關係的?

            接下來,作者題出了"正確率"的概念:

            

              根據公式,因爲p(x)對同一x是不變的,所以我們可以去掉p(x)。

             總之,根據"錯誤率"或"正確率"得出要選擇最大的p(ck|x)的結論我沒有看懂,希望有大神能做一點指點。



1.5.2 Minimizing the expected loss

           有時候在實際問題中,我們會爲"錯誤"賦予一些權值,例如我們寧可將一個沒有病的病人誤診爲癌症,也不願漏診一個癌症病人,一個是會遭受痛苦,後者最會丟掉生命。所以作者引出了Lkj的真實分類是k,我們將它劃歸到了j類中,k和j可等可不等)。我們定義一個loss matrix,而其元素便是Lkj。

               於是我們把”錯誤率“的概念擴展到了”average loss“,定義入下:

               

                同樣的,我們也可以根據公式和p(x)不變的原因,將聯合概率改變爲條件概率p(ck|x)。


1.5.3 The reject option

            有一種方法可以減小我們的"錯誤率"或者是average loss,對於那些所有p(ck|x)都小於我們預置閾值theta的x,我們均不做預測。


1.5.4 Inference and decision

             那麼現在,我們有三種方法可以進行Inference和decision。

                第一種:

                 

                        我們分別對p(x|ck)和p(ck)建模,因爲p(x)可以做如下計算:

               

                        進而我們得到了後驗概率。或者我們直接對聯合概率建模也可以。最後再用決策理論,就完成了Inference和decision。這便是生成模型。

                第二種:

                我們直接對後驗概率建模,再用決策理論,即判別模型。

                

                第三種:

                我們用一個判別函數,直接將輸入x映射到一個分類中,這就將Inference和dicision兩個步驟合二爲一,同時也使我們不用對後驗概率進行建模了。

                這裏既然提到了判別模型和生成模型,那就大致討論一下我對兩個模型異同的淺見:

                假設樣本爲(xi,yi),是我們的目標變量。

                判別模型:

               我們更多隻關注對於輸入x,我們要輸出什麼樣的y時,我們可以省去對聯合概率的建模,直接對後驗概率建模,即在p(y|x,theta)=p(x|y)p(y)/p(x)中,我們直接對p(y|x;theta)建模,這樣相對於生成模型,我們簡化了一些問題,只關注x的分類面。在p(theta|y)=p(y|theta,x)p(theta)/p(y)中,上節我們討論過,當我們在考慮最大化目標時,不僅考慮p(y|theta,x),也考慮p(theta),這時,就會給我們的cost function加入正則化項。這是我的理解,有不對的希望大家指出來。

                生成模型:

                生成模型指的是我們要對聯合概率,即p(x,y),或p(x|y)p(y)。聯合概率密度建模相對複雜,但它不僅可以告訴你對於輸入x應該輸出什麼樣的y,還可以還原出p(x,y)的分佈,包含的信息量更大。另外書上講了,因爲可以通過計算出p(x),對於那些p(x)特別小的x,我們模型的預測準確率也許會很低,這樣有了p(x)我們就可以進行一些孤立點的檢測了。

                 

             接下來,作者探討了我們有很強大的理由去計算後驗概率,而不是用一個判別函數草草了事,大致講了四點,很清楚,這裏就不多說了。


1.5.5 Loss functions for regression

             這一節從概率的角度講了迴歸問題的loss函數,並利用當loss函數是的時候,推知在y(x)=Et(t|x)的條件下,loss函數的均值是最小的。最後一如分類問題一樣,探討了幾種方法(判別,生成)的區別。由於一些邏輯和推導過程沒理清,想放一放,等過段時間把後面內容看過了再回頭看。

             有兩個公式沒太搞清楚,貼在下面,希望大家能幫忙解答。

              這個式子是怎麼由書上是怎麼由書上1.86推導而來的?

     

               如書上對(y(x)-t)的平方展開後,代入1.87,對t積分交叉項是如何消失,然後變爲下面式子的?

       

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章