A Bayesian reassessment of nearest neighbour classication閱讀解讀

1..經典的K緊鄰算法沒有加入對分類錯誤的評估,本文加入了這個模塊;相反,以混合分佈的概率統計分類方法會提供一個對分類錯誤的評估,因此本文提出了基於貝葉斯的k緊鄰算法來解決這一缺陷。在這之前,Holmes and Adams提出了其他的模型似然函數的分析,特別是k值的選擇,我們採用貝葉斯的方法,相比先前Holmes and Adams的研究,本文方法有兩個主要貢獻點:1)我們定義了一個封裝k緊鄰模型的全局概率模型,而不是使用不兼容的條件概率分佈;(2

第二,我們推導出一種適用於我們模型的完全可操作的模擬技術,其基於完美採樣或吉布斯採樣近似,允許重新評估在這些設置中經常使用的僞似然近似。

1.2 原始K緊鄰方法

 針對一個二分類的數據集進行交叉驗證實驗,改變k值得到隨着K值變化,引起誤分類的錯誤率變化統計。

針對平均k時,取得的平均錯誤率,從這個點上引入貝葉斯的觀點。

1.3 目標和計劃

       爲了對k緊鄰方法進行改進,加入不確定性這個特徵,這裏加入了一個將標籤yixixi鄰居的標籤建立一種聯繫的概率型架構。在原始KNN方法中引入這個想法有兩個好處:1.該方法相比與原始的評估方法,在特徵向量分類方法增加了更多的信息;(2)它依據貝葉斯推斷的引入衡量鄰居影響的參數,同時去分析變量的角色、度量、鄰居k的數量、類別的數量等一些列因素,從而有助於提高效率。相對來說,這種方法已被提出,我們對已提出的這個聯合概率模型進行修改,同時對計算模型評估提供了新的方法。

  1 左圖爲針對黑色類別的概率評估,計算95%置信區間內這三類的預測概率,檢查邊界線的概率爲0.5,滿足這些概率的點被劃分爲不確定的區域;

 

本篇文章的整理組織爲:首先建立了有效的新的概率型KNN模型,同時指出相Holmes and Adams等方法的不足;接下來討論了特別針對推斷關於k和附加參數所必需的概率k最近鄰模型的歸一化常數的具體問題。我們利用第3.4節中提出的精確MCMC方法來評估第3.5節中僞似然替代的限制,並說明第4節中幾個基準數據集的方法。

 

2.概率型KNN模型的介紹

2.1馬爾科夫隨機場模擬

        一般爲了建立一個能夠克隆KNN模型特徵的概率性結構然後去評估未知參數,首先定義以xi爲條件的標籤yi的聯合分佈,一般來說可以使用這個問題的空間結構約束,然後採用馬爾科夫隨機場去解決;

雖然我們將在下面顯示這在一個連貫的概率設置中是不可能的;然而在這裏定義緊鄰的聯合概率是不可能的,因此需要假設完全條件概率分佈
,這裏xi僅僅依賴於它的k個鄰居;一般來說,

這種條件分佈的參數化結構顯然是開放的,但是我們選用類似Potts模型或者玻爾茲曼分佈等;這種更標準的分佈有自身定義的函數:

                                       

 關於解釋見英文部分;

正如在文章Holmes and Adams給出的,其中給出了全概率公式如下所示:

 其中β>0,X是訓練集(p,n)矩陣{x1,...xn};β衡量不確定的程度,β=0表示所有類一致分佈且鄰居間相互獨立;當β=∞,表示所有鄰居極具相關性。尺度參數k使得β在這裏無量綱。

上述公式1遇到一個問題是:

譯文:即絕大多數數據集在y={y1,...,yn}在滿足條件公式1的情況下,不存在一個聯合概率分佈;  

其中解決這個問題的其中方法,可以引用Holmes and Adams中的方法改進了該公式1,定義了直接的聯合分佈爲式2所示:

 然而公式2也遇到兩個棘手的問題;

因爲第一,功能(2)沒有正確歸一化(Holmes和Adams,2002所忽視的一個事實),必要的規範化常數是難處理的。第二,對應於該聯合分佈的完全條件分佈不由(1)給出。 

針對第一個問題,一般在玻爾茲曼機模型也常遇到,解決方案見第3節;一般這類問題的標準的解決方法爲使用爲似然函數(這在文獻Besag Heikkinen),然而這種解決方法只能得到較poor的結果;

第二個更具體的缺點意味着(2)不能被視爲僞似然(Besag,1974; Besag et al。,1991 ),因爲如上所述,條件分佈(1)不能與任何聯合分佈相關聯。從(n = 2,y =(y1; y2)和G = 2的特殊情況可以看出(2)錯過歸一化常數, 同時公式2丟失了一個固定的常量,關於這個缺點,可以從特定的例子來說明,

 從這個公式可以看出,它和1明顯不同,更重要的是它嚴重依賴於參數βk

       從以上的分析可以看出,針對定義聯合分佈和條件概率分佈遇到一些列問題。

2.2 一個對稱的玻爾茲曼模型

鑑於這些困難,因此我們採取不同的策略,並在訓練集上定義聯合模型:

其中Z(β,k)是分佈的歸一化常數。這種建模的動機是,可以獲得對應於(3)的完全條件分佈:

 

 該模型的優勢和特點如英文部分介紹;

當鄰居系統完全對稱(達到因子2)時,原始完全條件(1)完全被(4)替代。

其中,歸一化常數Z(β,k)是仍然是棘手的,除了最微不足道的情況。

針對不平衡採樣的例子,該k最近鄰模型的自然修改是通過來重新調整領域尺寸權重的大小。更改後的模型爲下式:

2.3 預測視角

基於條件公式4,對於一個未知數據Xn+1的預測公式表達爲下式所示:

其中第一個代表在Xn+1k個鄰居中屬於類別g的數量,第二個爲將Xn+1當做k個鄰居之一的訓練樣本中的樣本觀察個數; 

   此時的模型雖然提供了KNN模型概率的基礎,並且也能評估未分類數據的不確定度,然而當多個分類被評估時,它缺乏概率上的一致性。

   提出模型遇到的問題,並且同時給出瞭解決的方案。

在以下部分中,我們主要考察了福爾摩斯和亞當斯(2003)中的情況G = 2,因爲這是唯一可以在不同的近似方案之間進行全面比較的情況,但是我們在第3.4節的末尾指出如何 Gibbs採樣近似允許對G的較大值的實際擴展,如第4節所示。

 

3.貝葉斯推斷和歸一化問題

這裏主要解決如何針對二類問題,採用貝葉斯推斷解決未分類點的分類的類別預測問題,即採用貝葉斯的觀點,對未知數據做出概率上預測

   從前面的敘述可知,從貝葉斯的觀點,未分類點的分類可以基於通過參數的條件後驗分佈進行積分獲得的yn+1的邊際預測(或後驗)分佈,即對於g=1,2,具體採用下式實現:

同時,這裏對k和β都有一定的限制。此時對k和β的選擇做了分析。 

在玻爾茲曼模型中,由於存在相變現象,當β高於某個特定值時,模型可能變成黑白兩類(yi = 1,2);

 

3.1 MCMC步驟

  如果後驗分佈π(β,k|y; X)可用(達到歸一化常數),我們可以設計一種MCMC算法,其將產生從該後驗近似樣本的馬爾可夫鏈(Robert和Casella,2004),例如通過基於k和β的完全條件分佈的吉布斯抽樣方案。

不能採用基於K和β完全條件分佈的吉布斯採樣方法模擬的原因,因此採用蒙特卡洛-Hastings的方法進行替換去精確地模擬π(β,k|y; X);

吉布斯取樣的替代方法是使用隨機遊走Metropolis {Hastings算法:然後使用隨機遊走建議更新β和k。 由於β2(0;βmax)受到約束,我們首先引入β的對數重新參數化,

此時對於β的求解,在
上提出正態隨機遊走求解更新theta。對於k的求解

爲了求解k,這裏引入2r鄰域內的一致的分佈,對於有概率密度Q的分佈依賴於參數r,此時需要對其以接受率進行重新標定,在蒙特卡洛-Hastings算法上定義的接受概率爲:

 

這裏的步驟主要是完成對(β,k)進行更新求解模擬採樣得到其採樣數據;

  一旦蒙特卡洛方法產生一個(β,k)的滿意的序列,對於Xn+1的類別Yn+1就可用公式6進行預測;

   這裏提出貝葉斯預測的結果其實也是公式6得到概率最大的類別預測,感覺在說明貝葉斯的優勢;同時在這裏提出針對公式6顯示地計算是不可能的,因此這個分佈必須採用MCMC鏈近似模擬,正如公式7表達的那樣;然而由於公式3中存在很難求解的常數Z(β,k),以上的框架也不能順利進行,我們需要用一個易於管理的目標替換掉f。

以下提出3中不同的方法來對待這個難處理的問題:

 

3.2 僞似然近似

  第一個解決方案是採用僞似然來代替真的聯合分佈,如公式8所示:

  

並由與(3)相關的(真)條件分佈的乘積組成。 然後用真正的後驗分佈π(β; k|y; X)被下式代替


並在上述草擬的MCMC算法的所有步驟中使用。 基於由此產生的僞樣本,來預測分佈(yn + 1 = g|xn + 1; y; X)與由(7)產生預測結果的比較近似。

 對圖4的結果說明:

如圖4所示,對於Ripley的基準數據,隨機漫步蒙特卡洛-Hastings算法以上詳細描述,儘管混合很慢(左下圖可說明),但僞像似然近似也令人滿意。 在該數據集上,對於k ^ = 53和β^ = 2:28,實現了僞最大值(即最大值(8))。 如果我們使用最後該MCMC運行的1000次迭代,(7)的預測性能使得測試集上的誤差率爲1000個點中爲8.7%。 圖4還顯示了信息對k的限制。 (注意,我們通過試錯來確定βmax= 4的值)。

 

 

3.3 路徑採樣

估計歸一化常數的現在標準方法是路徑採樣,其中兩個歸一化常數Z(β0;k)=Z(β;k)可以由蒙特卡羅技術近似地被分解爲一個積分形式。

路徑採樣的基本的公式推導;

然而它有一個缺點,就是每步都要計算新的這個歸一化常數的比值;

因此,需要採用進一步的路徑採樣步驟:對於k的每個值和β的幾個選定值,我們僅對函數Z(β;k)進行近似,後來我們使用數值插值將函數擴展到β的其他值。由於函數Z(β;k)非常平滑,附加逼近程度相當有限。假定這個近似值只能被計算一次,所得到的蒙特卡洛-hastings算法是非常快的,以及如果通過檢查β從一個值到下一個值時Z(β;k)的斜率足夠平滑的近似值,(我們強調,由於在(β; k)中的聯合近似,產生這些近似所需的計算成本相當高)

我們用Ripley的基準數據集來說明這個近似。 圖5給出了對於β的值的範圍和k的兩個值的近似期望Eβ;k[S(y)]。在期望中,使用系統掃描Gibbs採樣器模擬y,因爲當僅需要計算一個期望時,使用第3.4節中詳細闡述的完美採樣方案就沒有意義。從該比較圖可以看出,當β小時,吉布斯取樣器具有良好的混合性能,而對於較大的值,它難以收斂,如在k = 125時右圖所示的不良擬合。 在這種情況下,該模型越來越接近相變邊界。

 

 

圖5:對於Ripley基準的期望Eβ;k[S(y)]近似,其中β在0和βmax= 4之間變化,並且對於k = 1(左)和k = 125(右)(104) 對於(β;k)的每個值,進行500次步驟的迭代。 在這些圖上,黑色曲線基於期望的線性插值和二階樣條插值的紅色曲線。

 對於Z(β,k)的近似,基於現有的先驗知識,我們能夠用上式表示log(Z(β,k));並使用數值積分近似這個積分。如圖6所示,其使用基於50×12網格的(β; k)值的雙線性插值,近似常數Z(β;k)k中主要是常數。

  

一旦Z(β;k)被近似,我們可以很容易地使用3.1節的真正的MCMC算法,因此這種方法的主要成本在Z(β;k)的近似值中。 圖7說明了Ripley基準測試的MCMC採樣器的輸出,與圖4進行比較。第一個令人感興趣的是,該鏈混合比其僞似然的方法更快(迭代)。 一個更重要的一點是,兩個邊際後驗分佈的近似的範圍和形狀在兩個方法之間差別很大,這是第3.5節中討論的一個特徵。 當(7)中將MCMC採樣器的輸出用於預測時,Ripley測試集的誤碼率等於8.5%。

3.4 完美的採樣實現和Gibbs近似

 這種方案其實在於通過引入輔助變量z來簡化模型的求解問題;從後驗模擬(β,k,z)等價於從原始數據模擬(β,k),此時,如果我們在這個增強的框架上運行蒙特卡洛-Hastings算法,

這個完美取樣器的唯一困難是相變現象,這意味着,對於非常大的β值,過去採樣器的耦合的收斂性能相當快地惡化,Møller等人也注意到這一點。(2006)爲伊辛模型。我們通過使用基於更小的β值的額外的接受拒絕步驟來克服這個困難,以避免在計算時間內的這種爆炸。

 

如圖8所示,對於(β;k)的不良選擇導致算法非常不令人滿意的性能。從僞似然估計開始,並使用這個非常值的插件值(β;k),我們獲得具有非常低能量和非常高的拒絕率的馬爾可夫鏈。 然而,使用由這種糟糕的運行導致的估計(k;β)=(13; 1.45)確實會大大改善算法的性能,如圖9所示。在此設置中,預測誤碼率 測試數據集等於0.084。

雖然基於輔助變量的優雅解決方案完全消除了歸一化常數的問題,但它面臨着幾個計算困難。首先,如上所述,人造目標g(z|β; k;y)的選擇正在推動算法,插值估計需要重新評估週期性。第二,從分佈f(z|β;k)的完美模擬是非常昂貴的,如果β接近相轉移邊界,則可能失敗。 此外,該臨界點的數值不是預先知道的。 最後,將完美抽樣方案擴展到G=2級以上尚未實現。

完美採樣和Gibbs採樣的對比:

    我們提倡用Gibbs取樣器代替上述完美的採樣器,以實現可管理的計算性能。如果我們用z上的相應的通用Gibbs採樣器的500次(完全)迭代代替完美的採樣步驟,則計算時間在觀測值n中是線性的,而結果和完美採樣幾乎相同。人們必須記住,對於模擬(β; k)的後驗分佈的原始問題,z的模擬是二階的,因爲z是引入的輔助變量來克服歸一化常數的計算。因此,使用吉布斯取樣器引起的額外的不確定性並不嚴重。圖9比較了吉布斯解決方案與完美的採樣實施方案,並且顯示了使用較便宜的吉布斯採樣器造成的損失小,而計算時間的增加則是巨大的。對於50000迭代運行吉布斯採樣器所需的時間大約爲20分鐘,而相應的完美取樣器(在相同機器)超過一週。

3.5 僞似然近似估計

    鑑於上述替代方案都可以實現爲n的小值,因此比較它們以便評估僞似然近似的影響是有直接感興趣的。如上一節所述,使用Ripley的基準測試訓練集達到250點,我們確實能夠在可能的β範圍內運行一個完美的採樣器,這個實現給出了一個採樣器,其中唯一的近似是由於運行 MCMC採樣器(所有三個版本共同的功能)。

對於相同的數據集,直方圖對模擬的β,有條件的或無條件的,在k上顯示由僞似然近似產生的樣本的總體虛假表示; 參見圖1011.(通過將k設置爲固定值,並且運行相應的MCMC算法,直接獲得k的固定值的比較。)當然可以認爲缺點在於路徑對這個常數進行抽樣評估,但是這種方法與完美的抽樣實施強烈一致,如圖所示。因此,在使用僞似然近似時存在根本的差異; 換句話說,僞似然近似定義了(β; k)上明顯不同的後驗分佈。

    如圖10所示,較大的k是更差的是這種差異,而圖11示出了βk兩者都被僞似然近似值顯着地高估了。(當我們認識到似然度主要取決於β= k時,很明顯地發現βk之間的這種相關性)。我們還可以注意到,在k的情況下,路徑和完美近似之間的對應關係不是絕對的差異可能歸因於一個或兩個採樣器的收斂速度較慢。

爲了評估兩種方法的比較預測性質,我們還提供了在測試樣本的每個點估計的類概率Py = 1jx; y; X)的比較。如圖12所示,預測在範圍中間的值是完全不同的,在使用僞似然作爲近似值時沒有明確的偏向方向。請注意,差異可能很大,可能導致大量不同的分類。

4 在真實數據集上進行驗證

       本節,對於已提出的各種方法在一些數據集上進行驗證測試;

      首先,我們使用統一數據集對算法作了校準,作爲Møller方案中Gibbs近似的起始值,我們使用最大僞隨機估計。 吉布斯採樣器被迭代500次,作爲完美採樣步驟的近似值。 在10000次迭代之後,我們使用當前平均值修改插件估計,然後我們再運行50000次迭代算法。第一個數據集是從R的MASS圖書館借來的。它包括由美國國家糖尿病研究所和消化和腎臟疾病糖尿病測試的532名印度婦女的記錄。記錄由七個定量協變量組成,標籤爲是否存在糖尿病。數據隨機分爲訓練集200名女性,其中68名患有糖尿病,測試集332名女性,其中109名患有糖尿病患者。在表2中給出了測試數據集上k的各種值的性能。如果我們使用標準留一去餘的交叉驗證來選擇k(僅使用訓練數據集),則連續10個連續的k(即範圍57-66)導致相同的錯誤率。

                     

表2:Pima印度測試數據集上k個最近鄰方法的性能

 

結果在圖13中提供。請注意,k的模擬值傾向於避免交叉驗證過程發現的區域。這種差異的一個可能原因是,如第2.2節所述,我們的聯合模型的似然函數並不直接等同於k最近鄰模型的目標函數,因爲在這種可能性中相互鄰域的鄰居的權重相當於單個鄰居的兩倍。在最後20000次迭代中,預測誤差爲0.209,與表2中的k最近鄰解決方案完全一致。

       作者在多個類的數據上進行驗證本文提出的算法,爲了說明我們的方法考慮兩個以上類別標籤數據的能力,我們還使用了Ripley(1994)研究的基準數據集法庭玻璃碎片。該數據集涉及九個協變量和六個類,其中一些相當罕據Ripley(1994)的建議,我們合併了一些課程,將課程數減少到四個。 然後我們隨機分組數據集,獲得訓練數據集中的89個人,測試數據集中的96個。 一次性交叉驗證導致我們選擇k = 17的值。測試數據集上17個最近鄰程序的錯誤率爲0.35,而使用我們的程序,我們得到錯誤率0.29。 使用我們的方法的實質性收益可以部分地通過交叉驗證過程選擇的k值大大超過我們的MCMC採樣器所探索的值來解釋。

相比交叉驗證選擇k值和通過MCMC採樣器實現選擇的收益對比

5.結論

        儘管福爾摩斯和亞當斯(2003)發起了貝葉斯分析k-最近鄰方法的概率背景,本文通過在訓練數據集上定義一個連貫概率模型來矯正原始技術與真實概率模型之間的聯繫。本文提出的方法的優點:這個新模型(3)然後爲貝葉斯推理提供了一個聽起來可行的設置,並且不僅評估測試數據集的最可能的分配,而且評估它們與它們的不確定性。清楚地證明了使用概率環境的優點:只有在這種情況下,才能構建如圖3所示的工具,如預測圖。這顯然對於實驗者來說是一個巨大的好處,因爲可以估計最可能的類之間的界限,並且可以確定哪個區域可以被分配給特定的類或那些類是不確定的。此外,概率框架允許在標準模型選擇觀點中對參與類別分配的鄰居數量進行自然和綜合分析。這個觀點可以擴展到協變量x的最重要組成部分的選擇,儘管在本文中沒有探討這種可能性。

       本文還討論了與這種方法相關的計算困難,即很難求解的歸一化常數的問題。雖然文獻中已經徹底地討論了這一點,但是我們對三個獨立近似的比較,得出了對於適度大小的訓練集,僞似然近似效果不好的結論。此外,雖然路徑採樣和完美取樣近似值對於確定這個問題的求解是有用的,但它們不能在在實踐中操作執行,但是我們還表明,Møller等人的完美採樣方案的Gibbs採樣替代方案這兩種方案既可以實際操作又具有實用性。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章