Multi-Label Classification Using Conditional Dependency Networks

Multi-Label Classification Using Conditional Dependency Networks

2011-IJCAI

1 介紹

在許多應用中,多個類標籤之間存在強共現和相互依賴性。我們期望在分類期間提取類標籤之間的依賴性來改進的分類性能。

在本文中,我們提出了一種基於條件循環有向圖模型的新型多標籤分類方法,我們將其命名爲條件依賴網絡。我們在標籤變量上構造一個完全連接的依賴網絡,其中每個變量依賴於所有其他類變量和輸入特徵變量。基於貝葉斯網絡的方法相比,規避了相關的結構學習問題。

2 依賴網絡

兩種常用的圖形模型是貝葉斯網絡馬爾可夫網絡(馬爾可夫隨機場)。

  • 貝葉斯網絡是有向非循環圖形模型,其中每個節點表示一個變量,並且有向邊通常表示變量之間的有序概率依賴性。貝葉斯網絡中的參數通常編碼給定其父項的每個變量的局部條件概率分佈。確定最佳貝葉斯網絡結構是NP難的[Chickering et al., 1994].
  • 馬爾可夫網絡是一種無向圖形模型,其中無向邊編碼變量之間的依賴關係。馬爾可夫網絡更適合捕獲變量之間的無向相關和相互作用。馬爾可夫網絡學習比貝葉斯網絡更難:參數學習通常需要推理,並且由於參數估計的困難,結構學習仍然是NP難問題。

依賴網絡[Heckerman等,2000]是循環有向圖形模型, 與貝葉斯網絡類似,依賴網絡中的邊是定向的。
與貝葉斯網絡不同的是,依賴網絡的有向邊不是有序關係,而是有序變量之間的依賴關係。此外,依賴網絡,貝葉斯網絡和馬爾可夫網絡之間的主要區別在於依賴網絡近似於一組隨機變量的聯合分佈,在獲得條件分佈之後,通過吉布斯採樣推理技術得到聯合分佈。網絡結構如下圖所示

在本文中,我們將依賴網絡擴展到一般的條件依賴網絡,以解決多標籤分類問題。在所提出的網絡中,離散類標籤變量Y在依賴性網絡中彼此相互依賴,對觀察特徵X進行條件化。與每個變量YiYi相關聯的條件概率分佈是一般概率預測函數。

3 多標籤分類模型

給定訓練集D={(x,y1, ,yk)}=1tD = \left\{ \left( \mathbf { x } ^ { \ell } , y _ { 1 } ^ { \ell } , \cdots , y _ { k } ^ { \ell } \right) \right\} _ { \ell = 1 } ^ { t },其中yiy _ { i } ^ { \ell } 的值爲 $ { - 1 , + 1 } $,所提出的模型通過訓練k個二元分類器(其中k是類的數量)和用於預測測試實例的標籤的吉布斯採樣推斷技術來允許簡單的學習過程。

3.1 條件依賴網絡

由於標籤變量之間通常沒有特定的影響方向,因此我們在Y變量上構建完全連接的依賴網絡。也就是說,在每對變量YiYj(Y_i,Y_j)之間存在雙向邊緣。如下圖所示
![Alt text](./1550577861104.png)

在該條件依賴性網絡中,標籤相互依賴性的強度和從特徵到標籤的預測能力被編碼在模型參數中,也就是在給定其所有父節點和X的情況下,與每個變量節點Yi相關聯的條件概率分佈(CPD)。

對於完全連接的網絡,計算條件概率p(Yi=yiPai=ypai)p \left( Y _ { i } = y _ { i } | P a _ { i } = \mathbf { y } _ { p a _ { i } } \right)時,其中Pai={Y1, ,Yi1,Yi+1, ,Yk}P a _ { i } = \left\{ Y _ { 1 } , \cdots , Y _ { i - 1 } , Y _ { i + 1 } , \cdots , Y _ { k } \right\},會使條件分佈表可能非常大。然而,在條件場景中,我們實際上可以通過使用概率預測函數來簡化和推廣CPD表示

在我們的模型中可以使用許多現有的標準二元概率分類器來參數化條件分佈。在實驗中,我們使用了正則化二元邏輯迴歸分類器,邏輯迴歸是用於概率分類的衆所周知的統計模型。對於條件依賴關係網絡的參數學習,我們訓練k邏輯迴歸分類器和每個p(yi=±1x,y¬i,θi)p \left( y _ { i } = \pm 1 | \mathbf { x } , \mathbf { y } _ { \neg i } , \boldsymbol { \theta } _ { i } \right)

可以通過最大化訓練數據的正則化可能性來訓練模型參數
maxθi=1tlogp(yix,y¬i,θi)λ2(θiθi) \max _ { \boldsymbol { \theta } _ { i } } \sum _ { \ell = 1 } ^ { t } \log p \left( y _ { i } ^ { \ell } | \mathbf { x } ^ { \ell } , \mathbf { y } _ { \neg i } ^ { \ell } , \boldsymbol { \theta } _ { i } \right) - \frac { \lambda } { 2 } \left( \boldsymbol { \theta } _ { i } ^ { \top } \boldsymbol { \theta } _ { i } \right)

4 Gibbs採樣用於近似推導

在訓練的k邏輯迴歸模型之後,得到k個參數{θ1, ,θk}\left\{ \boldsymbol { \theta } _ { 1 } , \cdots , \boldsymbol { \theta } _ { k } \right\},這個時候來輸入一個測試實例x,預測y={y1, ,yk}\mathbf { y } = \left\{ y _ { 1 } , \cdots , y _ { k } \right\},即得到
y=argmaxyp(yx) \mathbf { y } ^ { * } = \arg \max _ { \mathbf { y } } p ( \mathbf { y } | \mathbf { x } )
由於我們的模型是貝葉斯網絡的循環變量,因此我們對條件依賴網絡的推理問題也是NP難的,這是一個很顯然的推論。鑑於完全連通的結構和我們所擁有的廣義條件概率表,Gibbs採樣(對所有其他變量進行採樣,對其進行採樣)對於我們的模型比其他替代方案更合適。

Gibbs採樣通過不斷的迭代,通過條件概率來得出聯合概率,首先給定一個初始值y={y1, ,yk}\mathbf { y } = \left\{ y _ { 1 } , \cdots , y _ { k } \right\},然後通過上一步得到的條件概率模型不斷採樣,最終得到聯合概率

在這裏插入圖片描述

結論

在本文中,我們提出了一種新的廣義條件依賴網絡模型,用於多標籤分類。所提出的條件依賴性網絡是完全連接的雙向圖,其條件分佈使用二元分類器來定義。該模型允許非常簡單的訓練過程,而其表示自然有助於在測試實例上進行簡單的Gibbs採樣推斷。所提出的模型可以包含各種簡單的分類算法,包括概率分類器和非概率分類器。我們在實驗中使用兩個基本分類器,邏輯迴歸和SVM測試了該模型。我們的實證結果表明,所提出的模型在利用多個標籤的依賴性方面非常有效,並且已經證明了優於利用相同標籤共現信息的一些替代多標籤分類方法的優越性能。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章