多標籤分類:Multi-label Text Categorization with Joint Learning Predictions-as-Features Method

文章地址:https://www.aclweb.org/anthology/D15-1099.pdf

文章標題:Multi-label Text Categorization with Joint Learning Predictions-as-Features Method(基於聯合學習預測-特徵法的多標籤文本分類)EMNLP2015

文章代碼:https://github.com/algorithmdog/Joint_Learning_Predictions_as_Features_for_Multi_Label_Classification

Abstract

多標籤文本分類是文本分類的一種類型,其中每個文檔被分配到一個或多個類別。近年來,人們開發了一系列的方法,對每個標籤訓練一個分類器,將分類器組織成部分有序結構,並將前一個分類器產生的預測作爲後一個分類器的特徵。這些預測-特徵樣式的方法對高階標籤依賴關係建模並獲得高性能。然而,預測-特性方法有一個缺點在爲一個標籤訓練分類器時,作爲預測-特性方法可以對前一個標籤和當前標籤之間的依賴關係建模,但是不能對當前標籤和後一個標籤之間的依賴關係建模爲了解決這一問題,我們提出了一種新的聯合學習算法,該算法允許反饋從後面標籤的分類器傳播到當前標籤的分類器。我們使用真實的文本數據集進行了實驗,這些實驗證明了我們的算法訓練的作爲特徵的預測模型優於原始模型。

一、Introduction

多標籤文本分類是文本分類的一種類型,其中每個文檔同時被分配到一個或多個類別。多標籤設置在現實世界中很常見也很有用。例如,在新聞分類任務中,報紙上關於全球變暖的文章可以同時分爲環境和科學兩類。再舉個例子,在將音樂歌詞歸類爲情感的任務中,一首歌曲的歌詞可以同時傳遞快樂和興奮。

最近,人們開發了一系列的“預測-特徵”風格的方法,這些方法爲每個標籤訓練一個分類器,以部分有序的結構組織分類器,並將前一個分類器產生的預測作爲後一個分類器的特徵。這些謂詞即功能風格的方法對高階標籤依賴關係進行建模(Zhang and Zhang, 2010),並獲得高性能。分類器鏈(CC) (Read et al., 2011)和利用標籤依賴關係(Lead)的多標籤學習(Zhang and Zhang, 2010)是兩種著名的預測即特徵方法。CC沿着一個鏈組織分類器,並領導在貝葉斯網絡中組織分類器。此外,還有其他關於擴展斷言即特徵方法的著作(Zaragoza et al., 2011;2013年;Sucar等,2014)。在本文中,我們將重點討論預測-特徵樣式方法。

之前的預測-特徵方法的工作重點是學習部分有序結構。他們忽略了一個缺點在爲一個標籤訓練分類器時,作爲特性的謂詞方法可以對前一個標籤和當前標籤之間的依賴關係建模,但是它們不能對當前標籤和後一個標籤之間的依賴關係建模。以三個標籤爲例。我們在圖1所示的部分有序結構中組織分類器。當訓練第二個標籤的分類器時,特徵(圖中粗體的線條)由原始特徵和第一個標籤的預測組成。關於第三個標籤的信息不能合併這意味着我們只對第一個標籤和第二個標籤之間的依賴關係建模,而第二個標籤和第三個標籤之間的依賴關係是缺失的。
在這裏插入圖片描述
圖一:當訓練第二個標籤的分類器時,特徵(粗體線)只包含原始特徵和對第一個標籤的預測。此時,不可能對第二個標籤和第三個標籤之間的依賴關係建模。

爲了解決這一問題,我們提出了一種新的聯合學習算法,該算法允許從後一個標籤的分類器向當前標籤的分類器傳播反饋,這樣就可以合併後一個標籤的信息。這意味着所提出的方法不僅可以將以前的標籤和當前的標籤之間的依賴關係建模爲通常的斷言即特性方法,而且還可以對當前標籤和後一個標籤之間的依賴關係建模。不丟失依賴項。因此,提出的方法將提高性能。實驗結果表明,該算法訓練的模型優於原模型。

二、Joint Learning Algorithm

2.1 Preliminaries

設X爲文檔特徵空間,Y = {0,1}m用m個標籤表示標籤空間。文檔實例x與標籤向量y = (y1, y2,…,ym),其中yi = 1表示文檔有第i個標籤,否則爲0。多標記學習的目標是學習一個函數h。一般來說,h由m個函數組成,其中一個函數代表一個標籤,即, h(x) = [h1(x), h2(x),…hm(x)]。

在預測-特徵的方法中,分類器以部分有序的結構進行組織,並將前一個分類器生成的預測作爲特徵。我們可以將預測-特徵方法中的分類器描述如下:
在這裏插入圖片描述
其中paj表示部分有序結構中第j個分類器的父級集合。

2.2 Architecture and Loss

在這一節中,我們介紹了我們的聯合學習算法的結構和損失函數。作爲一個激勵的例子,我們使用邏輯迴歸作爲預測-特徵方法的基分類器。分類函數爲sigmoid函數,如式(2)所示:
在這裏插入圖片描述
該算法通過最小化全局損失函數來聯合學習局部有序結構中的分類器。我們使用所有分類器的負對數似然損失之和作爲全局損失函數。
在這裏插入圖片描述
聯合算法使該全局損失函數最小化,如式(4)所示:
在這裏插入圖片描述
最小化這個全局損失函數與最小化每個基分類器的損失函數是不相等的,因爲最小化全局損失函數會導致後面分類器的反饋。在以謂詞爲特徵的方法中,第k個分類器的權值不僅是第k個分類器的因子,而且是後一個分類器的因子。因此,在最小化全局損失函數時,第k個分類器的權值不僅根據第k個分類器的損失進行更新,還根據後一個分類器的損失進行更新。換句話說,反饋從後一個分類器傳播到第k個分類器。

我們提出的聯合學習算法訓練的“預測-特徵”模型可以模擬前標籤和當前標籤之間的依賴關係,因爲它們採用前分類器的預測來擴展後分類器的特徵,就像通常的“預測即特徵”方法所做的那樣。此外,由於聯合學習算法所包含的反饋,它們還可以對當前標籤和後一個標籤之間的依賴關係進行建模。

這裏,我們使用邏輯迴歸作爲激勵的例子。如果我們想使用其他的分類模型,我們使用其他的分類函數和其他的損失函數。例如,如果我們想使用L2 SVM作爲基本分類器,我們可以使用線性分類函數和L2鉸鏈損耗函數。

我們使用了通過結構(BTS)的反向傳播(Goller and Kuchler, 1996)來最小化全局損失函數。在BTS中,父節點與子節點在正向傳遞階段進行計算;子節點接收梯度作爲其所有父節點的導數的和。

三、Experiments

3.1 Datasets

在這裏插入圖片描述
表二:多標籤數據集和相關的統計信息。

3.2 Evaluation Metrics

(1)Hamming loss
(2)multi-label 0/1 loss
(3)macro-averaged F score

3.3 Method Setup

在這裏插入圖片描述
表一:每種方法在不同評價指標下的性能(均數±標準時間)

3.4 Performance

在這裏插入圖片描述
表三:根據不同的評價指標(5%顯著性水平下的成對t檢驗),聯合學習算法相對於原始預測-特徵方法的win/tie/loss結果。

3.5 Time

在這裏插入圖片描述
表四:每種方法的平均訓練時間(秒)

四、Conclusion

多標籤文本分類是一種常用的文本分類方法。近年來,人們開發了一系列預測作爲特徵的方法,對高階標籤依賴關係進行建模,從而獲得高性能。作爲功能的謂詞方法有一個缺點,即它們不能對當前標籤和後一個標籤之間的依賴關係建模。爲了解決這一問題,我們提出了一種新的聯合學習算法,允許反饋從後一個分類器傳播到當前分類器。實驗結果表明,該算法訓練的模型優於原模型。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章