【翻譯】Deep Multi-label Classification in Affine Subspaces


在仿射子空間中的深度多標籤分類

摘要

在醫學成像的背景下,多標籤分類(MLC)問題變得越來越普遍。 這部分地受到以下事實的驅動:爲MLC獲取註釋要比進行語義分割要麻煩得多,但是比多類分類提供更多的表達能力。 但是,爲了訓練MLC,大多數方法都採用了與傳統多類別分類設置相似的目標函數。 我們在這項工作中表明,這種方法不是最佳方法,於是我們在仿射子空間中提出了一種新的深度MLC分類方法。 該方法的核心是嘗試將類標籤的特徵拉向不同的仿射子空間,同時最大化它們之間的距離。 我們使用兩個MLC醫學成像數據集評估了該方法,與以前的多標籤框架相比,該方法顯示出較大的性能提升。 該方法可以看作是 plug-in replacement loss function,並且可以端到端的方式進行訓練。

介紹

近年來,多標籤分類(MLC)任務在醫學成像中獲得了重視。本質上,MLC專注於訓練預測功能,該功能可以使用不一定互斥的多個標籤來標記圖像數據[1](即MLC的含義,多個標籤可以同時進行標記)。隨着深度學習的到來,在胸部X射線標籤[2],疾病合併症的識別[3]和視網膜圖像表徵[4]方面 令人印象深刻的性能。但是,MLC的核心仍舊需要我們挑戰,因爲一種方法需要能夠預測的大量可能的標籤組合,並且即使某些輸出配置很重要,某些輸出配置也可能極爲罕見。例如,對於如圖1所示的具有11個二進制標籤的MLC任務,可能的預測配置結果的數量爲2^{11}。鑑於爲大型數據集生成註釋通常既耗時又昂貴,因此MLC常見訓練集沒有衆多標籤組合的示例(即,每個樣例的標籤的數量不多)。

爲了克服這些缺點,我們提出了一種新穎的MLC框架,與大多數傳統方法試圖通過分隔不同標籤的決策邊界來區分訓練樣本不同,我們的方法是強制將具有相同標籤值的樣本置於專用子空間上。爲此,我們引入了一種新穎的損失函數,該函數一方面強制具有相同標籤值的樣本靠近同一子空間,另一方面又使不同的子空間彼此分開。 因此,當通過使用我們的方法訓練神經網絡(NN),可以將樣本拉向學習的子空間,並且可以通過密度估計方法輕鬆地對其進行分類。 爲了證明這一點,我們使用通用的NN架構在兩個MLC任務(即OCT生物標誌物分類和胸部X射線標記)上驗證了我們的方法。 我們證明,對於相同的任務,我們的方法比許多最新方法具有更好的性能。

方法

在MLC中,每個輸入圖像x\in \mathbb{R}^{h\times w \times c}具有n個不同的二元標籤y=(y_{0},\cdots ,y_{n}),其中y_{i} \in \left \{ 0 ,1\right \}。目標是找到一個深層網絡

f:\mathbb{R}^{h \times w \times c}\rightarrow \left [ 0,1 \right ]^{n}使得f(x)_{i}是輸入圖像x的標籤y_{i}爲1的估計概率。爲方便起見,我們將深度網絡表示爲以下兩個函數的組合:f=g\circ h特徵提取函數h:\mathbb{R}^{h \times w \times c} \rightarrow \mathbb{R}^{d}爲給定圖像x構建d維描述符向量,而g:\mathbb{R}^{d}\rightarrow \left [ 0,1 \right ]^{n}多輸出二進制分類器。通常,g是標準多輸出邏輯迴歸,g(z)=\sigma (Vz+v),(1)其中V\in \mathbb{R}^{n \times d}v\in \mathbb{R}^{n}定義從特徵空間到特徵空間的仿射變換映射。 \mathbb{R}^{n}\sigma是提供元素的邏輯函數最終概率。在這種情況下,邏輯迴歸使用n個不同的(d-1)維超平面分割特徵空間,每個超平面用於一個標籤,並根據其標籤將每個樣本推向每個超平面的一側。就是說,它在特徵空間中定義了2^{n}個不相交的區域(假設(d\geq n)d \geq n),每個可能的標籤組合都一個,並將樣本移至它們相應的區域,如圖2(左)所示。我們要求,這個過程並不完全適合於MLC兩種基本的原因:(1)超平面分割的區域高度不規則,有些事無界的,有些又很小。這導致標籤的某些組合比要素空間中的其他組合更容易表示。 (2)對於相同標籤的樣本,邏輯迴歸不能促進特徵向量相似。相反,它僅強制樣本落在超平面的正確一側。

爲了解決這些問題,我們引入了新的仿射子空間多標籤分類器(AS-MLC)。 我們的方法不是將點推向不同的區域,而是將點拉向不同的仿射子空間。 這個簡單的想法解決了上述兩個問題。 首先,所有仿射子空間在維度上都是同質的,因此沒有標籤的組合比其他標籤更容易表示。 其次,向仿射子空間拉動點使它們在特徵空間中具有相似性,這個相似性即到子空間的距離。

形式上,對於每個標籤i,我們定義兩個平行的(d-e)維仿射子空間(W_{i},b_{i0})(W_{i},b_{i1}),由e個超平面的交點確定,其中W_{i}\in \mathbb{R}^{e \times d}是共享超平面的法向量,b_{i0},b_{i1}\in \mathbb{R}^{e}是兩個子空間的偏置項。 對於給定的標籤iy_{i}=0的點將被拉向(W_i,b_{i0})y_i=1的點將被拉向(W_i,b_{i1})

訓練:爲了訓練我們的方法,我們首先使用以下損失函數項, 來最小化樣本到其相應子空間的距離,

                                                                        \imath _1(x,y)=\sum_{i=1}^{n}\alpha _{i,y_i}\left \| W_iz+b_{i,y_I} \right \|_{2}^{2}(2)

其中z=h(x)\alpha是類別標籤的特定權重。 同時,我們還希望與同一標籤相對應的子空間彼此儘可能遠離。 這可以用額外的形式化成損失項,

                                                                           \imath _2=\sum_{i=1}^{n}\frac{1}{\left \| b_{i0}-b{i1} \right \|_2^2+\epsilon }(3)

該損失項可以最大化平行子空間之間的距離。 最後,爲了避免減小權重的大小使得損失項最小,我們添加了一個正則化項來強制法線具有單位大小,

                                                                          \imath _3=\sum_{i=1}^{n}tr\left | W_iW_i^T -I\right |(4)

其中| ·| 是逐元素的絕對值,I是單位矩陣,tr是矩陣的跡。 給定圖像的訓練數據集\left \{ x^{(k)},y^{(k)} \right \}_{k=1}^K及其相應的標籤,訓練過程將這三項的加權和最小化:

                                                                          arg \underset{\theta ,\phi }{min}\frac{1}{K}\sum_{k=1}^{K}\imath _1(x^{k},y^{(k)})+\beta \imath _2+\imath _3(5)

其中\theta是特徵提取器h的參數,\beta爲距離加權超參數和\phi =\left \{ (W_i,b_{i0},b_{i1}) \right \}_{i=1}^{n}是我們的AS-MLC的權重和偏差項。此損失函數可以端到端的方式訓練。訓練後,2 n個學習的子空間的交點定義2^n  (d-n \cdot e)維仿射子空間,每個組合標籤一個。有關n=d=2e=1的示例,請參見圖2(右)。在這種情況下,最終的子空間是0維的,即點。

 

推論:在測試時,可以使用到每個子空間的距離之比作爲分配每個標籤概率的標準(我們將此方法表示爲AS-MLC-Distance)。 但是,我們發現,數據驅動的方法在實踐中可以達到更好的性能。 因此,對於每個標籤i和類別j,我們使用預計的訓練數據建立可能性的核密度估計,

                                                                p(W_iz|y_i=j)=\frac{1}{K}\sum_{k=1}^{K}G_\delta (W_i(z-z^{(k)}))(6)

其中G_\delta是帶寬爲\delta的高斯核,z^{(k)}=h(x^{(k)})是訓練數據的第k個元素的描述符向量,而z=h(x)是該訓練數據的描述符向量 輸入圖像。 注意,不需要偏置項來定義密度,因爲它們被隱式地編碼在描述符向量\left \{ z^{(k)} \right \}_{k=1}^K的集合中。
我們定義後驗(假設先驗統一)

                                                                  g(z)_i\equiv P(y_i=1|W_iz)=\frac{p(W_iz|y_i=1)}{\sum _{j\in {0,1}}p(W_iz|y_i=j)}(7)

它是多標籤二進制分類器g的第i個輸出。

 

實驗

爲了評估我們提出的方法的性能,我們在兩個醫學MLC圖像數據集上進行了實驗。

數據集1 – OCT Biomarker Identification

該數據集包括對視網膜的體積光學相干斷層掃描(OCT)掃描,並帶有11個病理學生物標記標籤。數據分別分爲用於訓練和測試集的23'030和1'029圖像,兩次均無患者圖像。圖像標籤包括:健康,視網膜下液,視網膜內液,視網膜內囊腫,高反射竈,玻璃疣,網狀假性粉刺,上瞼膜,地理萎縮,視網膜外萎縮和纖維血管性PED。圖1(左)顯示了一個存在兩個生物標誌物的訓練示例。爲了將我們的方法與現有方法進行比較,我們使用兩種不同的NN體系結構評估了多個基準:預先訓練的DRND-54 [10]和ResNet-50 [11]。使用Adam優化器[12]以10-3的基本學習率訓練所有方法。我們對所有實驗都採用相同的數據增強方案(翻轉,旋轉,平移,伽瑪和亮度)。通過5倍交叉驗證報告結果,其中訓練數據分爲訓練80%和驗證20%。使用的基準包括:

Softmax:每個標籤的兩類輸出,使用softmax運算符進行歸一化,並優化了二進制交叉熵損失。
Ranking:我們使用Li等人描述的排名損失。 [7]。 由於排名損失通常是有閾值的,因此在訓練和測試過程中我們會忽略此閾值並將輸出範圍定爲0到1之間。我們承認這對排名方法是不利的,但爲了比較而將其包括在內。
ML-KNN:我們應用距離權重的kNN(N =50)到z從提取[6]中的Softmax方法。
AS-MLC:我們設定β=5,α=1和e=32的高斯核密度,估計帶寬設置爲δ= 0.1,並使用訓練圖像及其水平翻轉版本的特徵。 我們還與距離函數方法AS-MLC-Distance進行了比較。

表1給出了平均平均精度(mAP)結果,表明我們提出的方法優於所有指標和兩個網絡常用的損失函數。 當使用和不使用測試時間數據增強(原始圖像+左/右翻轉)時,我們展示了微觀和宏觀平均結果。 使用我們的方法,與softmax交叉熵損失相比,我們看到的性能提高了5.7%。 在圖3(左)中,我們展示了使用10倍交叉驗證時的帶寬δ值。 在這裏,我們看到除非帶寬值選擇得太小,否則對於寬範圍的值,性能都將保持穩定。 同樣,我們還分析了特徵空間e的大小的影響,我們認爲這是附加的超參數。 從圖3(右)可以得出結論,極小的特徵空間大小不足以用於我們的方法,但是對於大於5的值,性能始終很高。

數據集2 – ChestX-ray14

數據集包含與14種不同標籤相關的112'120 X射線掃描結果[2]。 數據根據原始的患者級別數據拆分進行拆分,這導致70%的訓練,10%的確認和20%的測試集。 我們將圖像調整爲512×512像素,並使用Adam優化器優化網絡[12]。 在這種情況下,我們會比較加權的交叉熵損失,並將加權項α添加到類別標籤中,因爲數據中存在明顯的類別不平衡(即權重等於逆類出現)。 對於所有實驗,我們都使用DRND-54 [10] CNN作爲基礎架構。 我們固定超參數β= 5,並使用交叉驗證(δ= 1.0)找到最佳帶寬。

表2給出了我們的AS-MLC方法的結果,得出的結果爲0.8008平均AUC。 因此,在平均ROC值方面,我們的方法優於softmax交叉熵損失近3%。 使用標準網絡的這些結果在以前發佈的最新結果的範圍內,該結果使用了大量的其他訓練數據[13](0.806),基於attention的模型[14,15](0.8027和0.816)以及顯著 勝過原著[2]。

結論

我們提出了AS-MLC,這是一種新穎的MLC方法,它試圖通過在仿射子空間中進行分類來克服經典MLC方法的缺點。 爲此,我們提出了一種新穎的損失函數,該函數將類標籤拉向仿射子空間並最大化其距離。 我們在兩個數據集上評估了我們的方法,並表明它始終優於最新方法。 提出的方法是標準深度學習體系結構的插件替代,可以使用標準反向傳播來端到端學習。 將來我們希望研究如何從預測中提取注意力圖,因爲諸如GradCAM [16]之類的方法的應用已不再直接適用。
 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章