讀論文:fPML,ML-JMF

兩篇ICDM 2018機器學習的論文,來自http://mlda.swu.edu.cn/publication.php

  • 首先記錄短文(簡稱fPML)
  • 再寫長文(簡稱ML-JMF)
  • 最後總結一下異同 (ongoing)

Feature-induced Partial Multi-label Learning (fPML)

ICDM 2018

Problem

  • However, the performance of multi-label learning may be compromised by noisy (or incorrect) labels of training instances.

  • the ground-truth labels are concealed in a set of candidate noisy labels, the number of ground-truth labels is also unknown.

Most relevant

  • partial multi-label learninl [Xie et al. AAAL, 2018]
  • to optimize the label confidence values and the relevance ordering of labels of each instance by exploiting structural information in feature and label spaces, and by minimizing the confidence weighted ranking loss.
  • However, it has to simultaneously optimize multiple binary predictors and a very large number of confidence rankings of candidate label pairs; hence, suffers from heavy computational costs

Motivetion

Why

  • Since labels are correlated, the label correlation and the ground-truth instance-label association matrices have a linear dependence structure, and thus they are low-rank [Zhu et al, TKDE, 2018, Xu et al, ICDM, 2014]
  • The low-rank approximation of a noisy matrix is robust to noise [Konstantinides et al, TIP, 1997, Meng et a, ICCV, 2013]

How

  • We seek the ground- truth instance-label association matrix via learning the low- rank approximation of the observed association matrix, which contains noisy associations.
  • The labels of an instance depend on its features, and thus the features of instances should be used to estimate noisy labels.

Method

  • 主要思想是假設一個沒噪聲的 Y^\widehat{\mathbf{Y}} ,用矩陣分解強制分解成低秩的 S\mathbf{S}G\mathbf{G}
    Y^SGT(1) \widehat{\mathbf{Y}} \simeq \mathbf{S G}^{T} \tag{1}
    注意這兩個矩陣的維度,

    • SRq×k\mathbf{S} \in \mathbb{R}^{q \times k} 意義是把 qq 個label映射成 kk 個新的label
    • GRn×k\mathbf{G} \in \mathbb{R}^{n \times k} 表示將 nn 個樣本映射成 kk 個樣本
  • 此時目標函數是2式,
    minS,GYSGTF2(2) \min _{\mathbf{S}, \mathbf{G}}\left\|\mathbf{Y}-\mathbf{S G}^{T}\right\|_{F}^{2} \tag{2}

  • 到目前爲止僅利用了 label信息, 作者此時的創新是利用了原始數據 X\mathbf{X} 的 feature信息,對 G\mathbf{G} 進行了約束(原文是說sharing G\mathbf{G}),加了一層線性變換,參數是 F\mathbf{F},變成了3式。
    minS,F,GYSGTF2+λ1XFGTF2(3) \min _{\mathbf{S}, \mathbf{F}, \mathbf{G}}\left\|\mathbf{Y}-\mathbf{S G}^{T}\right\|_{F}^{2}+\lambda_{1}\left\|\mathbf{X}-\mathbf{F} \mathbf{G}^{T}\right\|_{F}^{2} \tag{3}
    學習 FRd×k\mathbf{F} \in \mathbb{R}^{d \times k} 是用來抓特徵之間的相互關係,λ1\lambda_{1} 起調控作用

  • 最後爲了將label映射回去, 加了一層線性操作 W\mathbf{W},4式,轉化成了5式
    minWYWTXF2(4) \min _{\mathbf{W}}\left\|\mathbf{Y}-\mathbf{W}^{T} \mathbf{X}\right\|_{F}^{2} \tag{4}

    minWSGTWTXF2(5) \min _{\mathbf{W}}\left\|\mathbf{S G}^{T}-\mathbf{W}^{T} \mathbf{X}\right\|_{F}^{2} \tag{5}

  • 最後將3,5式加起來,並對 W\mathbf{W} 進行 l1l_1 norm,得到最終loss,通過迭代優化求解

minS,F,G,WYSGTF2+λ1XFGTF2+λ2SGTWTXF2+λ3W1 s.t. S0,G0(6) \begin{aligned} \min _{\mathbf{S}, \mathbf{F}, \mathbf{G}, \mathbf{W}}\left\|\mathbf{Y}-\mathbf{S G}^{T}\right\|_{F}^{2}+\lambda_{1}\left\|\mathbf{X}-\mathbf{F} \mathbf{G}^{T}\right\|_{F}^{2} & \\+\lambda_{2}\left\|\mathbf{S} \mathbf{G}^{T}-\mathbf{W}^{T} \mathbf{X}\right\|_{F}^{2}+\lambda_{3}\|\mathbf{W}\|_{1} \\ \text { s.t. } \mathbf{S} \geq 0, \mathbf{G} \geq 0 \end{aligned} \tag{6}

  • 解決的問題
    • Y\mathbf{Y} 中的label,如果同時在 Y^\widehat{\mathbf{Y}} 並且confidence很低的話,可能是noisy label.
    • 通過 f(x)=WTxf(\mathbf{x})=\mathbf{W}^{T} \mathbf{x} 可以預測 qq 個label的分佈

Multi-Label Answer Aggregation based on Joint Matrix Factorization (ML-JMF)

ICDM 2018

問題

  • 1
    • 工人的個體背景的差異,他們標註的結果可能不同
    • 存在一些亂標註的情況
    • 所以如何得到高質量的標註是衆包中的一個研究重點
  • 2
    • 當前的方法都是針對單標籤的
    • 多標籤通常會又更多的噪聲和偏差
    • 工人不會相互進行覈實?所以結果更局部了
    • 所以評估他們答案的可靠性很難
  • 3
    • 多標籤標註中,標籤的組合存在組合爆炸的影響

方法核心

  • 1
    • 分別對單個工人個體所標註的sample-label進行低秩矩陣分解,
    • motivation: 低秩矩陣分解對噪聲具有魯棒性
  • 2
    • 對每組分解的矩陣進行了加權,
    • motivation: 減少低質量的工人或噪聲對結果的影響,此時作者認爲獨立的工人是存在偏差的
  • 3
    • 利用了label之間的相關性和工人之間的相關性
    • motivation: 一個multi-label樣本的label之間是相關但不同的,有相同背景的工人答案應該是相似的。

方法

  • 假設第 ww 個工人標註的矩陣爲 : Aw(a11wa1cwan1wancw)\mathbf{A}_{w} \triangleq\left(\begin{array}{ccc}{a_{11}^{w}} & {\dots} & {a_{1 c}^{w}} \\ {\vdots} & {\ddots} & {\vdots} \\ {a_{n 1}^{w}} & {\cdots} & {a_{n c}^{w}}\end{array}\right)nn (row) 表示樣本數,cc (column) 表示標籤。ailw{1,0,1}a_{i l}^{w} \in\{-1,0,1\} , 1或者-1表示有無該標籤,0表示沒答案。

  • 根據方法核心1,作者進行了矩陣分解,見2式
    minU,V>0w=1mμwAwUwSVTF2 s.t. w=1mμw=1,μw0(2) \begin{aligned} \min _{\mathbf{U}, \mathbf{V}>0} & \sum_{w=1}^{m} \boldsymbol{\mu}_{w}\left\|\mathbf{A}_{w}-\mathbf{U}_{w} \mathbf{S} \mathbf{V}^{T}\right\|_{F}^{2} \\ & \text { s.t. } \sum_{w=1}^{m} \boldsymbol{\mu}_{w}=1, \boldsymbol{\mu}_{w} \geq 0 \end{aligned} \tag{2}
    F2\|\cdot\|_{F}^{2} 是爲了優化吧,重點是作者強制性把原sample-label矩陣分解成了分別代表sample和label的兩個低秩矩陣: UwRn×k\mathbf{U}_{w} \in \mathbb{R}^{n \times k} 表示了sample,VRc×k\mathbf{V} \in \mathbb{R}^{c \times k} 表示了label,SRk×k\mathbf{S} \in \mathbb{R}^{k \times k} 是爲了保證非負,因爲 ailwa_{i l}^{w} 存在-1。

  • 根據方法核心2,2式中的 μw\boldsymbol{\mu}_{w} 表示權重,爲了避免這種情況:存在一個工人的 AwUwSVF2\left\|\mathbf{A}_{w}-\mathbf{U}_{w} \mathbf{S} \mathbf{V}\right\|_{F}^{2} 特別小,因此按照2式,該工人的 μw=1\boldsymbol{\mu}_{w}=1 ,那麼整體loss w=1m...\sum_{w=1}^{m}... 也就最小了的情況發生,作者對2式加了 l2l_2 成了3式,並且加入λ\lambda 調控,如下:
    minw=1mμwAwUwSVTF2+λμF2 s.t. w=1mμw=1,μw0(3) \begin{aligned} \min \sum_{w=1}^{m} \mu_{w}\left\|\mathbf{A}_{w}-\mathbf{U}_{w} \mathbf{S} \mathbf{V}^{T}\right\|_{F}^{2}+\lambda\|\boldsymbol{\mu}\|_{F}^{2} \\ \text { s.t. } \sum_{w=1}^{m} \mu_{w}=1, \boldsymbol{\mu}_{w} \geq 0 \end{aligned} \tag{3}

  • 根據方法核心3,作者定義出了4式和5式用於約束loss。首先作者利用了多標籤,標籤之間的相關性,對2式分解出來的低秩矩陣 V\mathbf{V} 進一步研究,定義出了4式,如下:
    minv012i,jCijvivj22=tr(VT(DC)V)=tr(VTLV)(4) \begin{aligned} \min _{\mathbf{v} \geq 0} \frac{1}{2} \sum_{i, j} \mathbf{C}_{i j}\left\|\mathbf{v}_{i}-\mathbf{v}_{j}\right\|_{2}^{2} &=\operatorname{tr}\left(\mathbf{V}^{T}(\mathbf{D}-\mathbf{C}) \mathbf{V}\right) \\ &=\operatorname{tr}\left(\mathbf{V}^{T} \mathbf{L} \mathbf{V}\right) \end{aligned} \tag{4}
    CRc×c\mathbf{C} \in \mathbb{R}^{c \times c} 是label之間的相關矩陣,4式就是想讓同一個樣本中的labels在距離空間中越來越近。

  • 然後作者對以相同的思想對 Uw\mathbf{U}_w 進一步研究,定義了5式,
    minUw012wpRwpUwUpF2=wpRwptr((UwUp)T(UwUp))Rwp=tr(A~wA~p)tr(A~wA~w)tr(A~pA~p) s.t. A~w=AwAwTdiag(AwAwT)(5) \begin{aligned} \min _{\mathbf{U}_{w} \geq 0} & \frac{1}{2} \sum_{w \neq p} \mathbf{R}_{w p}\left\|\mathbf{U}_{w}-\mathbf{U}_{p}\right\|_{F}^{2} \\=& \sum_{w \neq p} \mathbf{R}_{w p} \operatorname{tr}\left(\left(\mathbf{U}_{w}-\mathbf{U}_{p}\right)^{T}\left(\mathbf{U}_{w}-\mathbf{U}_{p}\right)\right) \\ & \mathbf{R}_{w p}=\frac{\operatorname{tr}\left(\widetilde{\mathbf{A}}_{w} \widetilde{\mathbf{A}}_{p}\right)}{\sqrt{\operatorname{tr}\left(\widetilde{\mathbf{A}}_{w} \widetilde{\mathbf{A}}_{w}\right) \operatorname{tr}\left(\widetilde{\mathbf{A}}_{p} \widetilde{\mathbf{A}}_{p}\right)}} \\ & \text { s.t. } \quad \widetilde{\mathbf{A}}_{w}=\mathbf{A}_{w} \mathbf{A}_{w}^{T}-\operatorname{diag}\left(\mathbf{A}_{w} \mathbf{A}_{w}^{T}\right) \end{aligned} \tag{5}
    Rwp\mathbf{R}_{w p} 代表第 mm 個和第 pp 個工人的相似度

  • 最後把3,4,5式加起來成了最後的loss,進行迭代求解

  • 解決的問題

    • 通過求解後計算 A=w=1mμwUwSV\mathbf{A}^{*}=\sum_{w=1}^{m} \boldsymbol{\mu}_{w} \mathbf{U}_{w} \mathbf{S} \mathbf{V} 可以通過 μw\boldsymbol{\mu}_{w}=0 減少noisy標註的影響
    • 同時通過低秩矩陣的近似可以remove部分噪聲標註

兩篇文章的異同

  • 總的來說,兩篇文章都是解決multi-label中存在的noisy問題,都是採用的低秩矩陣分解的方法,區別之處在於 ML-JMF 比 fPML 多了一個 worker 的維度,應用的問題背景也不同

    ps: 關於低秩矩陣爲什麼能降低noisy,可以看這個slides: https://people.eecs.berkeley.edu/~yang/courses/ECCV2012/ECCV12-lecture3.pdf

  • 不同之處細節如下

    • fPML label中1,0,ML-JMF是1,0,-1,因此矩陣分解的時候就有差異
    • fPML 是用給予 F\mathbf{F} 去學習特徵之間的關係,ML-JMF 是根據相關性的先驗去約束目標函數
    • fPML 設計有 W\mathbf{W} ,可以映射回標籤,ML-JMF設有 μw\boldsymbol{\mu}_{w} 對worker進行加權

ongoing

因爲剛接觸這個方向,有理解不對的地方還請交流指正

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章