多標籤學習綜述

文章目錄

多標籤學習綜述（A review on multi-label learning algorithms）

多標籤學習綜述（A review on multi-label learning algorithms）

2014 TKDE(IEEE Transactions on Knowledge and Data Engineering)

張敏靈，周志華

簡單介紹

傳統監督學習主要是單標籤學習，而現實生活中目標樣本往往比較複雜，具有多個語義，含有多個標籤。本綜述主要介紹了多標籤學習的一些相關內容，包括相關定義，評價指標，8個多標籤學習算法，相關的其它任務。

論文大綱

相關定義：學習任務，三種策略
評價指標：基於樣本的評價指標，基於標籤的評價指標
學習算法：介紹了8個有代表性的算法，4個基於問題轉化的算法和4個基於算法改進的算法
相關任務：多實例學習，有序分類，多任務學習，數據流學習

評價指標

略

學習算法

可分爲兩類（具體算法如下圖所示）

問題轉換的方法：把多標籤問題轉爲其它學習場景，比如轉爲二分類，標籤排序，多分類
算法改編的方法：通過改編流行的學習算法去直接處理多標籤數據，比如改編懶學習，決策樹，核技巧。

Binary Relevance

把多個標籤分離開來，對於q個標籤，建立q個數據集和q個二分類器來進行預測。
這是最簡單最直接的方法，是其它先進的多標籤算法的基石。
沒有考慮標籤之間的關聯性，是一個一階策略（first-order）

Classifier Chains

首先按特定的順序（這個順序是自己決定的）對q個標籤排個序，得到yτ(1)≻yτ(2)≻…≻yτ(q)。對於第j個標籤yτ(j)構建一個二分類的數據集。
$D_{\tau(j)}=\{ ([x^i, pre^i_{\tau(j)}], 1\{ y_{\tau(j)} \in y^i \}) \; | \; 1 \leq i \leq m\} \\ where \ pre^i_{\tau(j)}=(1\{ y_{\tau(1)} \in y^i \},...,1\{ y_{\tau(j-1)} \in y^i \})^T$
第j個標籤構建的二分類數據集中， $x^i$ 會concat上前j-1個標籤值。
以這樣chain式的方法構建q個數據集，訓練q個分類器。
在預測階段，由於第j個分類器需要用到前j-1個分類器預測出的標籤集，所以需要順序調用這q個分類器來預測。

顯然算法的好壞會受到順序τ的影響，可以使用集成的方式，使用多個隨機序列，對每個隨機序列使用一部分的數據集進行訓練。
雖然該算法把問題分解成多個二分類，但由於它以隨機的方式考慮了多個標籤之間的關係，所以它是一個高階策略（high-order）。
該算法的一個缺點是丟失了平行計算的機會，因爲它需要鏈式調用來進行預測

Calibrated Label Ranking

算法的基本思想是把多標籤學習問題轉爲標籤排序問題，該算法通過“成對比較”來實現標籤間的排序。
對q個標籤，可以構建q(q-1)/2個標籤對，所以可以構建q(q-1)/2個數據集。
$D_{jk} = \{ (x_i, \psi (y^i, y_j, y_k)) \; | \; \phi (y^i, y_j) \neq \phi (y^i, y_k), 1 \leq i \leq m \} \\ where \ \psi (y^i, y_j, y_k)) = \left\{\begin{matrix} +1, & if \ \phi (y^i, y_j) = +1 \ and \ \phi (y^i, y_k) = -1\\ -1, & if \ \phi (y^i, y_j) = -1 \ and \ \phi (y^i, y_k) = +1 \end{matrix}\right. \\ \phi (y^i, y_j) = \left\{\begin{matrix} +1 & if \ y_j \in y^i\\ -1 & else \end{matrix}\right.$

只有帶有不同相關性的兩個標籤 $y_j$ 和 $y_k$ 的樣本纔會被包含在數據集 $D_{jk}$ 中，用該數據集訓練一個分類器，當分類器返回大於0時，樣本屬於標籤 $y_j$ ，否則屬於標籤 $y_k$ 。
可以看到，每個樣本 $x_i$ 會被包含在 $\left | y^i \right | \left | \overline{y^i} \right |$ 個分類器中。
在預測階段，根據分類器，每個樣本和某個標籤會產生一系列的投票，根據投票行爲來做出最終預測。
前面構造二分類器的方法使用one-vs-rest的方式，本算法使用one-vs-one，緩和類間不均衡的問題。
缺點在於複雜性高，構建的分類器個數爲 $q(q-1)/2$ ，表現爲二次增長。
考慮兩個標籤之間的關聯，是二階策略（second-order）

Random k-Labelsets

算法的基本思想是把多標籤學習問題轉爲多分類問題。把 $2^q$ 個可能的標籤集，映射成 $2^q$ 個自然數。
映射函數記爲 $σ_Y$ ，則原數據集變爲
$D^+_Y={(x^i,σ_Y(y^i)) | 1≤i≤m}$
所對應的新類別記爲
$\Gamma(D^+_Y) = { \sigma_Y(y^i) | 1 \leq i \leq m}， \left | \Gamma(D^+_Y) \right | \leq min(m, 2^{|Y|})$
這樣來訓練一個多分類器，最後根據輸出的自然數映射回標籤集的算法稱爲LP（Label Powerest）算法，它有兩個主要的侷限性

LP預測的標籤集是訓練集中已經出現的，它沒法泛化到未見過的標籤集
類別太大，低效

爲了克服LP的侷限性，Random k-Labelsets使用的LP分類器只訓練Y中的一個長度爲k的子集，然後集成大量的LP分類器來預測。
$Y^k$ 表示 $Y$ 的所有的長度爲 $k$ 的子集， $Y^k(l)$ 表示隨機取的一個長度爲 $k$ 的子集，這樣就可以進行收縮樣本空間，得到如下樣本集和標籤集。
$D^+_{Y^k(l)}= \{ (x^i, \sigma_{Y^k(l)}(y^i \cap Y^k(l) )) \ | \ 1 \leq i \leq m \}$
$\Gamma(D^+_{Y^k(l)})= \{ \sigma_{Y^k(l)}(y^i \cap Y^k(l) ) \ | \ 1 \leq i \leq m \}$
更進一步，我們隨機取n個這樣的子集：
$Y^k(l_r), 1 \leq r \leq n$
來構造n個分類器做集成。
最後預測的時候需要計算兩個指標，一個爲標籤j能達到的最大投票數，一個爲實際投票數。
$\tau(x, y_j) = \sum_{r=1}^{n} 1\{ y_j \in Y^k(l_r)\}$
$\mu (x, y_j) = \sum_{r=1}^{n} 1\{ y_j \in \sigma_{Y^k(l)}^{-1}(g^+_{Y^k(l)}(x) )\}$
其中$ \sigma_{Y^k(l)}{-1}(\cdot)表示從自然數映射回標籤集的函數，g^+(\cdot)$表示分類器學習到的函數。最後預測的時以0.5爲閾值進行預測，得到標籤集。
$y = \{ y_j \ | \ \mu (x, y_j) \ / \ \tau(x, y_j) > 0.5\ , \ 1 \leq j \leq q\}$
因爲是隨機長度爲k的子集，考慮了多個標籤之間的相關性，所以是高階策略（high-order）。

Multi-Label k-Nearest Neighbor（ML-KNN）

用 $N(x)$ 表示 $x$ 的 $k$ 個鄰居，則 $C_j=∑(x,y)∈N(x)1{yj∈y}$ 表示樣本 $x$ 的鄰居中帶有標籤 $y_j$ 的鄰居個數。用 $H_j$ 表示樣本 $x$ 含有標籤 $y_j$ ，根據後驗概率最大化的規則，有
$y = \{y_j \ | \ P(H_j \ | \ C_j)\ / \ P(\urcorner H_j \ | \ C_j) > 1 \ , \ 1 \leq j \leq q \}$
根據貝葉斯規則，有
$\frac{P(H_j \ | \ C_j)} {P(\urcorner H_j\ | \ C_j)} = \frac {P(H) \cdot P(C_j \ | \ H_j)} {P(\urcorner H) \cdot P(C_j \ | \ H_j)}$
先驗概率 $P(H_j),P(\urcorner H_j)$ 可以通過訓練集計算得到，表示樣本帶有或不帶有標籤 $y_q$ 的概率
$P(H_j) = \frac { s + \sum_{i=1}^{m} 1\{ y_j \in y^i \} } {s \times 2 + m} \\ P(\urcorner H_j) = 1 - P(H_j) \ \ (1 \leq j \leq q)$
其中s是平滑因子，s爲1時則使用的是拉普拉斯平滑。
條件概率的計算需要用到兩個值
$\kappa_j[r] = \sum_{i=1}^{m} 1\{ y_j \in y^i \} \cdot 1\{ \delta_j(x^i) = r \} \ \ \ \ (0 \leq r \leq k) \\ \tilde{\kappa}_j[r] = \sum_{i=1}^{m} 1\{ y_j \notin y^i \} \cdot 1\{ \delta_j(x^i) = r \} \ \ \ \ (0 \leq r \leq k) \\ where \ \ \delta_j(x^i) = \sum_{(x^*,y^*) \in N(x^i)} 1 \{y_j \in y^*\}$
$\kappa_j[r]$ 表示“含有標籤 $y_j$ 而且 $r$ 個鄰居也含有標籤 $y_j$ 的”樣本的個數。
$\tilde{\kappa}_j[r]$ 表示“不含有標籤 $y_j$ 但是 $r$ 個鄰居含有 $y_j$ 的”樣本的個數。
根據這兩個值，可以計算相應的條件概率
$P(C_j \ | \ H_j) = \frac{s+\kappa_j[C_j]} {s \times (k+1) + \sum_{r=0}^{k} \kappa_j[r]} \ \ (1 \leq j \leq q, 0 \leq C_j \leq k) \\ P(C_j \ | \ \urcorner H_j) = \frac{s+\tilde{\kappa}_j[C_j]} {s \times (k+1) + \sum_{r=0}^{k} \tilde{\kappa}_j[r]} \ \ (1 \leq j \leq q, 0 \leq C_j \leq k)$

這兩個條件概率表示的是，樣本帶有或不帶有標籤 $y_j$ 的條件下，它有 $C_j$ 個鄰居帶有標籤 $y_j$ 的概率。

由上述的條件概率，先驗概率則可以根據貝葉斯規則和後驗概率最大化，計算出樣本的標籤集
需要注意的是該方法不是KNN和獨立二分類的簡單結合，因爲算法中還使用了貝葉斯來推理鄰居信息
沒有考慮標籤之間的相關性，是一階策略（first-order）

Multi-Label Decision Tree（ML-DT）

使用決策樹的思想來處理多標籤數據，數據集 $T$ 中，使用第 $l$ 個特徵，劃分值爲 $\vartheta$ ，計算出如下信息增益：
$IG(T, l, \vartheta ) = MLEnt(T) - \sum_{\rho \in \{-, +\} } \frac{|T^{\rho }|} {\left | T \right |} \cdot MLEnt(T^{\rho}) \\ where \ \ T^- = \{ (x^i, y^i) \ | \ x_{il} \leq v, 1 \leq i \leq n\} \\ where \ \ T^+ = \{ (x^i, y^i) \ | \ x_{il} \gt v, 1 \leq i \leq n\}$

遞歸地構建一顆決策樹，每次選取特徵和劃分值，使得上式的信息增益最大。
其中式子中的熵的公式可以按如下計算（爲了方便計算，假定標籤之間獨立）。
$MLEnt(T) = \sum_{j=1}^{q} -p_j log_2p_j - (1-p_j)log_2(1-p_j) \\ where \ \ p_j= \frac {\sum_{i=1}^{n} 1\{ y_j \in y^i \}} {n}$

新樣本到來時，向下遍歷決策樹的結點，找到葉子結點，若pj大於0.5則表示含有標籤yj
該算法不是決策樹和獨立二分類的簡單結合（如果是的話，應該構建q棵決策樹）
沒有考慮標籤的相關性，是一階策略（first-order）

Ranking Support Vector Machine（Rank-SVM）

使用最大間隔的思想來處理多標籤數據。
Rank-SVM考慮系統對相關標籤和不相關標籤的排序能力。
考慮最小化 $x^i$ 到每一個“相關-不相關”標籤對的超平面的距離，來得到間隔。
$\min_{(x^i, y^i) \in D} \min_{(y_j, y_k) \in y^i \times \overline{y^i}} \frac{ \langle w_j-w_k,x^i \rangle +b_j-b_k}{\left \| w_j - w_k\right \|}$
像SVM一樣對w和b進行縮放變換後可以對式子進行改寫，然後最大化間隔，再調換分子分母進行改寫，得到：
$\begin{matrix} \min_{w} & \max_{1 \leq j < k \leq q} {\left \| w_j - w_k\right \|^2}\\ subject\ to: & \; \langle w_j - w_k, x^i \rangle + b_j - b_k \geq 1 \\ & (1 \leq i \leq m, \ \ (y_i,y_k) \in y^i \times \overline{y^i}) \end{matrix}$
爲了簡化，用sum操作來近似max操作
$\begin{matrix} \min_{w} & \sum_{j=1}^q {\left \| w_j \right \|^2}\\ subject\ to: & \; \langle w_j - w_k, x^i \rangle + b_j - b_k \geq 1 \\ & (1 \leq i \leq m, \ \ (y_i,y_k) \in y^i \times \overline{y^i}) \end{matrix}$

跟SVM一樣，爲了軟間隔最大化，引入鬆弛變量，得到下式：
$\begin{matrix} \min_{w, \Xi } & \sum_{j=1}^q {\left \| w_j \right \|^2} + C \sum_{i=1}^m \frac {1}{\left | y^i \right | \left | \overline{y^i} \right | } \sum_{(y_i,y_k) \in y^i \times \overline{y^i})} \xi _{ijk} \\ subject\ to: & \; \langle w_j - w_k, x^i \rangle + b_j - b_k \geq 1 - \xi _{ijk}\\ & \xi _{ijk} > 0 \ (1 \leq i \leq m, \ \ (y_i,y_k) \in y^i \times \overline{y^i}) \end{matrix} \\ 其中\Xi = \{ \xi_{ijk} \ | \ 1 \leq i \leq m, \ (y_i,y_k) \in y^i \times \overline{y^i} \}$

跟SVM一樣，最終的式子是一個二次規劃問題，通常調用現有的包來解。
對於非線性問題則使用核技巧來解決。
由於定義了”相關-不相關“標籤對的超平面，這是個二階策略（second-order）

Collective Multi-Label Classifier（CML）

該算法的核心思想最大熵原則。用 $(x,y)$ 表示任意的一個多標籤樣本，其中 $y = (y_1, y_2, ..., y_q) \in \{-1, +1\}^q$ 算法的任務等價於學習一個聯合概率分佈 $p(x,y)$ ，用 $H_p(x,y)$ 表示給定概率分佈 $p$ 時 $(x,y)$ 的信息熵。最大熵原則認爲熵最大的模型是最好的模型。
$\begin{matrix} &\max_{p} H_p(x,y) \\ &subject \ to: E_p[f_k(x,y)] = F_k \ (k \in K) \end{matrix}$
其中 $f_k(x,y)$ 是一個特徵函數，描述 $x$ 和 $y$ 之間的一個事實 $k$ ，滿足這個事實時返回1，否則返回0。約束做的是希望這個分佈上，特徵函數的期望能夠等於一個我們希望的值 $F_k$ ，這個值通常通過訓練集來估計。解這個優化問題，會得到
$p(y|x) = \frac{1}{Z_{\Lambda}(x) } exp(\sum_{k \in K} \lambda_k \cdot f_k(x,y))$
其中 $Λ={λk|k∈K}$ 表示一系列的權重。 $Z_{\Lambda} = \sum_y exp(\sum_{k \in K} \lambda_k \cdot f_k(x,y)) 作爲規範化因子。假設有一個高斯先驗\lambda_k \sim N(0, \varepsilon^2)，就可以通過最大化以下這個log後驗概率來求得參數\Lambda$ 。
$\begin{matrix} l(\Lambda | D) & = log P(D|\Lambda) + log P(\Lambda) \\ & = log \prod_{(x,y) \in D} p(y|x) + log P(\Lambda) \\ & = log(\prod_{(x,y) \in D} p(y|x)) - \sum_{k \in K} \frac {\lambda^2}{2 \varepsilon^2} \\ \end{matrix}$

這是個凸函數，可以調用現成的無約束優化方法比如BFGS直接求解。求得參數就可以得到要學習的概率分佈 $p(y|x)$ 。
對於一系列約束K，分爲兩個部分
$K_1 = \{ (l,j) | 1 \leq l \leq d, 1 \leq j \leq q\}$ ，有 $d⋅q$ 個約束，特徵函數爲
$f_k(x,y) = x_l \cdot 1 \{ y_j == 1 \} , \ \ k = (l,j) \in K_1$
$K_2 = { (j_1, j_2, b_1, b_2) | 1 \leq j_1 < j_2 \leq q, b_1, b_2 \in { -1, +1 } }$ ，有 $4 \cdot \binom{q}{2}$ 個約束，特徵函數爲
$f_k(x,y) = 1 \{ y_{j1} = b_1 \} \cdot 1 \{ y_{j2} = b_2 \}, \ \ k = (j_1, j_2, b_1, b_2) \in K_2$
由於K約束中考慮了標籤對之間的關聯，該算法是個二階策略（second-order）。

總結

論文主要介紹了多標籤學習的一些概念定義，策略，評價指標，以及8個有代表性的算法，其中對多種評價指標和多個算法都做了清晰的分類和詳細的闡述。
儘管挖掘標籤關聯性的想法被應用到許多算法中，但是仍然沒有一個正式的機制。有研究表示多標籤之間的關聯可能是非對稱的（我對你的影響和你對我的影響是不同的），局部的（不同樣本之間的標籤相關性不同，很少關聯性是所有樣本都滿足的）。
但是不管怎麼說，充分理解和挖掘標籤之間的相關性，是多標籤學習的法寶。尤其是巨大輸出空間場景下。

多標籤學習綜述

文章目錄

多標籤學習綜述（A review on multi-label learning algorithms）

2014 TKDE(IEEE Transactions on Knowledge and Data Engineering)

簡單介紹

論文大綱

相關定義

學習任務

三種策略

評價指標

學習算法

Binary Relevance

Classifier Chains

Calibrated Label Ranking

Random k-Labelsets

Multi-Label k-Nearest Neighbor（ML-KNN）

Multi-Label Decision Tree（ML-DT）

Ranking Support Vector Machine（Rank-SVM）

Collective Multi-Label Classifier（CML）

相關任務

總結

leetcode-hard記錄44. Wildcard Matching

Multi-Label Adversarial Perturbations

曠視2019CVPR-Multi-Label Image Recognition with Graph Convolutional Networks

leetcode記錄48.Rotate Image

leetcode記錄22. Generate Parentheses

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結