一、multi label是什麼?
傳統監督學習主要是單標籤學習,而現實生活中目標樣本往往比較複雜,具有多個語義,含有多個標籤,比如一部電影可以同時被分爲喜劇片和動作片,一則新聞可以同時屬於政治和法律。
二、多標籤任務定義:
X=Rd 表示d維的輸入空間,Y={y1,y2,...,yq}表示帶有q個可能標籤的標籤空間。
訓練數據D(xi,yi), xi是一個d維的向量,yi是Y的一個標籤子集;
學習得到想,y相關聯函數f(xi,yi)
三、多標籤任務的難點
在考慮標籤之間的的關聯性;多標籤學習的主要難點在於輸出空間的爆炸增長,比如10個標籤,輸出空間就有210,爲了應對指數複雜度的標籤空間,需要挖掘標籤之間的相關性。
四、挖掘多標籤之間相關性的三種策略
- 忽略和其它標籤的相關性,比如把多標籤分解成多個獨立的二分類問題(簡單高效)。忽略標籤之間的聯繫
- 考慮標籤之間的成對關聯,比如爲相關標籤和不相關標籤排序。靈活性不強,只考慮關聯對
- 考慮多個標籤之間的關聯,比如對每個標籤考慮所有其它標籤的影響(效果最優)
五、評價指標
- 1、基於樣本的評價指標(先對單個樣本評估表現,然後對多個樣本取平均)
- 2、基於標籤的評價指標(先考慮單個標籤在所有樣本上的表現,然後對多個標籤取平均)