early fusion VS later fusion

一、early fusion VS later fusion

\qquadearly fusion指的是先將不同的特徵融合再一起,最後再使用分類器對其進行分類,這個融合過程發生在特徵之間,一般稱之爲特徵融合或者"early fusion";Later fusion指的是不同的特徵使用不同的分類器,得到基於每個特徵的分類結果,再對所有結果進行融合(可能是投票、加權平均等),這個融和發生在不同特徵分類結果之間的融合,稱爲"later fusion"或"decision fusion"。
\qquad一般用"early fusion"較多,但也沒有明確說明哪個更好,需要根據實踐經驗來。如果你的不同特徵間差距實在太大,特徵很難合理的融合在一起的情況下,可以使用"later fusion",比如做視頻分類,每個視頻提供了"視頻動畫",“字幕”,"語音"三種不同維度上的特徵,這類特徵如果無法很好的融合成一個特徵的話可以使用later fusion。

二、兩篇關於上述兩種融合方法的文章

  • 第一篇:"Affect Recognition from Face and Body Early Fusion vs. Late Fusion"在這裏插入圖片描述
    \qquad作者使用兩種不同的策略,一種是將"Face"特徵和"Body"特徵融合成一個特徵後使用分類器進行分類,即"Feature fusion";一種是分別爲"Face"和"Body"特徵選擇合適的分類器後得到二者的分類結果,對於該結果進行融合,綜合判斷得到最終結果,即"decision fusion"。在作者的實驗中,"Feature fusion"更勝一籌在這裏插入圖片描述
  • 第二篇:“Early versus Late Fusion in Semantic Video Analysis”。在這裏插入圖片描述
    \qquad同樣的,先特徵融合後分類與針對不同特徵分類後再融合兩種策略。因爲視頻的三種不同維度的特徵(文本、語音、視頻)間差距很大,所以在作者的實驗中,"Later fusion"效果更好。在這裏插入圖片描述

三、直觀理解兩種方法誰更好

\qquad假設有三個特徵M1,M2,M3M1,M2,M3和三個分類器A,B,CA,B,C,分類器分類三個特徵的準確率如表所示:

準確率 A B C
M1M1 0.9 0.8 0.7
M2M2 0.7 0.8 0.9
M3M3 0.8 0.9 0.7

1、later fusion

\qquad對於每個特徵,我們選擇其準確率最高的分類器,即M1M1選擇A,M2M2選擇C,M3M3選擇B,準確率均爲0.9。假設我們採取投票的方法進行融合,那麼最終分類準確率爲acc=0.90.90.9+3(0.90.90.1)=0.972acc=0.9*0.9*0.9+3*(0.9*0.9*0.1)=0.972

2、early fusion

\qquad假設我們將特徵融合在一起,再依次使用三個分類器去看哪個分類效果最好。對於分類器A而言,它分類特徵M1M1M2M2M3M3的準確率分別是0.9,0.8,0.7,那是不是說明將特徵融合後分類準確率就是accA=0.90.70.8+0.90.70.2+0.90.30.8+0.10.70.8=0.902acc_A=0.9*0.7*0.8+0.9*0.7*0.2+0.9*0.3*0.8+0.1*0.7*0.8=0.902呢?那按照這種思路的話就能直接得到early fusion不如later fusion的結論。顯然不是的。
\qquad特徵融合的強大之處在於特徵融合後對於結果的判斷的增益可能是大幅提升的,而並非簡單的排列組合。比如給你一張貓頭鷹圖片,我們提取出了它的臉部特徵(“貓臉”)的腿部特徵(“鳥爪子”),如果只給我們臉部特徵,我們可能只有50%的概率能分辨出該動物是貓頭鷹,還可能被分類爲”貓“等;如果只給爪子我們可能只有10%的特徵分辨出這是貓頭鷹的爪子而不是其他鳥類的爪子。但如果這兩個特徵都給我們,我們可以99%確認這是一隻貓頭鷹。因此,特徵之間很可能是相輔相成的,關鍵是要找到合適的方法進行融合。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章