多模態閱讀筆記 Noise Estimation Using Density Estimation for Self-Supervised Multimodal Learning

Noise Estimation Using Density Estimation for Self-Supervised Multimodal Learning

這篇文件講的是, 按照現有多模態的任務, 往往會出現噪音的問題噪聲使得模型一直得不到最好結果, 而這篇文章提出一個去噪方法,自監督的去訓練一個去噪模塊來消除噪聲, 實驗結果顯示, 用此方法, 能夠直接提高 VQA, Text-To-Video Retrieval 等任務的表現

本文貢獻

  • 證明多模態噪聲的消除任務 可以歸結爲 多模態密度估計任務
  • 提出一個模塊用於學習一個抗噪聲能力強的表示 並且變成一個 max margin ranking loss function.
  • 通過HowTo100M dataset 進行自監督訓練如何去噪 , 然後用於5個任務, 結果可以發現進行提升

本文相關工作

  1. Density Estimation: 密度估計

    假設我們有一組來自未知密度函數的觀察到的數據點,我們的目標是從觀測到的數據估計他們的概率密度函數

  1. 自監督學習

    一文讀懂自監督學習_zandaoguang的博客-CSDN博客_自監督學習

  2. 多模態表示學習

    joint representation 聯合表示

    encoder-decoder framework

    coordinated representation

模型方法

在多模態數據中,當兩個或多個模態不具有相同的語義含義時,樣本被認爲是有噪音的, 這種噪音會影響實驗結果。

問題定義:

一個樣本Z 是由視頻片段V 和 對應的文本(字幕)C, 以及兩者是否匹配 P

V 和 C 通過 Fv Fc 映射到同一特徵空間,要求匹配的 V 和 C 在通過Fv, Fc 映射後相似

用多模態密度估計來進行噪聲估計

定義兩個樣本的相似度

在這裏插入圖片描述

其中 s 是相似度計算函數 可以是 cos相似度計算
在這裏插入圖片描述

另外的符號表示的是均值和方差

然後是概率的表示, 概率的表示是用類似K-NN密度估計算法 來計算的

在這裏插入圖片描述

Zik 是 Zi 和 Zi 最近的第K個鄰居的相似度

Soft Max Margin Ranking Loss

我們把上面的噪聲估計組件進行集成, 集成到一個max margin ranking 損失函數中

在這裏插入圖片描述

P 是 正樣本集合 Ni 是 對樣本i 的負樣本集合

理論分析

這一部分稍微有點難, 數學知識比較多, 後面再進行補充吧

實驗

在HowTo100M 進行自監督訓練, 然後放到下游任務裏面

在這裏插入圖片描述

心得

從去噪聲的角度,來進行實驗, 可以提高實驗效果, 也是一個思路吧, 他這篇是雙模態的 任務,拓展到3模態應該會更加複雜

而且對於情感分析等來說好像收益不大, 因爲 情感分析 本身就大部分是圖文不相關的

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章