多模態閱讀筆記 Noise Estimation Using Density Estimation for Self-Supervised Multimodal Learning

原創

2021-01-30 09:27

Noise Estimation Using Density Estimation for Self-Supervised Multimodal Learning

這篇文件講的是，按照現有多模態的任務，往往會出現噪音的問題，噪聲使得模型一直得不到最好結果，而這篇文章提出一個去噪方法，自監督的去訓練一個去噪模塊來消除噪聲，實驗結果顯示，用此方法，能夠直接提高 VQA， Text-To-Video Retrieval 等任務的表現

本文貢獻

證明多模態噪聲的消除任務可以歸結爲 多模態密度估計任務
提出一個模塊用於學習一個抗噪聲能力強的表示並且變成一個 max margin ranking loss function.
通過HowTo100M dataset 進行自監督訓練如何去噪，然後用於5個任務，結果可以發現進行提升

本文相關工作

Density Estimation：密度估計

假設我們有一組來自未知密度函數的觀察到的數據點，我們的目標是從觀測到的數據估計他們的概率密度函數

參數或半參數方法
非參數方法

密度估計理論（部分）_sinat_31184961的博客-CSDN博客_密度估計

自監督學習

一文讀懂自監督學習_zandaoguang的博客-CSDN博客_自監督學習
多模態表示學習

joint representation 聯合表示

encoder-decoder framework

coordinated representation

模型方法

在多模態數據中，當兩個或多個模態不具有相同的語義含義時，樣本被認爲是有噪音的，這種噪音會影響實驗結果。

問題定義：

一個樣本Z 是由視頻片段V 和對應的文本（字幕）C，以及兩者是否匹配 P，

V 和 C 通過 Fv Fc 映射到同一特徵空間，要求匹配的 V 和 C 在通過Fv， Fc 映射後相似

用多模態密度估計來進行噪聲估計

定義兩個樣本的相似度

其中 s 是相似度計算函數可以是 cos相似度計算

另外的符號表示的是均值和方差

然後是概率的表示，概率的表示是用類似K-NN密度估計算法來計算的

Zik 是 Zi 和 Zi 最近的第K個鄰居的相似度

Soft Max Margin Ranking Loss

我們把上面的噪聲估計組件進行集成，集成到一個max margin ranking 損失函數中

P 是正樣本集合 Ni 是對樣本i 的負樣本集合

理論分析

這一部分稍微有點難，數學知識比較多，後面再進行補充吧

實驗

在HowTo100M 進行自監督訓練，然後放到下游任務裏面

心得

從去噪聲的角度，來進行實驗，可以提高實驗效果，也是一個思路吧，他這篇是雙模態的任務，拓展到3模態應該會更加複雜

而且對於情感分析等來說好像收益不大，因爲情感分析本身就大部分是圖文不相關的

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

多模態閱讀筆記 Noise Estimation Using Density Estimation for Self-Supervised Multimodal Learning

Noise Estimation Using Density Estimation for Self-Supervised Multimodal Learning

本文貢獻

本文相關工作

模型方法

問題定義：

用多模態密度估計來進行噪聲估計

Soft Max Margin Ranking Loss

理論分析

實驗

心得

7 個 Bash 教程，提高你的命令行技能（2021 版）

Clubhouse火不過三天

教你裝逼了：怎麼樣發佈你的 Python 代碼給別人 “pip install”

專訪｜《編寫高質量代碼--web前端開發修煉之道》作者@阿當

AI率先發出新型冠狀病毒警告？人工智能比你想的要靠譜！

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結