多模态阅读笔记 Noise Estimation Using Density Estimation for Self-Supervised Multimodal Learning

原創

2021-01-30 09:27

Noise Estimation Using Density Estimation for Self-Supervised Multimodal Learning

这篇文件讲的是，按照现有多模态的任务，往往会出现噪音的问题，噪声使得模型一直得不到最好结果，而这篇文章提出一个去噪方法，自监督的去训练一个去噪模块来消除噪声，实验结果显示，用此方法，能够直接提高 VQA， Text-To-Video Retrieval 等任务的表现

本文贡献

证明多模态噪声的消除任务可以归结为 多模态密度估计任务
提出一个模块用于学习一个抗噪声能力强的表示并且变成一个 max margin ranking loss function.
通过HowTo100M dataset 进行自监督训练如何去噪，然后用于5个任务，结果可以发现进行提升

本文相关工作

Density Estimation：密度估计

假设我们有一组来自未知密度函数的观察到的数据点，我们的目标是从观测到的数据估计他们的概率密度函数

参数或半参数方法
非参数方法

密度估计理论（部分）_sinat_31184961的博客-CSDN博客_密度估计

自监督学习

一文读懂自监督学习_zandaoguang的博客-CSDN博客_自监督学习
多模态表示学习

joint representation 联合表示

encoder-decoder framework

coordinated representation

模型方法

在多模态数据中，当两个或多个模态不具有相同的语义含义时，样本被认为是有噪音的，这种噪音会影响实验结果。

问题定义：

一个样本Z 是由视频片段V 和对应的文本（字幕）C，以及两者是否匹配 P，

V 和 C 通过 Fv Fc 映射到同一特征空间，要求匹配的 V 和 C 在通过Fv， Fc 映射后相似

用多模态密度估计来进行噪声估计

定义两个样本的相似度

其中 s 是相似度计算函数可以是 cos相似度计算

另外的符号表示的是均值和方差

然后是概率的表示，概率的表示是用类似K-NN密度估计算法来计算的

Zik 是 Zi 和 Zi 最近的第K个邻居的相似度

Soft Max Margin Ranking Loss

我们把上面的噪声估计组件进行集成，集成到一个max margin ranking 损失函数中

P 是正样本集合 Ni 是对样本i 的负样本集合

理论分析

这一部分稍微有点难，数学知识比较多，后面再进行补充吧

实验

在HowTo100M 进行自监督训练，然后放到下游任务里面

心得

从去噪声的角度，来进行实验，可以提高实验效果，也是一个思路吧，他这篇是双模态的任务，拓展到3模态应该会更加复杂

而且对于情感分析等来说好像收益不大，因为情感分析本身就大部分是图文不相关的

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

多模态阅读笔记 Noise Estimation Using Density Estimation for Self-Supervised Multimodal Learning

Noise Estimation Using Density Estimation for Self-Supervised Multimodal Learning

本文贡献

本文相关工作

模型方法

问题定义：

用多模态密度估计来进行噪声估计

Soft Max Margin Ranking Loss

理论分析

实验

心得

7 個 Bash 教程，提高你的命令行技能（2021 版）

Clubhouse火不過三天

教你裝逼了：怎麼樣發佈你的 Python 代碼給別人 “pip install”

專訪｜《編寫高質量代碼--web前端開發修煉之道》作者@阿當

AI率先發出新型冠狀病毒警告？人工智能比你想的要靠譜！

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結