#Paper Reading# Learnable pooling with Context Gating for video classification

原創

2020-05-02 10:11

論文題目: Learnable pooling with Context Gating for video classification
論文地址: https://arxiv.org/abs/1706.06905
論文發表於: arXiv

論文大體內容：
本文主要提出了Gated NetVLAD模型，用於給視頻打標，並在kaggle比賽中取得第一名。

Motivation：
如何更有效的對視頻打標，是工業界需要迫切解決的問題，在學術界也有不少相應的研究。

Contribution：
①提出一個結合視頻信息和音頻信息的模型，取得state-of-art的效果；
②引入Context Gating層，建模網絡激活層的相關性；
③用實驗證明基於聚類的聚合方法在視頻分類中比LSTM和GRU有效；

1. 本文提出的模型結構圖如下。

2. 特徵抽取
①視頻特徵：本文使用的特徵都是由Google官方提供的在ImageNet上訓練的Inception V3模型[3]進行預抽取的（最後一層隱層），每個視頻按每秒一幀抽取，最長抽取出360幀。其中每幀視頻抽取出2048維向量（每幀視頻取平均作爲視頻整體的embedding），再使用PCA降維到1024維；
②音頻特徵：採用VGG16進行抽取，使用PCA降維到128維；

3. Learnable pooling
①VLAD[6]（Vector of Locally Aggregated Descriptors）
X ∈ R^(N*J)
C ∈ R^(K*J)
VLAD ∈ R^(J*K)

②NetVLAD[7]

③NetFV

④NetRVLAD

4. Context Gating的優勢
①防止梯度消失；
②打壓不重要的實體（比如圖像中樹比較多，但是不重要，這裏會給樹的權重低）；

5.MoE（Mixture-of-Experts）

實驗
6. Dataset
Youtube-8M Dataset[2]；

7. Baseline
①LSTM；
②GRU；
③BoW；
④NetFV；
等等；

8. Metric
GAP@20；

9. 實驗結果
①單模型效果

②Context Gating的重要性

③視頻與音頻concat的位置效果對比

④模型Ensemble效果（最好的結果是用了25個模型Ensemble取得的）

參考資料：
[1] https://www.kaggle.com/c/youtube8m/overview
[2] https://research.google.com/youtube8m/
[3] https://arxiv.org/pdf/1609.08675.pdf
[4] https://arxiv.org/pdf/1609.09430.pdf
[5] https://www.jianshu.com/p/7d48bff4d1c3
[6] https://hal.inria.fr/file/index/docid/548637/filename/jegou_compactimagerepresentation.pdf
[7] http://openaccess.thecvf.com/content_cvpr_2016/papers/Arandjelovic_NetVLAD_CNN_Architecture_CVPR_2016_paper.pdf

以上均爲個人見解，因本人水平有限，如發現有所錯漏，敬請指出，謝謝！

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

2020-07-03 CVPR2020 i3DV論文討論（2）筆記

目錄[1] Context Prior for Scene Segmentation[2] Deep Stereo using Adaptive Thin Volume Representation with Uncertaint

2020-07-04 09:51:10

2020-07-06 組會筆記

目錄賈老師賈老師利他主義很重要學習狀態，自律清華兩篇博士論文，有思想，有深度優博名額5%->10%，今年有2.5個名額

2020-07-06 14:22:03

2020-07-02 CVPR2020 V&L論文討論（3）筆記

目錄[1] Bi-directional Relationship Inferring Network for Referring Image Segmentation[2] A Real-Time Cross-modality

2020-07-04 10:30:59

2020-06-18 CVPR2020 V&L論文討論（1）筆記

目錄CC JJY S[1] Normalized and Geometry-Aware Self-Attention Network for Image Captioning[2] Cops-Ref: A new Dataset

2020-07-04 10:30:59

2020-07-01 CVPR2020 表示學習論文討論（2）筆記

目錄[1] CVPR2020_A Unified Optimization Framework for Low-Rank Inducing Penaltie[2] CVPR2020_Automatic Neural Network

2020-07-04 09:51:10

Simple and Scalable Predictive Uncertainty Estimation using Deep Ensembles

普通的機器學習分類迴歸問題都是點估計，即模型給出的輸出是一個real value，或者是各個類別的probability。但是模型對於不同點的估計，確信度應該是不同的。對於和以往出現過樣本非常相似的點，給出的預測確信度比較高，對於和以往

2020-07-02 09:52:41

Paper Reading: WGAN & WGAN-gp

Paper Reading Note URL: Towards Principled Methods for Training Generative Adversarial Networks Wasserstein GAN T

2020-06-29 07:25:18

Adaptive Cross-Modal Few-shot Learning

論文資料1 基於度量的元學習（metric-based meta-learning）如今已成爲少樣本學習研究過程中被廣泛應用的一個範式。這篇文章提出利用交叉模態信息（cross-modal information）來進一步加強現有的度量

2020-06-28 22:43:10

Cross Attention Network for Few-shot Classification

作者：一顆檸檬味的橙子鏈接：https://zhuanlan.zhihu.com/p/105717426 來源：知乎著作權歸作者所有。商業轉載請聯繫作者獲得授權，非商業轉載請註明出處。來源：NeurIPS 2019 文章題目：C

2020-06-28 22:43:10

不同CUDA版本對應的最小GPU運算能力和最低兼容驅動

The minimum compute capability for various CUDA versions CUDA Version Minimum Compute Capability Default Compute

2020-07-07 08:17:52

PyTorch+YOLOv5環境搭建（未完待續）

PyTorch+YOLOv5環境搭建 PyTorch requirements NVIDIA CUDA 9.2 or above NVIDIA cuDNN v7 or above https://github.com/pyt

2020-07-07 07:39:14

OpenCV DNN 模塊-風格遷移

本文主要介紹OpenCV的DNN模塊的使用。OpenCV的DNN模塊自從contrib倉庫開始，就是隻支持推理，不支持訓練。但是僅僅只是推理方面，也夠強大了。現在OpenCV已經支持TensorFlow、Pytorch/Torc

2020-07-06 02:21:16

[DNN模塊開發]如何寫dnn文件

　　在所有DNN模塊的安裝包中，都有一個*.DNN文件。這個文件就是DNN模塊的安裝文件清單。在安裝模塊時DNN應用程序讀取該文件，按照文件清單中的內

2020-07-03 14:23:57

如何修改DotNetNuke(DNN)中服務條款和隱私說明

　在中國DNN的論壇上經常有人問道：“如何修改DNN中服務條款和隱私說明”。其實服務條款和隱私說明的內容都是語言包的一部份，不同的語言可以有不同的內容

2020-07-03 14:23:57

DNN交互設計-介紹（一）

用戶體驗設計是軟件開發中最重要的學科之一。要注意用戶體驗在軟件生命週期中不是一下子就可以完成的。好的用戶體驗需要基於用戶行爲和新的工具和技術的進行不斷地完善。現在DotNetNuke的認識到良好的用戶體驗對用戶和企業效益的重要性。DNN團

2020-06-25 01:53:40

24小時熱門文章

最新文章

最新評論文章