NeXt VLAD多模態視頻分類

原創

SpeechImageKing

2020-03-14 22:30

NetVLAD最初是用於位置識別中聚合空間表達，發現比常規的時間模型（LSTM/GRU）用於聚合視覺和聽覺特徵任務更有效、更快。Net VLAD主要的一個缺點是特徵維度高，基於這種特徵的大的分類模型需要幾百百萬的參數。例如，一個Net VLAD網絡有128個聚類，特徵2048維，那麼作爲向量就是262144維。後面的全連接層是2048維度的輸出，那麼將有537M的參數。這種低效的參數將使得模型很難優化，且容易過擬合。

爲了解決上述問題，受ResNeXt啓發，開發了新的網絡結構NeXt VLAD。與NetVLAD不同的是，輸入的特徵在聚合及編碼之前用attention分解成一組相對低緯度的向量。潛在的假設是一個視頻幀可能有多個目標，在編碼之前分解成幀級特徵對模型產生更簡單的視頻表達是有益的。NeXtVLAD模型收斂更快，且能阻止過擬合。

下面是NeXt VLAD結構圖：

輸入xi向量先經過線性FC全連接層擴展成λN維度，λ設定爲2，波浪表示reshape操作，從(M,λN)到(M,G,λN/G)

其中的G是羣組數。

[具體做法可以參考阿里優酷的做法]

另外有相關問題可以加入QQ羣討論，不設微信羣

QQ羣：868373192

語音圖像視頻深度-學習羣

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

分類任務的metrics——模型評測標準

在分類任務中，想要知道模型的好壞，是不是能夠實際應用，那麼必須有評價的標準，本文將詳細說來。如果不提到混淆矩陣，那麼下面的概念就不好理解。我自己先默寫了下，結果發現錯了（錯的全顛倒），錯誤示例如下：上圖錯誤的原因是不知道True/P

VideoRecommendation

2020-06-20 09:37:26

百度飛漿NeXtVLAD之推斷inference

上一篇是基礎的數據輸入，然而繼續查看模型的輸入數據會遇到各種數據結構，比如迭代器yield 本文將繼續尋根究底，看看是如何輸入audio及rgb 特徵，然後得到NeXtVLAD聚類後的特徵。我看了下模型的輸出，似乎只能輸出類別，而我想得

VideoRecommendation

2020-06-20 01:54:22

TSN視頻識別詳解

原作者給出的torch版本的代碼，看起來有點不習慣，但比caffe版本好多了。paper在此但光流提取及視頻列表生成還是到原來的TSN repo. 總體：稀疏時間採樣策略及視頻級監督。 Two-stream及卷積模型在擬合大尺度時間上

VideoRecommendation

2020-06-20 01:54:22

NeXtVLAD視頻分類pb模型修改

之前搞落地問題，肯定會遇到pb模型，模型結點啥玩意的都能煩死。根據上一篇思路，這裏單獨開一篇，將模型的頭部分輸入砍掉，也不用將pca採用tf寫，這樣方便容易理解。使得輸入的就是固定的input_shape，有一點顧慮，就是tf的res

VideoRecommendation

2020-06-20 00:57:42

人臉年齡性別預測——age & gender

這是個基本問題，用人臉預測年齡和性別從主觀上看是可行的，如果說從聲音上來分辨似乎也無不可。如果有聲音數據的話，分辨性別還是可以的，但年齡人臉還是關鍵，因爲人的聲音可以有假音，比如我的假唱。【如果可以的話，當個花瓶也不錯啊。哈哈】鑑於

VideoRecommendation

2020-06-20 00:57:42

SlowFastNet(SlowFast) finetune(微調)

SlowFastNet github(最近放出來的): https://github.com/facebookresearch/SlowFast 配置環境要求： https://github.com/facebookresearc

2020-06-16 02:48:51

3D CNN(視頻分類網絡)無預訓練權重訓練難以收斂問題在各視頻分類網絡論文中的解決綜合(train from scratch)(更新中)

問題：視頻分類網絡像two stream i3d等都是直接在作者給的預訓練權重上finetune自己的數據，然後在訓練集上訓練至過擬合。基本隨便一個圖像分類網絡在任意一個數據集的訓練集上都能收斂，但自己直接使用一個恆定的學習率來

2020-06-16 02:48:51

VidSage: Unsupervised Video Representational Learning with Graph Convolutional Networks個人論文筆記

模型主要從視覺和語義上編碼一個視頻：通過預訓練的圖像特徵提取器提取視覺特徵，再通過GCN變體來傳播背景信息，獲取視頻語義 3D CNN, LSTM, GCN(提取每幀人的關節作爲關鍵點後產生的圖像來預測動作) 1.介紹通過GCN

2020-06-16 02:48:51

FASTER Recurrent Networks for Efficient Video Classification論文筆記

通常可以從兩個方面減少視頻分類任務的時間，一是通過減少網絡結構計算量，二是通過減少推理時如何結合每個clip通過網絡得到預測；本文使用第二種方法爲了減少推理時的計算量，根據本身一個常規的clip特徵提取網絡(會比較重量級，用於提

2020-06-16 02:48:51

利用ffmpeg多進程抽幀

import os try: import cPickle except: import pickle from multiprocessing import Pool rootpath = "" # 存放視

2020-06-16 02:39:48

Modality to Modality Translation: An Adversarial Representation Learning閱讀筆記

Modality to Modality Translation: An Adversarial Representation Learning and Graph Fusion Network for Multimodal Fu

有问题先搜报错~

2020-07-04 18:28:18

多模態的個性識別分析總結

文章目錄前言總結對於video對於text使用過：對於audio 使用過對於特徵提取總結前言上週我閱讀了4篇關於多模態的個性分析論文，其實這些多麼他的個性論文和多模態的情感分析都是一個道理，都是通過多個模態來進行分類，這是我的

有问题先搜报错~

2020-07-04 18:28:18

基於Bert的Vison-Language多模態網絡

多模態任務 VQA 用自然語言對給定圖片作相關提問. Image-text retrieval 圖像-文本跨模態檢索,任務是根據語言描述,從候選中選定相關的圖片, 反之亦然, 即也可以給定圖片選文本.數據集如MSCOCO ,F

2020-06-26 20:37:13

CS 594 Automated image captioning and image-text alignment課程筆記

本文是UIC CS 594中關於image caption環節的PPT筆記，由Natalie Parde教授講授。總的來說，PPT內容呈現的是比較泛的內容，信息量或許還不如一篇review來得多，但是適合入門的人。同時，CS 5

2020-06-23 22:25:10

模態融合中的add和concat

concat是通道數增加 add是通道數不變，特徵圖相加

2020-06-22 00:14:40

24小時熱門文章

通過HPA+CronHPA組合應對業務複雜彈性伸縮場景

最新文章

最新評論文章