論文瀏覽(5) X3D: Expanding Architectures for Efficient Video Recognition

原創

2020-06-13 21:00

0. 前言

當前視頻理解相關的模型基本都是在2D卷積神經網絡的基礎上進行一些擴展。
- 輸入數據從 N, C, H, W 增加時間尺度 N, T, C, H, W。
- 將2D卷積操作轉換爲3D卷積操作，增加對時間尺度的處理。
- 這種擴展一般來說會提高性能，但計算量也會大大增加。
如果在多個尺度上進行擴展，模型效果會如何呢？

X3D，是Expand 3D的縮寫。
主要思路：
- 之前的網絡主要是在時間維度上擴展2D卷積神經網絡。
- 但時間尺度上擴展不一定是最佳選擇，還可以在別的尺度上擴展。
- 這種設計的靈感主要來源於之前設計卷積網絡都是在depth/resolution/width上進行擴展，另外還借鑑了機器學習中特徵選擇的方法。
需要擴展的axis（這幾個axis可以理解爲網絡的幾個基本參數……）
- 輸入數據的總幀長度。
- 輸入數據的幀率。
- 輸入幀的尺寸。
- 網絡寬度（其實就是每個conv的的通道數量）
- bottlenet層寬度（即bottlenet中前兩個conv的通道數量）
- 網絡深度（其實就是bottlenet的數量）
模型訓練過程（好像就叫做Coordinate Descent）：
- 首先，給定一個初始狀態，如下表所示，認爲所有參數取值爲1。
- 然後，每次改變一個參數，控制參數量與算力、訓練模型，選擇性能最後的模型作爲下一步的輸入。
- 以此類推，直到達到所需要的算力爲止。
一次模型訓練的實例
上面訓練過程中所謂的改變一個參數，好像也是預先定義了幾種，沒細看，應該就是對幾個參數的改變。