【論文閱讀筆記】Searching for MobileNet V3

原創

2020-02-21 15:39

Searching for MobileNet V3

（7）hard switch 函數：

（八）網絡結構：

琦玉老師和龍捲（阿姨）小姐姐告訴我一個道理——畫風越簡單，實力越強悍；

這篇論文只有四個詞，我只能說：不！簡！單！

（一）論文地址：

《Searching for MobileNet V3》

（二）核心思想：

使用了兩個黑科技：NAS 和 NetAdapt 互補搜索技術，其中 NAS 負責搜索網絡的模塊化結構，NetAdapt 負責微調每一層的 channel 數，從而在延遲和準確性中達到一個平衡；
提出了一個對於移動設備更適用的非線性函數 $h-swish[x]=x\frac{ReLU6(x+3)}{6}$ ；
提出了 $MobileNetV3-Large$ 和 $MobileNetV3-Small$ 兩個新的高效率網絡；
提出了一個新的高效分割（指像素級操作，如語義分割）的解碼器（ $decoder$ ）；

（三）Platform-Aware NAS for Block-wise Search：

3.1 MobileNetV3-Large：

對於有較大計算能力的平臺，作者提出了 MobileNetV3-Large，並使用了跟 MnanNet-A1 相似的基於 RNN 控制器和分解分層搜索空間的 NAS 搜索方法；

3.1 MobileNetV3-Small：

對於有計算能力受限制的平臺，作者提出了 MobileNetV3-Small；

這裏作者發現，原先的優化方法並不適用於小的網絡，因此作者提出了改進方法；

用於近似帕累托最優解的多目標獎勵函數定義如下：

$ACC(m)×[LAT(m)/TAR]^w$

其中 $m$ 是第 $m$ 個模型的索引， $ACC$ 是模型的準確率， $LAT$ 是模型的延遲， $TAR$ 是目標延遲；

作者在這裏將權重因數 $w=-0.07$ 改成了 $w=-0.15$ ，最後得到了一個期望的種子模型（initial seed model）；

（四）NetAdapt for Layer-wise Search：

第二個黑科技就是 NetAdapt 搜索方法，用於微調上一步生成的種子模型；

NetAdapt 的基本方法是循環迭代以下步驟：

生成一系列建議模型（proposals），每個建議模型代表了一種結構改進，滿足延遲至少比上一步的模型減小了 $\delta$ ，其中 $\delta=0.01|L|$ ， $L$ 是種子模型的延遲；
對於每一個建議模型，使用上一步的預訓練模型，刪除並隨機初始化改進後丟失的權重，繼續訓練 $T$ 步來粗略估計建議模型的準確率，其中 $T=10000$ ；
根據某種度量，選取最合適的建議模型，直到達到了目標延遲 $TAR$ ；

作者將度量方法改進爲最小化（原文是最大化，感覺是筆誤）： $\frac{\Delta Acc}{\Delta latency}$

其中建議模型的提取方法爲：

減小 Expansion Layer 的大小；
同時減小 BottleNeck 模塊中的前後殘差項的 channel 數；

（五）Efficient Mobile Building Blocks：

作者在 BottleNet 的結構中加入了SE結構，並且放在了depthwise filter之後；

由於SE結構會消耗一定的計算時間，所以作者在含有SE的結構中，將 Expansion Layer 的 channel 數變爲原來的1/4；

其中 SE 模塊首先對卷積得到的特徵圖進行 Squeeze 操作，得到特徵圖每個 channel 上的全局特徵，然後對全局特徵進行 Excitation 操作，學習各個 channel 間的關係，從而得到不同channel的權重，最後乘以原來的特徵圖得到最終的帶有權重的特徵；

（六）Redesigning Expensive Layers：

作者在研究時發現，網絡開頭和結尾處的模塊比較耗費計算能力，因此作者提出了改進這些模塊的優化方法，從而在保證準確度不變的情況下減小延遲；

6.1 Last Stage：

在這裏作者刪掉了 Average pooling 前的一個逆瓶頸模塊（包含三個層，用於提取高維特徵），並在 Average pooling 之後加上了一個 1×1 卷積提取高維特徵；

這樣使用 Average pooling 將大小爲 7×7 的特徵圖降維到 1×1 大小，再用 1×1 卷積提取特徵，就減小了 7×7=49 倍的計算量，並且整體上減小了 11% 的運算時間；

6.2 Initial Set of Filters：

之前的 MobileNet 模型開頭使用的都是 32 組 3×3 大小的卷積核並使用 ReLU 或者 swish 函數作爲激活函數；

作者在這裏提出，可以使用 h-switch 函數作爲激勵函數，從而刪掉多餘的卷積核，使得初始的卷積核組數從 32 下降到了 16；

（7）hard switch 函數：

之前有論文提出，可以使用 $swish$ 函數替代 ReLU 函數，並且能夠提升準確率；

其中 switch 函數定義爲：

$swish[x]=x×\sigma(x)$ ，其中 $\sigma(x)=sigmoid(x)=1/（1+e^{-x}）$ ；

由於 sigmaoid 函數比較複雜，在嵌入式設備和移動設備計算消耗較大，作者提出了兩個解決辦法：

7.1 h-swish 函數：

將 swish 中的 sigmoid 函數替換爲一個線性函數，將其稱爲 h-swish：

$h$ - $swish[x]=x\frac{ReLU6(x+3)}{6}$

7.2 going deeper：

作者發現 swish 函數的作用主要是在網絡的較深層實現的，因此只需要在網絡的第一層和後半段使用 h-swish 函數；

（八）網絡結構：

8.1 MobileNetV3-Large：

8.2 MobileNetV3-Small：

（九）訓練細節：

使用了 Tensorflow 的 RMSPropOptimizer 優化器，並附加 0.9 的動量項；

初始化學習率爲 0.1，batch 大小爲 4096（每個 GPU 128）；

每 3 個 epoch 學習率衰減 0.01；

使用了 0.8 的 dropout 和 1e-5 的 weight decay；

（十）實驗結果：

（十一）語義分割——Lite R-ASSP：

發佈了76 篇原創文章 · 獲贊 134 · 訪問量 2萬+

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

【深度學習-圖像識別】腦PET圖像分析和疾病預測Baseline

【深度學習-圖像識別】腦PET圖像分析和疾病預測比賽簡介：Baseline：1. 讀取數據2. 定義數據加載器：3. 構建模型：4. 訓練模型：5. 生成預測結果：最終提交結果：這裏提供一個baseline；比賽簡介：比賽

2020-07-04 20:51:05

【深度學習-圖像識別】基於GhostNet進行ImageNet上1000類別的圖像識別

GhostNet: MoreFeaturesfromCheapOperations（一）論文地址：（二）核心思想：（三）特徵冗餘：（四）傳統卷積的問題：（五）Ghost Module for More Features（六）Gho

2020-06-29 02:27:45

玩膩了小遊戲？Paddle手勢識別玩轉游戲玩出新花樣！

PaddlePaddle實現手勢識別玩轉喫豆豆！文章目錄：1. 手勢數據採集2. PaddleX訓練模型3. 測試手勢識別模型4. 測試遊戲種手勢控制5. 大功告成~1. 手勢數據採集：2. PaddleX訓練模型2.1 定義數據

2020-06-29 02:27:45

【深度學習入門】Paddle實現手寫數字識別詳解（基於DenseNet）

【深度學習入門】Paddle實現手寫數字識別（基於DenseNet）0. 閒言碎語：1. MNIST 數據集：2. DenseNet 詳解：2.1 ResNet（顛覆性的殘差結構）：2.2 DenseNet（跨層鏈接的極致）：3.

2020-06-29 02:27:45

【論文閱讀筆記】Graph Convolutional Networks for Text Classification

目錄1 原文2 針對問題3 模型 / 方法3.1 Text GCN4 實驗結果5 討論6 結論 1 原文 Graph Convolutional Networks for Text Classification 源碼 2 針對問題

2020-07-07 09:42:46

【論文閱讀筆記】文本分類論文彙總

名字時間會議類型個人評分 Convolutional Neural Networks for Sentence Classification 2014 EMNLP short paper 9

2020-07-07 09:42:46

論文閱讀筆記：(YOLO 看一次就夠了) You Only Look Once: Unified, Real-Time Object Detection

尊重原創，轉載請註明：http://blog.csdn.net/tangwei2014 這是繼RCNN，fast-RCNN 和 faster-RCNN之後，rbg（Ross Girshick）大神掛名的又一大作，起了一個很娛樂化的

2020-07-07 08:02:37

BERT: Bidirectional Encoder Representations from Transformers雙向Transformer用於語言模型 NAACL 2018

論文鏈接：https://arxiv.org/abs/1810.04805 tensorflow版本代碼鏈接：https://github.com/google-research/bert pytorch版本代碼鏈接：https

BUAA～冬之恋

2020-07-04 03:47:48

第一章計算機與網絡安全概念——讀書筆記

第一章計算機與網絡安全概念首先需要介紹幾個標準（下文不會解釋，也可讀到再來看）計算機安全的概念計算機安全的定義計算機安全的挑戰OSI安全架構安全攻擊被動攻擊主動攻擊安全服務安全機制基本安全設計準則攻擊面與攻擊樹攻擊面攻擊樹網絡

2020-06-30 11:11:42

【論文閱讀筆記】Recursive Unsupervised Learning of Finite Mixture Models

《Recursive Unsupervised Learning of Finite Mixture Models》（有限混合模型的遞歸無監督學習）（一）論文地址：（二）abstract-提要：（三）Parameter Estim

2020-06-29 03:09:46

【論文閱讀筆記】Looking Fast and Slow: Memory-Guided Mobile Video Object Detection

Looking Fast and Slow: Memory-Guided Mobile Video Object Detection未經作者允許，本文禁止轉載（一）論文地址：（二）核心思想：（三）主要貢獻：（四）Interleav

2020-06-29 02:27:45

【論文閱讀筆記】PointCNN: Convolution On X-Transformed Points

PointCNN: Convolution On X-Transformed Points（一）論文地址：（二）核心思想：（三）3D 卷積的不足：（四）X-transformation：（五）PointCNN 的網絡結構：5.1

2020-06-29 02:27:45

Structural Deep Clustering Network 基於GNN的深度聚類算法 WWW2020

論文鏈接：https://arxiv.org/abs/2002.01633 代碼與數據集鏈接：https://github.com/lxk-yb/SDCN 摘要聚類是數據分析中一個基礎任務。最近，深度聚類（從深度學習方法中獲取

BUAA～冬之恋

2020-06-26 16:55:44

【論文閱讀】LIME：Low-light Image Enhancement via Illumination Map Estimation(筆記最全篇）

文章目錄AbstractIntroductionContributionMethodSpeed-up Method(1)：ALM子問題 T子問題 G子問題 Z和μ\muμSpeed-up Method(2)：權重變量實驗concl

2020-06-25 07:53:27

論文筆記總結

論文題目： 1. Cycle-Dehaze: Enhanced CycleGAN for Single Image Dehazing https://blog.csdn.net/qq_33427431/article/details/1

今天敲代码了么

2020-06-23 06:41:14

24小時熱門文章

最新文章

最新評論文章