ICLR 2021 | 美團、上交大等：魯棒的可微分神經網絡搜索DARTS-

©PaperWeekly 原創 · 作者｜陸順

學校｜中科院計算所碩士

研究方向｜神經網絡架構搜索

注：該工作由作者在美團實習期間由初祥祥（美團 Mentor，前小米 AutoML 負責人）指導參與。

論文標題：

DARTS-: Robustly Stepping out of Performance Collapse Without Indicators

論文作者：

初祥祥、王曉星、張勃、陸順、魏曉林、嚴駿馳

論文鏈接：

https://openreview.net/forum?id=KLH36ELmwIB

彩蛋：

團隊正在招聘實習生，詳情見：美團視覺智能中心實習生招聘

簡介

可微分方法（DARTS）是神經網絡架構搜索（NAS）中最流行的方法。現有不少方法都致力於解決性能崩塌的問題，從而提升其穩定性。RobustDARTS [1] 提出了用超網的特徵根作爲判別是否進入崩塌的標誌，而我們在本篇工作發現了反例，即在特徵根不斷增大的情形下，搜索出的模型性能仍在提升。我們受 FairDARTS [2] 中跳躍連接存在不公平競爭優勢的啓發，使用了一個額外的跳躍鏈接（auxiliary skip），簡單有效地提升了 DARTS 的魯棒性，且不使用額外的超參數和指示標誌。

研究動機

可微分神經網絡搜索（DARTS）存在普遍的性能崩塌，現有提升方法使用了先驗知識或用指示信號來判別崩塌是否發生，而計算指示信號非常耗時，我們的出發點是能否不通過人爲先驗或需要耗費算力的指示信號來解決該問題。

創新和貢獻

1. 我們提出了一種不需要指示信號來提升 DARTS 穩定性的方法，只需要通過增加一個額外的跳躍連接，既能消除不公平競爭優勢，也能穩定超網的優化過程。

2. 在 7 種搜索空間和 3 種數據集上進行了實驗，來驗證本方法的魯棒性。

3. 本方法可以與其他 DARTS 的變體方法相結合。去掉人爲先驗後，在 CIFAR-10 數據集上本方法可分別將 P-DARTS [3] 和 PC-DARTS [4] 準確率再提升 0.8% 和 0.25%。

方法

4.1 動機分析

（1）從梯度流動的角度，跳躍連接可以減輕梯度消失的問題。假設第 i+1 層的殘差連接塊 X_i+1 可以表示爲 X_i+1=f_i+1(X_i, W_i+1)+X_i，損失函數爲 L，那麼對 X_i 求導爲：

可以看出，淺層的梯度總是包含了深層，用公式表示爲：

爲了分析跳躍連接的作用，爲所有的跳躍連接引入一個超參數 β，那麼 X_i的導數變爲：

一旦 β 小於 1，那麼深層的梯度反向傳播到淺層將會逐漸消失。這裏β可以表徵在反向傳播中，訓練過程的梯度是如何得到穩定的。

（2）對 ResNet50 的跳躍連接進行參數化訓練。分別初始化 β 爲 0，0.5 和 1.0，並繪製其變化曲線如下。可以看出，在 40 個 epoch 時，無論 β 初始值爲多少，其都能收斂至1。因此，證明殘差結構可以學習將 β 推向一個較大值來減輕梯度消失的問題。

（3）DARTS 同樣爲跳躍連接分配了一個可訓練參數 β_skip，搜索過程中其也會變得很大從而導致了搜索模型的性能崩塌。本文分析其原因主要有以下兩點。

一方面，超網學習將 β_skip 收斂至一個較大值來防止梯度消失；
另一方面，跳躍連接是目標網絡的一個重要操作，在離散化時應該被保留。

因此可以看出跳躍連接在 DARTS 中扮演了兩種角色：穩定超網訓練、作爲構建最終模型的候選操作。如果能區分 DARTS 搜索過程中跳躍連接的不同角色，那麼就可以穩定 DARTS 的搜索過程。

4.2 本文方法

方法：提出在每兩個節點間添加一個額外的跳躍連接。

作用：額外的跳躍連接可以起到穩定超網訓練的作用，並消除候選操作中跳躍連接的不公平競爭優勢，從而使得候選操作中的跳躍連接只需要表徵該候選操作重要性這一種角色。

影響：爲了在搜索過程結束後，與其他方法保持一致，本文爲這個額外的跳躍連接引入一個超參 β，並使其逐漸衰減至 0。因此，DARTS 混合操作的形式變爲：

其中 β 表示額外跳躍連接的權重，β_skip 表示候選操作中跳躍連接的權重。

4.3 作用機制分析

根據 PR-DARTS [5] 論文分析，網絡權重 W 的收斂極大依賴於跳躍連接的權重 β_skip。具體來講，假設只有三種操作（none，skip-connect 和 convolution），並使用 MSE 損失進行訓練。同時固定每種操作的權重，只優化網絡權重W。那麼在每一步，訓練損失可以以 (1-λη/4) 比率下降。其中 η 是學習率，λ 符合下式：

其中 h 表示超網的層數。從上式可以看出，相比於 β_conv，λ 更加依賴於 β_skip。當引入了額外的跳躍連接後，上式變爲：

當 β>>β_skip 時，λ 就不會對 β_skip 那麼敏感，此時網絡權重 W 將更加依賴於 β_conv。因此，結合 PR-DARTS [5] 的分析，可以看出：額外的跳躍連接可以減輕 β_skip 的優勢並使得架構參數的競爭更加公平。即使 β 逐漸衰減時，由於網絡權重 W 已經逐漸收斂，因此依然能保證公平的競爭。綜上所述，DARTS- 可以提升 DARTS 搜索階段的魯棒性。

實驗結果

1. 搜索空間（S0-S6）：

S0：DARTS 原生搜索空間
S1-S4：R-DARTS 中提出的搜索空間（S0 的子集，但是限制更多，相對較難）
S5：ProxylessNAS 搜索空間，用於直接在 ImageNet上搜索
S6：NAS-Bench-201 搜索空間

2. CIFAR-10 和 ImageNet 數據集的實驗結果對比。本文方法具有很好的穩定性，準確率也達到同類方法中最優。

3. 在通用 NAS 基準評測集 NAS-Bench-201 的實驗結果

4. 主幹網絡遷移到檢測任務 COCO 的實驗結果

5. 與 P-DARTS 和 PC-DARTS 結合的實驗結果（表格中 P-DARTS 去掉了跳躍連接數量爲 2 的限制，PC-DARTS 設置其超參 K=2）

6. 消融實驗：

對於 β_skip 的衰減策略：使用 cosine 和 step 分別進行對比，多次重複試驗平均準確率分別爲 97.33%±0.09 和 97.30%。
在 CIFAR-10 和 CIFAR-100 的 S0-S4 空間進行多次搜索實驗，結果如下

分析和討論

1. DARTS- 搜索過程的特徵根：優化過程中特徵根（eigvenvalue）的增大，並不一定意味着模型性能會變差。以前方法用特徵根作爲性能崩塌的指示標誌，我們找到了如圖的幾組反例。

2. 驗證集準確率的地貌分析（landscape）：下圖可以看出，添加額外的跳躍連接可以使其更平滑，這樣可以讓優化過程更穩定。

3. 額外的分支選擇：將額外的跳躍連接替換爲 1x1 卷積，並初始化爲單位陣，我們使用 CIFAR-10 數據集在 S3 空間進行多次試驗，獲得了 97.25%±0.09 的準確率。ResNet 中同樣分析了 projection convolution 和跳躍連接的工作機制類似，因此再次印證了跳躍連接的必要性。

4. 使用更長的搜索輪數：Amended-DARTS [6] 中提到使用更長的搜索輪數能使得超網更充分地收斂。而 DARTS 以及很多 DARTS 方法的變體在使用更長的搜索輪數時，會由於跳躍連接聚集而導致性能崩塌。爲了驗證該問題，我們將搜索輪數從 50 分別延長至 150 和 200。在 S0、S2 和 S3 三個搜索空間分別進行三次搜索實驗，同時設置 β 只在最後 50 個 epoch 衰減。實驗結果見下表。可以看出，經過更長的搜索輪數後，並沒有出現明顯的性能崩塌。我們同時也發現超網的收斂程度和搜索網絡的性能之間的關係並不簡單，尚待深入分析。

參考文獻

[1] Zela et al. Understanding and Robustifying Differentiable Architecture Search, ICLR 2020

[2] Chu et al. FairDARTS: Eliminating unfair advantages in differentiable architecture search, ECCV 2020

[3] Chen et al. Progressive Differentiable Architecture Search: Bridging the Depth Gap between Search and Evaluation, ICCV 2019

[4] Xu et al. PC-DARTS: Partial Channel Connections for Memory-Efficient Architecture Search, ICLR 2020

[5] Pan et al. Theory-Inspired Path-Regularized Differential Network Architecture Search, NuerIPS 2020

[6] Bi et al. Stabilizing DARTS with Amended Gradient Estimation on Architectural Parameters, 2019

招聘

團隊現招實習生 2 名

詳情見：【美團】視覺智能中心實習生

簡歷投遞至 [email protected]

更多閱讀

#投稿通道#

讓你的論文被更多人看到

如何才能讓更多的優質內容以更短路徑到達讀者羣體，縮短讀者尋找優質內容的成本呢？答案就是：你不認識的人。

總有一些你不認識的人，知道你想知道的東西。PaperWeekly 或許可以成爲一座橋樑，促使不同背景、不同方向的學者和學術靈感相互碰撞，迸發出更多的可能性。

PaperWeekly 鼓勵高校實驗室或個人，在我們的平臺上分享各類優質內容，可以是最新論文解讀，也可以是學習心得或技術乾貨。我們的目的只有一個，讓知識真正流動起來。

???? 來稿標準：

• 稿件確係個人原創作品，來稿需註明作者個人信息（姓名+學校/工作單位+學歷/職位+研究方向）

• 如果文章並非首發，請在投稿時提醒並附上所有已發佈鏈接

• PaperWeekly 默認每篇文章都是首發，均會添加“原創”標誌

???? 投稿郵箱：

• 投稿郵箱：[email protected]

• 所有文章配圖，請單獨在附件中發送

• 請留下即時聯繫方式（微信或手機），以便我們在編輯發佈時和作者溝通

????

現在，在「知乎」也能找到我們了

進入知乎首頁搜索「PaperWeekly」

點擊「關注」訂閱我們的專欄吧

關於PaperWeekly

PaperWeekly 是一個推薦、解讀、討論、報道人工智能前沿論文成果的學術平臺。如果你研究或從事 AI 領域，歡迎在公衆號後臺點擊「交流羣」，小助手將把你帶入 PaperWeekly 的交流羣裏。

ICLR 2021 | 美團、上交大等：魯棒的可微分神經網絡搜索DARTS-

實驗結果

認知提升的方法

C#開源的兩款功能強大的錄屏神器

螞蟻面試：Springcloud核心組件的底層原理，你知道多少？

前端 Vue yarn.lock文件：詳解和使用指南

創新大師Steve Blank: 你真的知道什麼是真正的精益創業嗎？

CV學習筆記(二十四):發票類OCR識別

遍歷多盤的方法

使用OpenCV實現人臉圖像卡通化

這個17歲的黑客天才，破解了第一代iPhone！

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結