原文鏈接:https://mp.weixin.qq.com/s/MkEwjHVC9M1JtdzZZdmeFw
圖像識別,檢測和分割
PointRend:將圖像分割作爲渲染
論文地址:https://arxiv.org/abs/1912.08193
圖像分割模型(例如Mask R-CNN)通常在有規則網格上運行:
輸入圖像是像素的規則網格,它們的隱藏表示是規則網格上的特徵向量,其輸出是規則網格上的標籤圖。但是,規則網格會不必要地在平滑區域上進行採樣,同時對目標邊界進行欠採樣,這通常會導致輪廓模糊。
這篇論文提出將圖像分割視爲一種渲染問題,並採用計算機圖形學中的經典思想來高效地渲染高質量的標籤圖。這是使用被稱爲PointRend的神經網絡模塊來完成的。PointRend將在常規網格上定義的給定數量的CNN特徵圖作爲輸入,並在更精細的網格上輸出高分辨率預測。這些精細的預測僅在經過精心選擇的點上進行,這些點被選擇爲靠近高頻區域,例如我們不確定的預測(即類似於自適應細分)的目標邊界,然後對其進行上採樣,並使用一個小副分目來從這些點狀特徵進行預測。
帶有噪聲的自訓練Student改善ImageNet分類
論文地址:https://arxiv.org/abs/1911.04252
半監督學習方法在少數據環境下效果很好,但是在有大量標記數據的情況下,完全監督學習的效果仍然是最好的。
在這篇論文中,作者重新審視了這一假設,並表明即使在標籤數據豐富的情況下,有噪聲的自訓練也能表現很好。
該方法使用了大量的無標籤圖像(即不同於ImageNet訓練集分佈),並且包括三個主要步驟:
1. 首先,在有標籤的圖像上訓練 teacher 模型,然後使用訓練好的 teacher模型在無標籤的圖像上生成僞標籤
2. 接着將其用於在有標籤圖像和僞標籤圖像的組合上訓練student模型,student模型比teacher模型更大(例如,從EfficientNetB0開始到EfficientNetB3),並受到注入的噪聲(例如 dropout)的訓練。
3. 再然後,該student被視爲teacher ,把最後兩個步驟重複幾次以重新標註無標籤數據並訓練一個新的student模型。最後一個模型在ImageNet top-1 上實現了SOTA性能,並且顯示出更高的魯棒性。
杜鵑小結:1. 教師培訓 2. 培訓好的老師教學生,學生數量很大 3. 教出來的學生也成爲了老師,老師們一起教新學生
設計網絡設計空間
論文地址:https://arxiv.org/abs/2003.13678
這篇論文不着重於設計單個網絡實例,而是着重於設計參數化網絡種羣的網絡設計空間,以便爲快速和簡單的網絡找到一些指導性設計原則。
論文所提出的方法着重於尋找一個好的模型種羣而不是好的模型單例(例如NAS:神經架構搜索)。基於分佈估計的比較範式,此過程包含初始化設計空間A,然後引入新的設計原理以獲得新的和細化的設計空間B,其中包含更簡單和更好的模型。重複該過程,直到生成的種羣中包含更魯棒且泛化良好的模型爲止。
EfficientDet:可擴展且高效的目標檢測
論文地址:https://arxiv.org/abs/1911.09070
EfficientDet是目標檢測中的一個STOA模型,在廣泛的資源限制下具有更高的效率。
EfficientDet具有EfficientNet的骨幹架構,並且包括兩個新的設計選擇:一個具有雙向拓撲結構或BiFPN 的雙向特徵金字塔網絡(FPN),以及一個在合併不同比例的特徵時使用學習的權重。此外,該網絡採用複合縮放設計,其中骨幹,類/框網絡和輸入分辨率可以聯合起來共同適應各種資源限制,而不是像以前的工作那樣簡單地使用更大的骨幹網絡。
動態卷積:卷積核上的注意力
論文地址:https://arxiv.org/abs/1912.03458
輕量的 CNN 網絡,例如MobileNetV2的主要問題之一是由於受限的深度(即層數)和寬度(即通道數)而無法保持較低的計算要求,因此它們的表示能力有限。在本文中,作者提出了動態卷積以通過將多個並行卷積的結果與注意力權重相加來提高卷積層的能力,而不會顯着增加計算量。
動態卷積由使用共享相同卷積核大小和輸入/輸出維數的K個卷積核(而不是單個操作)組成,然後使用由較小注意力模塊產生的注意力權值來彙總其結果。爲了更快地進行訓練,內核權值被限制爲三角形,其中每個注意力權值在[0,1]之間,且總和等於1。