爲什麼SOTA網絡在你的數據集上不行?來看看Imagnet結果的遷移能力研究

 論文通過實驗證明,ImageNet上的模型並不總能泛化到其他數據集中,甚至可能是相反的,而模型的深度和寬度也會影響遷移的效果。
 如果需要參考,可選擇類別數與當前任務相似的數據集上的模型性能。論文通過大量的實驗來驗證猜想,雖然沒有研究出如通過數據集間的某些特性來直接判斷模型遷移效果這樣的成果,但讀下來還是挺有意思的

來源:曉飛的算法工程筆記 公衆號

論文: Is it Enough to Optimize CNN Architectures on ImageNet?

Introduction


 深度卷積網絡是現代視覺任務的核心模塊,近年來誕生了許多優秀的卷積網絡結構,如何評價網絡的優劣是研究中很重要的事情。但目前的網絡性能還不能直接通過理論判別,需要進行相關的實驗驗證。目前許多模型都建立在ImageNet的基礎上,雖然ImageNet數據集很大,但相對於開發世界而言,只是微不足道的一部分。因此,論文的立意就是,探索ImageNet下的優秀模型能否都遷移到其它數據集中。
 爲了回答這一問題,論文提出了APR(architecture and performance relationship)指標。由於模型的性能與數據集相關,數據集間的APR指標能夠對比相同結構在不同數據集下的表現。爲了讓實驗更準確,論文隨機採樣了500個網絡,並在多個數據集間進行對比。

Experiment


Experimental datasets

 論文共在9個數據集上測試,數據集的樣例如上圖所示,這裏簡述下圖片數和類別數:

  • Conrete:4萬張圖片,2個類別,平衡。
  • MLC2008:4萬3000張圖片,9個類別,不平衡。
  • ImageNet:130萬張圖片,1000個類別,平衡。
  • HAM10000:1萬張圖片,7個類別,不平衡。
  • Powerline:8000張圖片,2個類別,平衡。
  • Insects:6300張圖片,291類別,不平衡。
  • Intel Image Classification(natural):2500張圖片,6個類別,平衡。
  • Cifar10:6萬張圖片,10個類別,平衡。
  • Cifar100:6萬張圖片,100個類別,平衡。

Experimental setup

 論文從AnyNetX網絡空間採樣實驗結構,AnyNetX主要包含三部分:

  • steam:固定結構,stride=2的\(3\times 3\)卷積,用於降低分辨率,提高輸出維度。
  • body:包含4個stage,每個stage \(i\)由步長爲\(s_i\)\(1\times 1\)卷積開頭,後續是\(d_i\)個相同的標準residual bottleneck block,width爲\(w_i\),bottleneck ratio爲\(b_i\),group width爲\(g_i\)(殘差分支的並行子分支),這個參數對相同stage內的block是共享的。
  • head:固定結構,全連接層,用於返回特定大小的輸出。

 AnyNetX的設計空間共包含16個可變參數,共4個stage,每個stage都有4個獨自的參數。兩個參數\(d_i\le 16\)\(w_i\le 1024\)均需能被8整除,\(b_i\in 1,2,4\)\(g_i\in 1,2,\cdots,32\),剩下的\(stride_1\)固定爲1,其餘的均爲2。反覆執行模型隨機採樣,取500個計算量在360MF和400MF之間的模型。

 按表2的實驗設置,將500個模型在不同的數據集上訓練直到收斂得差不多了,獲取其對應的性能指標。附錄還有一些對比實驗,使用了另外的配置,具體可見原文。

Experimental metrics

 在進行實驗之前,論文先對模型和數據集進行分析。定義eCDF(empirical cumulative error distribution)指標,用來標記錯誤率低於x的模型比例,n個模型的eCDF計算爲:

 從圖3可以看到不同數據集上的eCDF表現,ImageNet數據集的模型比例隨模型性能增加穩定下降,模型之間的差異較大。Natural、Insects、Powerline和Cifar100數據集的高性能模型較多,只包含少量低性能模型,Concrete、HAM10000、MLC2008和Cifar10數據集的模型性能則比較集中。

 論文從兩個方面來分析模型與性能的關係(APRs, architecture-performance relationship):

  • 以ImageNet上的測試誤差爲x軸,目標數據集上的測試誤差爲y軸,標記所有的模型。
  • 計算spearman相關係數\(\rho\in[-1, 1]\),用以反饋兩個數據集上模型誤差的相關性,0代表無關,-1和1代表關係可用單調函數表達。

 分析的結果如圖4所示:

  • 第一行的數據集與ImageNet有較強或中等的相關性,表明大多數的分類任務跟ImageNet有相似的APR表現,可根據ImageNet來進行模型的選取。
  • Concrete跟ImageNet無相關性,其準確率佔滿了\([0,0.5]\)的區間,在這種數據集上,模型的選擇更應該注重性能而不是ImageNet上的表現。
  • 部分數據集跟ImageNet有輕度或明顯的負相關性,在ImageNet上表現優秀的模型在這些數據集上反而表現一般。

 通過上面的三個分析,我們可以初步回答論文提出的問題,即ImageNet下的優秀模型不一定遷移到其它數據集中。

Identifying Drivers of Difference between Datasets

 論文對不同數據集上的top15模型的結構進行分析,發現ImageNet數據集的top15模型的block width和depth參數十分相似,第一個stage的block width和depth都十分小,隨後逐級增加。Insects數據集也有類似的現象,而MLC2008和HAM10000數據集也有相似的趨勢,但噪聲更多一些。Powerline和Natural數據集則完全相反,參數呈逐級減少的趨勢,最後一個stage均是很小的block。Cifar10和Cifar100數據集則更有趣,在block width上是呈逐級增加的趨勢,而block depth上則是呈逐級減少的趨勢。爲此,論文打算研究下這兩個參數在不同數據集上與模型性能的關係。

 圖5爲所有stage累積的block depth與模型性能的關係。ImageNet的優秀模型的累積depth至少爲10,此外沒有其他的特殊關係。Insects數據集則完全無關。HAM10000有輕度向右傾斜現象,似乎有相關性,但肉眼看起來也沒有強相關。Powerline、Natural和Cifar100數據集則有強烈的相關性,錯誤率隨着累積depth增加而增加,優秀的模型累積depth均小於10。

 圖6爲所有stage累積的width depth與模型性能的關係。ImageNet的模型性能與累積width呈反相關,優秀模型的累積width至少爲250。Insects和HAM10000數據集也有類似的反相關性,但程度弱一些。Powerline和Natural數據集與累積width沒有明顯的相關性,而Cifar100數據集則有強烈的反相關性。
 除了上述的兩個參數的對比,論文還對比了bottleneck ratios和group width參數,具體可以看附錄。總結而言,在不同的數據集上,最優模型的網絡深度和網絡寬度有可能差異較大,這是模型遷移能力的重要影響因子。

Impact of the Number of Classes

 ImageNet相對其他數據集有超大的類別數,Insect數據集是類別數第二的數據集,其ARP與ImageNet高度相似。從這看來,類別數似乎也可能是數據集的最優模型結構的影響因素之一。
 爲了探究這一問題,論文從ImageNet中構造了4個新數據集ImageNet-100、ImageNet-10、ImageNet-5和ImageNet-2,分別隨機選取100,10,5,2個類別,統稱爲ImageNet-X。ImageNet-100的訓練方法跟原數據集一樣,而其他3個數據集考慮到數據集小了,則採用top-1 error以及訓練40個週期。

 圖7展示了子數據集與原數據集的ARP對比,從圖中可以明顯的看到,子數據集與原數據集的相關性隨着類別數的減少而逐漸減少。這驗證了論文猜測,數據集類別數也是影響模型結構與性能的相關性的重要因素。

 論文也測試了block的累積depth和累積width在ImageNet-X數據集上的表現,結構如表3所示。從表中可以看到,隨着類別數增加,累積depth和累積width的相關因子都在逐級增加(不代表相關性增加)。所以,可以認爲類別數也是影響block的累積depth和累積width與模型性能相關性的重要因素。

 論文已經通過ImageNet-X數據集證明了類別數對APR有着重要影響,雖然不能說簡單地改變數據集的類別數就能複製APR表現,但我們可以將類別數相近的數據集的APR表現作爲參考,而不是總參考ImageNet數據集。爲了進一步驗證這個想法,論文將ImageNet-X與各數據集的相關性進行的統計,結果如圖8所示。
 從圖8可以看出,MLC2008和Cifar10數據集與對應的ImageNet-X數據集高度相關性。而原本與ImageNet有負相關性的Powerline和Natural數據集,則變爲與ImageNet-X數據集有輕度正相關性,重要的是最好的模型的表現更一致了。爲此,論文得出的結論是,相對於ImageNet數據集而言,ImageNet-X數據集比代表了更大的APR多樣性。

Conclusion


 論文通過實驗證明,ImageNet上的模型並不總能泛化到其他數據集中,甚至可能是相反的,而模型的深度和寬度也會影響遷移的效果。
 如果需要參考,可選擇類別數與當前任務相似的數據集上的模型性能。論文通過大量的實驗來驗證猜想,雖然沒有研究出如通過數據集間的某些特性來直接判斷模型遷移效果這樣的成果,但讀下來還是挺有意思的。



如果本文對你有幫助,麻煩點個贊或在看唄~
更多內容請關注 微信公衆號【曉飛的算法工程筆記】

work-life balance.

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章