fine-tuning的二三事

原創

2020-02-20 20:50

日常的應用中，我們會很經常遇到一個問題：

如何應用強大的model(比如ResNet)去訓練我們自己的數據？

考慮到這樣的幾個事實:

通常我們自己的數據集都不會大(<1w)

從頭開始訓練耗時

解決方法就是fine-tuning.

方式

參考CS231的資料，有三種方式

ConvNet as fixed feature extractor.
其實這裏有兩種做法：
(1) 使用最後一個fc layer之前的fc layer獲得的特徵，學習個線性分類器(比如SVM)
(2) 重新訓練最後一個fc layer

Fine-tuning the ConvNet.
固定前幾層的參數，只對最後幾層進行fine-tuning

Pretrained models.
這個其實和第二種是一個意思，不過比較極端，使用整個pre-trained的model作爲初始化，然後fine-tuning整個網絡而不是某些層

選擇

考慮兩個問題：

你的數據集大小

你的數據集和ImageNet(假設在ImageNet上訓練的）的相似性

分爲四種情況，解決方法基於的原則就是:

NN中的低層特徵是比較generic的，比如說線、邊緣的信息，高層特徵是Dataset Specific的，基於此，如果你的數據集和ImageNet差異比較大，這個時候你應該儘可能的少用pre-trained model的高層特徵.

數據集小(比如<5000)，相似度高

這是最常見的情況，可以僅重新訓練最後一層(fc layer）
數據集大(比如>10000)，相似度高

fine-tuning後幾層，保持前面幾層不變或者乾脆直接使用pre-trained model作爲初始化，fine-tuning整個網絡
數據集小，相似度低

小數據集沒有辦法進行多層或者整個網絡的fine-tuning，建議保持前幾層不動，fine-tuning後幾層(效果可能也不會很好)
數據集大，相似度低

雖然相似度低，但是數據集大，可以和2一樣處理

從上面我們可以看出，數據集大有優勢，否則最好是數據集和原始的相似度比較高；如果出現數據集小同時相似度低的情況，這個時候去fine-tuning後幾層未必會有比較好的效果.

Caffe中如何進行fine-tuning

Caffe做fine-tuning相對tensorflow很簡單，只需要簡單修改下配置文件就行了.

此處假設你的數據集比較小，同時相似度比較高，僅需重新訓練最後一層(fc)的情況.

(1) 降低solver中lr和stepsize

這個很明顯，因爲相似度比較高我們可以期望原始獲得的feature和需要的是很接近的，此時需要降低學習率(lr)和迭代次數(stepsize).

(2) 修改最後一層fc的名字，設置好lr_mult

應爲需要訓練最後一層，我們把之前的層的學習率設置的很低(比如0.001)，或者你乾脆設置爲0，最後一層設置一定的學習率(比如0.01)，所以需要乘以10.

(3) 訓練

其實就已經改好了，是不是很簡單，按照之前標準化的訓練測試就好了

知乎上fine-tuning的介紹上有更加詳細的介紹，可以移步去看.

參考

(1) NodYoung的博客

(2) CS231的transfer-learning

(3) 知乎上關於caffe下做fine-tuning的介紹

發佈了105 篇原創文章 · 獲贊 123 · 訪問量 58萬+

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

基於香橙派AIpro將開源框架模型轉換爲昇騰模型

本文分享自華爲雲社區《如何基於香橙派AIpro將開源框架模型轉換爲昇騰模型》，作者：昇騰CANN。在前面的介紹中，我們知道了如何基於香橙派AIpro開發AI推理應用，也大致瞭解到在推理之前，需要把原始網絡模型 (可能是 PyTorch 的

2024-04-12 10:32:18

Caffe框架整理

Caffe安裝 Caffe框架下載地址：https://github.com/BVLC/caffe 下載完成後解壓，進入主目錄，執行 cp Makefile.config.example Makefile.config 安裝依賴

2023-11-07 13:31:07

技術分享 | TensorRT詳細入門指北，如果你還不瞭解TensorRT，過來看看吧！

Tensor是一個有助於在NVIDIA圖形處理單元（GPU）上高性能推理c++庫。它旨在與TesnsorFlow、Caffe、Pytorch以及MXNet等訓練框架以互補的方式進行工作，專門致力於在GPU上快速有效地進行網絡推理。如今現

2021-12-25 21:44:21

矩池雲上安裝 NVCaffe教程

使用的是P100，cuda11.1base鏡像創建虛擬環境 conda create -n py36 python=3.6 conda deactivate conda activate py36 安裝依賴包 apt update a

2021-08-05 21:15:27

caffe中在某一層獲得迭代次數的方法以及caffe編譯時報錯 error: 'to_string' is not a member of 'std'解決方法

caffe中在某一層獲得迭代次數的方法以及caffe編譯時報錯 error: 'to_string' is not a member of 'std'解決方法參考文章：（1）caffe中在某一層獲得迭代次數的方法以及caffe編譯時報

2021-07-19 09:27:35

ubuntu編譯caffe遇到的問題及解決方案

ubuntu編譯caffe遇到的問題及解決方案參考文章：（1）ubuntu編譯caffe遇到的問題及解決方案（2）https://www.cnblogs.com/cnugis/p/11113028.html （3）https://w

2021-06-04 09:17:13

聊聊人像摳圖背後的算法技術

本文分享自華爲雲社區《人像摳圖：算法概述及工程實現（一）》，原文作者：杜甫蓋房子。本文將從算法概述、工程實現、優化改進三個方面闡述如何實現一個實時、優雅、精確的視頻人像摳圖項目。什麼是摳圖對於一張圖I，我們感興趣

2021-05-13 21:35:32

圖片搜索太模糊？無損放大圖片神器來了

蘇生不惑第221篇原創文章，將本公衆號設爲星標，第一時間看最新文章。話說昨天文章建了個微信交流羣，和我一起在 b 站學 Python 發出去後，羣裏已經快200人了，你要一起學Python嗎？之前文章分享過圖片搜索如何通過電

2021-03-22 21:17:15

一文帶你熟悉Pytorch->Caffe->om模型轉換流程

摘要：本文旨在分享Pytorch->Caffe->om模型轉換流程。標準網絡 Baseline：PytorchToCaffe 主要功能代碼在： PytorchToCaffe +-- Caffe | +-- caffe.p

2021-02-22 21:31:18

RepVGG-caffe

pytorch版本：https://github.com/DingXiaoH/RepVGG caffe版本：https://github.com/imistyrain/RepVGG-caffe 我提供模型轉換的caffe版本：https:

2021-01-30 11:13:36

經典網絡AlexNet介紹

AlexNet經典網絡由Alex Krizhevsky、Hinton等人在2012年提出，發表在NIPS，論文名爲《ImageNet Classification with Deep Convolutional Neural Network

2021-01-30 10:50:13

崗位內推 | 美團視覺智能中心招聘AutoML實習生

PaperWeekly 致力於推薦最棒的工作機會，精準地爲其找到最佳求職者，做連接優質企業和優質人才的橋樑。如果你需要我們幫助你發佈實習或全職崗位，請添加微信號「pwbot02」。 AutoML實習生工作地點：北京市朝陽區望京國際研

2021-01-30 10:18:15

【招聘】蘇州抱壹微電子有限公司

❝ 公司簡介 ❞ 蘇州抱壹微電子有限公司於2011年10月在蘇州工業園區成立，公司提供IC 設計公司及系統公司的全套 Foundry 設計服務解決方案，從 Layout Service , APR, Fundamental IP,

2021-01-30 09:56:30

經典網絡VGGNet介紹

經典網絡VGGNet(其中VGG爲Visual Geometry Group)由Karen Simonyan等於2014年提出，論文名爲《Very Deep Convolutional Networks for Large-Scale Im

2021-01-30 09:45:22

深度學習領域，你心目中 idea 最驚豔的論文是哪篇？

點擊上方“AI算法與圖像處理”，選擇加"星標"或“置頂” 重磅乾貨，第一時間送達

2021-01-30 09:36:24

24小時熱門文章

最新文章

最新評論文章