insightface ，retinaface項目，要訓太長時間

原創

jack_201316888

2020-07-07 21:27

https://blog.csdn.net/burger1221/article/details/103526042

【背景】最近由於公司項目需要，花了點時間入門了一下深度學習算法。選擇deepinsight/insightface項目的Retinaface算法練手，按照項目說明的training步驟無法直接運行，這裏把踩過的坑都記錄一下。

#下載源碼：

https://github.com/deepinsight/insightface.git
#環境部署

這裏用的是MXNet的框架，MXNet和CUDA的環境部署不在本文檔的範圍內，大家自行百度，我的環境是ubuntu 18.04.3\python 3.7\CUDA 10\cudnn7.5，硬件是一塊GTX 1080，顯卡驅動是nvidia-driver-430（由於顯卡算力有限，我沒有訓練處自己的模型，但是不影響本文的介紹的整體流程）

第二步我跳過不執行

第三步期間會要求安裝一些依賴，用pip安裝，直接用原生的源地址就可以了。

#數據準備

第一步很重要，要用作者自己準備的標註，不能用widerface自己的標註。下載以後解壓出來裏面有三個文件夾test、train、val，把train路徑裏面的label.txt複製到第三步的路徑裏面。

第二步就是下載，原來的數據集是再百度雲，現在遷移到了騰訊雲，沒差，對應沒有會員的人來說都一樣慢。這裏要用官方的版本，有些版本把所有的圖片都放到了一個目錄下面，也無法訓練。

第三步要注意是在RetinaFace文件夾路徑下再創建data文件夾，下圖是我的文件路徑。

#訓練

前兩步沒什麼需要強調的問題，我再第步運行的時候遇到兩個問題，第一個是再Pycharm裏面，設置環境變量沒有生效，所以我直接再代碼裏面修改了使用的GPU，再train.py的359行，直接改成了cvd = '0,1,2'.strip()，其中0, 1, 2指的是你訓練時候要用的GPU。

第二個問題是啓動配置裏面沒有OHEM_MODE的默認配置，所以導致執行到下面內容的時候拋出異常：

這裏我直接在rcnn/config.py加了config.TRAIN.OHEM_MODE = 1。但是我並不明白OHEM算法，也不知道這個模式選擇對訓練結果有什麼影響，希望知道的小夥伴在評論中幫忙解答一下。

接下來就是漫長的訓練過程了，由於設備性能有線，要完成10000輪 WIDERFACE 數據集的訓練，需要233天....所以只能先學習到這裏了，等借到了更強勁的設備以後再把模型訓練出來試試效果如何~
https://blog.csdn.net/burger1221/article/details/103526042

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

insightface ，retinaface項目，要訓太長時間

《日本蠟燭圖》讀書筆記 & 技術分析回測

《期貨-市場技術分析》讀書筆記

Python多線程編程深度探索：從入門到實戰

mongodb處理json數據很好

35K*14 薪，入職了！這公司只要不裁員，我能一直呆下去！

deblurGAN-v2 去模糊深度學習算法。

insightface 訓練自己的數據集

insightface ，retinaface項目，要訓太長時間

insightface 訓練作者提供的數據集

insightface 訓練數據集介紹-轉

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結