insightface ,retinaface項目,要訓太長時間

https://blog.csdn.net/burger1221/article/details/103526042

【背景】最近由於公司項目需要,花了點時間入門了一下深度學習算法。選擇deepinsight/insightface項目的Retinaface算法練手,按照項目說明的training步驟無法直接運行,這裏把踩過的坑都記錄一下。

#下載源碼:
 
https://github.com/deepinsight/insightface.git
#環境部署


這裏用的是MXNet的框架,MXNet和CUDA的環境部署不在本文檔的範圍內,大家自行百度,我的環境是ubuntu 18.04.3\python 3.7\CUDA 10\cudnn7.5,硬件是一塊GTX 1080,顯卡驅動是nvidia-driver-430(由於顯卡算力有限,我沒有訓練處自己的模型,但是不影響本文的介紹的整體流程)

第二步我跳過不執行

第三步期間會要求安裝一些依賴,用pip安裝,直接用原生的源地址就可以了。

#數據準備


第一步很重要,要用作者自己準備的標註,不能用widerface自己的標註。下載以後解壓出來裏面有三個文件夾test、train、val,把train路徑裏面的label.txt複製到第三步的路徑裏面。

第二步就是下載,原來的數據集是再百度雲,現在遷移到了騰訊雲,沒差,對應沒有會員的人來說都一樣慢。這裏要用官方的版本,有些版本把所有的圖片都放到了一個目錄下面,也無法訓練。

第三步要注意是在RetinaFace文件夾路徑下再創建data文件夾,下圖是我的文件路徑。

#訓練


前兩步沒什麼需要強調的問題,我再第步運行的時候遇到兩個問題,第一個是再Pycharm裏面,設置環境變量沒有生效,所以我直接再代碼裏面修改了使用的GPU,再train.py的359行,直接改成了cvd = '0,1,2'.strip(),其中0, 1, 2指的是你訓練時候要用的GPU。

第二個問題是啓動配置裏面沒有OHEM_MODE的默認配置,所以導致執行到下面內容的時候拋出異常:

這裏我直接在rcnn/config.py加了config.TRAIN.OHEM_MODE = 1。但是我並不明白OHEM算法,也不知道這個模式選擇對訓練結果有什麼影響,希望知道的小夥伴在評論中幫忙解答一下。

接下來就是漫長的訓練過程了,由於設備性能有線,要完成10000輪 WIDERFACE 數據集的訓練,需要233天....所以只能先學習到這裏了,等借到了更強勁的設備以後再把模型訓練出來試試效果如何~
https://blog.csdn.net/burger1221/article/details/103526042

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章