這裏是三歲,今天是小白逆襲大神的第五天這裏整理了一下昨天的內容,和老師說的答題思路,如有不足,希望大家多多指點!謝謝大家
參考網站:百度飛槳學院:https://aistudio.baidu.com/aistudio/education/lessonvideo/304581
筆記
深度學習
深度學習難點: 語言博大精深,語義語境等還有
需要大量數據,大模型,打算力都受到極大的限制
所以自己開發難度過大
使用框架就不一樣了,我們站在了巨人的肩膀上了!
一些具體體驗可以參考:paddlehub體驗
短短几行就出現了極好的效果,什麼摳圖,判斷有沒有戴口罩什麼的
人家ps不要面子的嗎?
題目解析(二分法)
該命令在CPU環境必須執行,GPU不用
這裏的代碼是解析zip文件,如果上傳數據集需要自己解析(根據自己的文件名進行修改)
- 訓練圖片量建議在50+ 100張以上
導入訓練集,根據需要自己修改,修改以後記得安裝,不然會報錯
!hub install 名稱
自定義數據
參考資料:PaddleHub適配自定義數據完成finetune
對數據進行三分類
三分類:
分成
- 訓練集數據列表(機器訓練使用)(相對應上課題目)
- 測試集數據列表(機器週期測試使用)(相對應平時測驗)
- 驗證集數據列表(訓練結束以後進行驗證)(相對應期末考試)
建議:訓練:測試:驗證 = 8:1:1 (建議數據,可以修改)
ps:本次作業驗證集爲5張但是並不表示佔所有數據的一份!
- 標籤列表 用於表達數據種類 (相對應考試大綱)
微調設置
- use_cuda 使用CPU則使用False
- num_epoch 訓練的輪數(適中即可,太多的數據會導致識別問題)
- batch_size 一次運行的照片數
- eval_interval 模型評估時間 (相對應單元測試的時間和密度)
- strategy 優化策略種類,可以根據實際進行修改
優化策略參考地址:PaddleHub API:策略
訓練
訓練結果裏面有預測
其中:
*loss 相對來說越低越好
*occ越高越好
在訓練中loss下降,occ上升說明數據在耦合化在朝好的方向發展。
預測
輸出數組
數組是相對應的比例,比例越高概率越高
最後的結果也會輸出
第四天作業
今天的作業比較難,小編剛開始也懵逼了
看了課基本上懂了一點點
說一下思路:
首先:
- 準備數據集,數據集主要是訓練集和測試集(驗證集不能夠用於測試集和訓練集)
準備好圖片以後發現量太少了怎麼辦?
文文老師的課流出了兩張靚圖:
數據增強一波,即可
數據集準備好了,
- 文件的寫入:第一天的課程裏面說了讀取目錄下面的所有文件及子文件那麼稍加修改即可
文件寫入好了,接下來微調即可
根據實際情況進行修改,儘可能的做到數據的耦合化
接下來就是機器學習的時間了!!!
出現的一些報錯
小編遇到的一些報錯給大家分享以下
1:
這裏面是CUDA報錯了,原因是小編cpu啓動use_cuda沒有修改還是True
這個地方也要同步修改!!!
2:
這個是因爲模型沒有安裝 需要加上!hub install 名稱
文件讀取錯誤,這裏有可能是寫入的文件錯誤(地址的問題)
在train_list.txt文件裏面多加了 dataset 路徑,把這部分刪除即可
預測代碼需要加上 dataset 路徑,其他的不需要
目前知到的的錯誤就這麼多,成功了一次,對了60%,還在繼續
不說了,啥也不是,繼續加油!!!