yolo cfg文件解析

# Testing 初始batch參數要分爲兩類，分別爲訓練集和測試集，不同模式相應放開參數，#爲註釋符號
#batch=1
#subdivisions=1
# Training

batch=64 一批訓練樣本的樣本數量，每batch個樣本更新一次參數，整個batch前向完成之後進行.backup
subdivisions=8 batch/subdivisions作爲一次性送入訓練器的樣本數量
（subdivision是組數）
如果內存不夠大，將batch分割爲subdivisions個子batch
（subdivisions相當於分組個數，相除結果作爲一次送入訓練器的樣本數量）
注意：上面這兩個參數如果電腦內存小，則把batch改小一點，batch越大，訓練效果越好
Subdivisions越大，可以減輕顯卡壓力（分組數目越多，每組樣本數量則會更少，顯卡壓力也會相應減少）

width=416
height=416
channels=3
以上三個參數爲輸入圖像的參數信息 width和height影響網絡對輸入圖像的分辨率，從而影響precision，只可以設置成32的倍數（爲什麼是32？由於使用了下采樣參數是32，所以不同的尺寸大小也選擇爲32的倍數{320，352……608}，最小320320，最大608608，網絡會自動改變尺寸，並繼續訓練的過程。）

momentum=0.9 DeepLearning1中最優化方法中的動量參數，這個值影響着梯度下降到最優值得速度（注：SGD方法的一個缺點是其更新方向完全依賴於當前batch計算出的梯度，因而十分不穩定。Momentum算法借用了物理中的動量概念，它模擬的是物體運動時的慣性，即更新的時候在一定程度上保留之前更新的方向，同時利用當前batch的梯度微調最終的更新方向。這樣一來，可以在一定程度上增加穩定性，從而學習地更快，並且還有一定擺脫局部最優的能力）

decay=0.0005 權重衰減正則項，防止過擬合，正則項往往有重要意義
//增加樣本的數量，改變基礎樣本的狀態，去增加樣本整體的數量，增加樣本量減少過擬合
angle=0 通過旋轉角度來生成更多訓練樣本
saturation = 1.5 通過調整飽和度來生成更多訓練樣本
exposure = 1.5 通過調整曝光量來生成更多訓練樣本
hue=.1 通過調整色調來生成更多訓練樣本

learning_rate=0.001
學習率決定着權值更新的速度，設置得太大會使結果超過最優值，直接錯過最優值，震盪回去，太小會使下降速度過慢，導致收斂過慢。如果僅靠人爲干預調整參數，需要不斷修改學習率。剛開始訓練時可以將學習率設置的高一點，而一定輪數之後，將其減小。在訓練過程中，一般根據訓練輪數設置動態變化的學習率。
基本訓練守則
剛開始訓練時：學習率以 0.01 ~ 0.001 爲宜。
一定輪數過後：逐漸減緩。
接近訓練結束：學習速率的衰減應該在100倍以上。
提供參考資料學習率的調整參考https://blog.csdn.net/qq_33485434/article/details/80452941

burn_in=1000 在迭代次數小於burn_in時，其學習率的更新有一種方式，大於burn_in時，才採用policy的更新方式

max_batches = 500200 訓練達到max_batches後停止學習，多個batches

policy=steps 這個是學習率調整的策略，有policy：constant, steps, exp, poly, step, sig, RANDOM，constant等方式
調整學習率的policy，有如下policy：constant, steps, exp, poly, step, sig, RANDOM
constant
保持學習率爲常量，caffe裏爲fixed
steps
比較好理解，按照steps來改變學習率

Steps和scales相互一一對應
steps=40000,45000 下面這兩個參數steps和scale是設置學習率的變化，比如迭代到40000次時，學習率衰減十倍。45000次迭代時，學習率又會在前一個學習率的基礎上衰減十倍。根據batch_num調整學習率
scales=,.1,.1 學習率變化的比例，累計相乘

涉及幾個參數（以後要學習的代碼，具體參數可以調節）

exp
gamma=
返回base_lr*gamma^iter,iter爲當前迭代次數，gamma設置爲0.98

poly
power=4
max_batches=800000
對學習率進行多項式衰減。圖中power爲0.9

sig
學習率進行sigmod函數衰減
gamma= 0.05
step=200
效果如圖所示

step
返回net.learning_rate*pow(net.scale, batch_num/net.step)

[convolutional]
batch_normalize=1 是否做BN操作
filters=32 輸出特徵圖的數量
size=3 卷積核的尺寸
stride=1 做卷積運算的步長
pad=1 如果pad爲0,padding由 padding參數指定。
如果pad爲1，padding大小爲size/2，padding應該是對輸入圖像左邊緣拓展的像素數量
activation=leaky 激活函數的類型：logistic，loggy，relu，elu，relie，plse，hardtan，lhtan，linear，ramp，leaky，tanh，stair

# Downsample //以下爲訓練網絡結構。

[convolutional]
batch_normalize=1
filters=64
size=3
stride=2
pad=1
activation=leaky

[convolutional]
batch_normalize=1
filters=32
size=1
stride=1
pad=1
activation=leaky

[convolutional]
batch_normalize=1
filters=64
size=3
stride=1
pad=1
activation=leaky
shortcut部分是卷積的跨層連接，就像Resnet中使用的一樣，參數from是−3，意思是shortcut的輸出是通過與先前的倒數第三層網絡相加而得到。跨越連接。
[shortcut]
from=-3
activation=linear
• 輸入與輸出：輸入與輸出一般保持一致，並且不進行其他操作，只是求差。
• 處理操作：res層來源於resnet，爲了解決網絡的梯度彌散或者梯度爆炸的現象，提出將深層神經網絡的逐層訓練改爲逐階段訓練，將深層神經網絡分爲若干個子段，每個小段包含比較淺的網絡層數，然後用shortcut的連接方式使得每個小段對於殘差進行訓練，每一個小段學習總差（總的損失）的一部分，最終達到總體較小的loss，同時，很好的控制梯度的傳播，避免出現梯度消失或者爆炸等不利於訓練的情形。

# Downsample

[convolutional]
batch_normalize=1
filters=128
size=3
stride=2
pad=1
activation=leaky

[convolutional]
batch_normalize=1
filters=64
size=1
stride=1
pad=1
activation=leaky

[convolutional]
batch_normalize=1
filters=128
size=3
stride=1
pad=1
activation=leaky