Caffe 中 solver.prototxt 和 train_test.prototxt 參數詳解

A. solver.prototxt：

net:訓練預測的網絡描述文件，train_test.prototxt

test_initialization:取值爲true或者false，默認爲true，就是剛啓動就進行測試，false的話不進行第一次的測試。

test_iter:在測試的時候，需要迭代的次數，即test_iter* batchsize（測試集的）>=測試集的大小，測試集的 batchsize可以在prototxt文件裏設置。

test_interval:訓練的時候，每迭代test_interval次就進行一次測試。

base_lr:基礎學習速率。

gamma:調節學習速率的因子

power:調節學習速率需要用到的參數

type:採用哪一種優化算法，參考：http://blog.csdn.net/renhanchi/article/details/77983345

stepsize:”step”學習策略需要用到的參數，每隔stepsize降低學習速率，每隔stepsize，基礎學習速率*gamma

stepvalue: “multistep”學習策略需要用到的參數，每到stepvalue，按”step”的方式調整學習速率

lr_policy:

“fixed”:固定學習速率，始終等於base_lr

“step”:步進衰減，base_lr*gamma^(floor(iter/stepsize))

“exp”:指數衰減，base_lr*gamma^(iter)

“inv”:倒數衰減，base_lr*(1+gamma*iter)^(-power)

“multistep”:多步衰減，與步進衰減類似，允許非均勻步進值(stepvalue)

“ploy”:多項式衰減，在max_iter時達到0，base_lr*(1-iter/max_iter)^(power)

“sigmoid”:S形衰減，base_lr*(1/(1+exp^(-gamma*(iter-stepsize))))

關於lr_policy的可視化理解，可以參考下面兩個鏈接的內容，更直觀的表達了用不同的學習策略時學習率的變化情況。
https://stackoverflow.com/questions/30033096/what-is-lr-policy-in-caffe
http://blog.csdn.net/langb2014/article/details/51274376

display:每display次打印一次Loss

max_iter：訓練的最大迭代次數

momentum:衝量，靈感來自於牛頓第一定律，基本思路是爲尋優加入了“慣性”的影響，這樣一來，當誤差曲面中存在平坦區的時候，SGD可以更快的速度學習。

weight_decay:權衰量，

snapshot:迭代snapshot次，打印一次快照，即保存一次.caffemodel，.solverstate

snapshot_prefix:快照，.caffemodel，.solverstate保存的位置

solver_mode:訓練模式，可選，CPU，GPU，2種模式

B.train_test.prototxt：

1, 數據層參數：

data:數據層

type:數據屬性，包含3種格式，1種是Data，輸入格式爲LMDB，LEVELDB，另一種是ImageData，輸入格式爲*.txt，txt中格式爲，路徑圖片類別標籤，第三種爲HDF5Data，該格式支持頻譜圖、特徵向量的輸入，

ps:matlab生成HDF5步驟，假設每個特徵向量爲512維，輸入1000個特徵向量。

% 創建HDF5文件，包含data和label兩個變量，數據類型是caffe支持的float型數據

h5create('train.h5','/data',[1 1 512 1000],'Datatype','single');

h5create('train.h5','/label',[1 1 1 1000],'Datatype','single');

%reshape: width x height x channels x num，注意MATLAB讀數據是列優先，是和C++裏面相反的。所以寫數據的時候也要倒着寫。

train_data  = reshape(train_data,[1 1 512 1000]);

train_label = reshape(train_label,[1 1 1 1000]);

h5write('train.h5' ,'/data' , single(train_data));

h5write('train.h5' ,'/label', single(train_label));

HDF5Data-layer參數，

layer {

  name: "data"

  type: "HDF5Data"

  top: "data"

  top: "label"

  include {

    phase: TRAIN

  }

  hdf5_data_param {

  source: "train.txt"

  batch_size: 128

  shuffle: true

  }

}

train.txt內容，shuffle只對H5文件進行亂序，而每個H5文件內部的順序不動，

train1.h5

train2.h5
...

mean_value:訓練圖片需要減去的均值，一般爲127.5

scale:數據變換使用的數據縮放因子

mirror:是否做鏡像操作，可選，true，false

crop_size:crop變換的大小

mean_file:均值文件

source：數據源地址，可以是LMDB或者txt格式的文件

batchsize:批量讀取的圖片數目

shuffle：是否要打亂圖片順序，使不同類別交叉排列，可選，true，false

backend:數據格式，可選參數，LMDB，LEVELDB

rand_skip:跳過開頭的 rand_skip * rand(0,1)個數據，通常在異步隨機梯度下降法裏使用

2, 卷基層參數：

Convolution:卷基層

lr_mult: 學習率，但是最終的學習率需要乘以 solver.prototxt 配置文件中的 base_lr .

如果有兩個 lr_mult, 則第一個表示 weight 的學習率，第二個表示 bias 的學習率
一般 bias 的學習率是 weight 學習率的2倍

blobs_lr:和lr_mult意思一樣，有的配置文件也這麼寫

decay_mult:權值衰減，爲了避免模型的over-fitting，需要對cost function加入規範項。

weight_decay: 和decay_mult意思一樣，有的配置文件也這麼寫

kernel_size:卷積核的大小。如果核的長和寬不等，需要用 kernel_h 和 kernel_w 分別設定卷積

stride: 卷積核的步長，默認爲1。也可以用stride_h和stride_w來設置。

pad: 擴充邊緣，默認爲0，不擴充。

擴充的時候是左右、上下對稱的，比如卷積核的大小爲5*5，那麼pad設置爲2，則四個邊緣都擴充2個像素，即寬度和高度都擴充了4個像素，這樣卷積運算之後的特徵圖就不會變小。也可以通過pad_h和pad_w來分別設定。

weight_filter:權值初始化。默認爲“constant”,值全爲0，很多時候我們用”xavier”算法來進行初始化，也可以設置爲”gaussian”

weight_filler {

      type: "constant"

      value:0

    }

weight_filler {

      type: "xavier"

    }

weight_filler {

    type: "gaussian"

    std: 0.01

}

bias_filter:偏置項的初始化。一般設置爲”constant”,值全爲0

bias_filler {

      type: "constant"

      value: 0

    }

bias_term:是否開啓偏置項，默認爲true,開啓

group:默認爲1，如果大於1，那麼將每個濾波器都限定只與某個輸入的子集有關聯。換句話說，將輸入分爲group組，同時將輸出也分爲group組。那麼第i組輸出只與第i組輸入有關。

dilation:atrous（hole algorithms），RFCN中的亮點，可以增大map，提高對小目標的檢測。詳細可以參考RestNet-res3a，RestNet-OHEM。

AbsVal：使用 abs(x)函數計算每個輸入數據 x 的輸出

Power：使用函數(shift + scale * x) ^ power 計算每個輸入數據 x的輸出

power_param {
  power: 1
  scale: 1
  shift: 0
}

BNLL：使用函數log(1 + exp(x)) 計算每個輸入數據 x 的輸出

Dropout:防止模型過擬合；訓練模型時，隨機讓網絡某些隱含層節點的權重不工作，

dropout_param { 
    dropout_ratio: 0.5 #丟棄數據的概率
}

Eltwise:將2個bottom合併爲1個top，合併的方式爲，PRODUCT（點乘）， SUM（相加減）和 MAX（取大值），其中SUM是默認操作

bottom相加：

eltwise_param {

    operation: SUM

  }

bottom相減：

eltwise_param {

    operation: SUM

    coeff:1

    coeff:-1

  }

bottom取大值：

eltwise_param { 

    operation: MAX

  }

InnerProduct:也就是全連接層，fully_connected (fc)layer，主要實現，C←αA×B+βC，A爲M*K維矩陣，B爲K*N維矩陣，C爲M*N維矩陣，缺點就是，使用包含全連接層的模型(如AlexNet)必須使用固定大小的輸入，有時這是非常不合理的，因爲必須對輸入圖片進行變形

lr_mult，decay_mult，weight_filter，bias_filter

Split:將blob複製爲n份，分給不同的Layer，所有Layer共享該blob，實現爲1個bottom，n個top

Slice:輸入1個bottom，輸出n個top，將blob中的數據切分爲n份，假設input的維度是N*5*H*W，tops輸出的維度分別爲N*1*H*W ，N*2*H*W， N*1*H*W， N*1*H*W 。

這裏需要注意的是，如果有slice_point，slice_point的個數一定要等於top的個數減一。

axis表示要進行分解的維度，0爲N(num)上分解，1爲C(channel)上分解。

slice_point的作用是將axis按照slic_point 進行分解。

slice_point沒有設置的時候則對axis進行均勻分解。

slice_param {

    axis: 1

    slice_point: 1

    slice_point: 3

    slice_point: 4

  }

Concat:將多個layer進行組合拼接，輸入爲n個bottom，輸出爲1個top，例如，輸入k個blob爲，n_i*c_i*h*w，則，

axis=0，輸出爲(n_1+n_2+……+n_k)*c_i*h*w，

axis=1，輸出爲n_i*(c_1+c_2+……c_k)*h*w，

axis表示要進行分解的維度，0爲N(num)上拼接，1爲C(channel)上拼接。

concat_param{

    axis:1

}

Reduction:將某個維度縮減至1維，方法可以是sum、mean、asum、sumsq。

axis表示要進行縮減的維度，0爲N(num)上縮減，1爲C(channel)上縮減。

reduction_param {  

    axis: 0  

    }

Flatten: 把一個輸入的大小爲n * c * h * w變成一個簡單的向量，其大小爲 n * (c*h*w) * 1 * 1。

Reshape: 改變blob的維度，而不改變其自身的數據，每個blob爲4維，故有4個dim參數，0代表不改變維度的值，-1代表由caffe計算出值，正數代表將維度更改爲對應的值

reshape_param { 
shape { 
    dim: 0 # copy the dimension from below 
    dim: 2 
    dim: 3 
    dim: -1 # infer it from the other dimensions 
    } 
}

Crop:輸入兩個blob，將bottom[0] 按照bottom[1]的尺寸進行剪裁，

axis=0,1,2,3分別表示爲N,C,H,W；默認axis等於2，即默認從H開始裁剪（裁剪H和W）;可以只設置1個，也可以爲每個dimension分別設置，

offset表示裁剪時的偏移量，

crop_param { 
    axis: 2 
    offset: 5 
}

BatchNorm:batch歸一化層，需要和Scale層一起使用，即一個BatchNorm後面跟一個Scale，use_global_stats訓練的時候設置爲false，這時caffe會基於當前batch計算均值和方差，測試的時候設置爲true，此時會強制使用模型中存儲的均值和方差參數。

batch_norm_param{

    use_global_stats:true

}

Scale:

scale_param{

    bias_term:true

}

LRN(Local ResponseNormalization):AlexNet的產物，後期感覺對performance提升意義不大，local_size ，默認爲5，對於cross channel LRN爲需要求和的鄰近channel的數量，對於within channel LRN爲需要求和的空間區域的邊長

alpha ，默認爲1，scaling參數

beta ，默認爲 5，指數

norm_region，默認爲ACROSS_CHANNELS，

選擇LRN實現的方法：

ACROSS_CHANNELS ，輸出大小爲localsize×1×1，
WITHIN_CHANNEL，輸出大小爲1×localsize×localsize，

lrn_param{

    local_size:5

    alpha:0.0001

    beta:0.75

}

3, 激活層參數：

ReLU:非線性層，使用ReLU作爲激活函數，對於給定的一個輸入值x，如果x > 0，ReLU層的輸出爲x，如果x < 0，ReLU層的輸出爲0，可選參數negative_slope，此參數使得x <0時，ReLU層的輸出爲negative_slope * x，類似於PReLU的功能，RELU層支持原址計算（in-place）

relu_param{ 
    negative_slope: [默認：0] 
}

PReLU: 非線性層，使用PReLU作爲激活函數，在負半軸的輸出乘以一個係數，而這個係數是可學習的（你可以爲其指定學習率），其中value是係數的初始值，channel_shared指定是否在各個通道間共享這個係數。

prelu_param { 
filler: { 
    value: 0.33 #: 默認爲0.25 
} 
    channel_shared: false 
}

TanH: 使用 tanh(x)函數作爲激活函數計算每個輸入數據 x的輸出

4, 損失層參數：

SoftmaxWithLoss：類似svm，用於分類的層，輸入blob爲ip和label，這裏注意label要從0開始(2個bottom)，輸出blob爲loss(1個top)，用於單標籤多分類任務，各概率相互不獨立，總和爲1，這裏需要注意一下，softmax有一個默認的隱含的參數，loss_weight，默認該值爲1，所以大部分的時候，尤其是隻有1個Loss的時候是不寫這個的。但是當有多個Loss的時候，loss_weight的設置就很有必要了，例如下面的center_loss

SigmoidCrossEntropyLoss：S形交叉熵損失，用於目標概率分佈和多標籤多分類任務，各概率相互獨立

layer{

name:"loss"

type:" SigmoidCrossEntropyLoss"

bottom:"loss3/classifier"

bottom:"label"

top:"loss"

}

EuclideanLoss:歐式距離損失，適用於實數值迴歸問題，

layer{

name:"loss"

type:" EuclideanLoss "

bottom:"loss3/classifiersigmoid"

bottom:"label"

top:"loss"

}

HingeLoss：鉸鏈損失，norm支持L1，L2，默認norm爲L1，

# L1 Norm

layer {
name: "loss"
type: "HingeLoss"
bottom: "pred"
bottom: "label"
}
# L2 Norm
layer {
name: "loss"

type: "HingeLoss"
bottom: "pred"
bottom: "label"
top: "loss"
hinge_loss_param {
    norm: L2
  }
}

ContrastiveLoss:Siamese雙生貓中提出的損失，用於人臉識別中，deepid2中也有使用

layer {

  name: "loss"

  type: "ContrastiveLoss"

  bottom: "feat"

  bottom: "feat_p"

  bottom: "sim"

  top: "loss"

  contrastive_loss_param {

    margin: 1

  }

}

TripletLoss:FaceNet中提出的三元組，用於人臉識別

CenterLoss:caffeFace提出的損失，用於人臉識別，起到增大類間距離，減少類類距離

layer {

  name: "center_loss"

  type: "CenterLoss"

  bottom: "fc5"

  bottom: "label"

  top: "center_loss"

  param {

    lr_mult: 1

    decay_mult: 2 

  }

  center_loss_param {

    num_output: 10572

    center_filler {

      type: "xavier"

    }

  }

  loss_weight: 0.008

}

4, 池化層參數：

Pooling:池化層

pool:池化方法，默認爲MAX。目前可用的方法有 MAX， AVE，STOCHASTIC

kernel_size:池化的核大小

stride:池化的步長

5, 準確率層參數：

Accuracy:分類準確率層，只在test階段有效，輸入blob爲的ip和label(2個bottom)，輸出blob爲accuracy(1個top)

可選參數，top_k表示前幾正確率

accuracy_param {

    top_k: 5

  }

本文轉載自：http://blog.csdn.net/qq_14845119/article/details/54929389

cs24k1993

發佈了22 篇原創文章 · 獲贊 40 · 訪問量 8萬+

私信關注

Caffe 中 solver.prototxt 和 train_test.prototxt 參數詳解

python gdal 安裝使用（Windows， python 3.6.8）

【Caffe安裝】ImportError: No module named caffe 的解決方案

外賣 & 音樂 Web app

深度學習中如何計算圖片數據的均值

Ubuntu 鏡像源列表

Pandas中loc，iloc，ix的區別

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結