GPU版本編譯
如圖,按照官網方式直接編譯darknet,實際上默認是CPU版本,測試後,比較慢,如圖:
所以這裏我們直接將其編譯爲GPU版本,需要更改以下幾個地方:
1. 更改Makefile前兩行GPU和CUDNN的配置:
GPU=1
CUDNN=1
(OPENCV 可以不修改,親測可以,修改爲1也行)
2. 更改CUDA的路徑
48~51行,在"ifeq ($(GPU), 1)"語句塊中修改爲自己的CUDA安裝路徑,更改前默認路徑如下:
ifeq ($(GPU), 1)
COMMON+= -DGPU -I/usr/local/cuda/include/
CFLAGS+= -DGPU
LDFLAGS+= -L/usr/local/cuda/lib64 -lcuda -lcudart -lcublas -lcurand
例如修改爲:
ifeq ($(GPU), 1)
COMMON+= -DGPU -I/usr/local/cuda-9.0/include
CFLAGS+= -DGPU
LDFLAGS+= -L/usr/local/cuda-9.0/lib64 -lcuda -lcudart -lcublas -lcurand
endif
23行,修改NVCC的路徑:
NVCC=/usr/local/cuda-9.0/bin/nvcc
完整的如下:
GPU=1
CUDNN=1
OPENCV=1
OPENMP=0
DEBUG=0
ARCH= -gencode arch=compute_30,code=sm_30 \
-gencode arch=compute_35,code=sm_35 \
-gencode arch=compute_50,code=[sm_50,compute_50] \
-gencode arch=compute_52,code=[sm_52,compute_52]
# -gencode arch=compute_20,code=[sm_20,sm_21] \ This one is deprecated?
# This is what I use, uncomment if you know your arch and want to specify
#ARCH= -gencode arch=compute_52,code=compute_52
VPATH=./src/:./examples
SLIB=libdarknet.so
ALIB=libdarknet.a
EXEC=darknet
OBJDIR=./obj/
CC=gcc
CPP=g++
NVCC=/usr/local/cuda-9.0/bin/nvcc
AR=ar
ARFLAGS=rcs
OPTS=-Ofast
LDFLAGS= -lm -pthread
COMMON= -Iinclude/ -Isrc/
CFLAGS=-Wall -Wno-unused-result -Wno-unknown-pragmas -Wfatal-errors -fPIC
ifeq ($(OPENMP), 1)
CFLAGS+= -fopenmp
endif
ifeq ($(DEBUG), 1)
OPTS=-O0 -g
endif
CFLAGS+=$(OPTS)
ifeq ($(OPENCV), 1)
COMMON+= -DOPENCV
CFLAGS+= -DOPENCV
LDFLAGS+= `pkg-config --libs opencv` -lstdc++
COMMON+= `pkg-config --cflags opencv`
endif
ifeq ($(GPU), 1)
COMMON+= -DGPU -I/usr/local/cuda-9.0/include
CFLAGS+= -DGPU
LDFLAGS+= -L/usr/local/cuda-9.0/lib64 -lcuda -lcudart -lcublas -lcurand
endif
ifeq ($(CUDNN), 1)
COMMON+= -DCUDNN
CFLAGS+= -DCUDNN
LDFLAGS+= -lcudnn
endif
OBJ=gemm.o utils.o cuda.o deconvolutional_layer.o convolutional_layer.o list.o image.o activations.o im2col.o col2im.o blas.o crop_layer.o dropout_layer.o maxpool_layer.o softmax_layer.o data.o matrix.o network.o connected_layer.o cost_layer.o parser.o option_list.o detection_layer.o route_layer.o upsample_layer.o box.o normalization_layer.o avgpool_layer.o layer.o local_layer.o shortcut_layer.o logistic_layer.o activation_layer.o rnn_layer.o gru_layer.o crnn_layer.o demo.o batchnorm_layer.o region_layer.o reorg_layer.o tree.o lstm_layer.o l2norm_layer.o yolo_layer.o iseg_layer.o image_opencv.o
EXECOBJA=captcha.o lsd.o super.o art.o tag.o cifar.o go.o rnn.o segmenter.o regressor.o classifier.o coco.o yolo.o detector.o nightmare.o instance-segmenter.o darknet.o
ifeq ($(GPU), 1)
LDFLAGS+= -lstdc++
OBJ+=convolutional_kernels.o deconvolutional_kernels.o activation_kernels.o im2col_kernels.o col2im_kernels.o blas_kernels.o crop_layer_kernels.o dropout_layer_kernels.o maxpool_layer_kernels.o avgpool_layer_kernels.o
endif
EXECOBJ = $(addprefix $(OBJDIR), $(EXECOBJA))
OBJS = $(addprefix $(OBJDIR), $(OBJ))
DEPS = $(wildcard src/*.h) Makefile include/darknet.h
all: obj backup results $(SLIB) $(ALIB) $(EXEC)
#all: obj results $(SLIB) $(ALIB) $(EXEC)
$(EXEC): $(EXECOBJ) $(ALIB)
$(CC) $(COMMON) $(CFLAGS) $^ -o $@ $(LDFLAGS) $(ALIB)
$(ALIB): $(OBJS)
$(AR) $(ARFLAGS) $@ $^
$(SLIB): $(OBJS)
$(CC) $(CFLAGS) -shared $^ -o $@ $(LDFLAGS)
$(OBJDIR)%.o: %.cpp $(DEPS)
$(CPP) $(COMMON) $(CFLAGS) -c $< -o $@
$(OBJDIR)%.o: %.c $(DEPS)
$(CC) $(COMMON) $(CFLAGS) -c $< -o $@
$(OBJDIR)%.o: %.cu $(DEPS)
$(NVCC) $(ARCH) $(COMMON) --compiler-options "$(CFLAGS)" -c $< -o $@
obj:
mkdir -p obj
backup:
mkdir -p backup
results:
mkdir -p results
.PHONY: clean
clean:
rm -rf $(OBJS) $(SLIB) $(ALIB) $(EXEC) $(EXECOBJ) $(OBJDIR)/*
然而測試的時候還是有坑,如下:
網上一堆解決辦法,無果,最後修改了下配置文件:
打開yolov3.cfg,註釋掉Training配置,同時Testing配置取消註釋。
完美解決,最後,速度飛速提升:
【注:】以上是原生態的darknet,其處理圖片性能很強,但是對於視頻處理,由於封裝原因,需要經過轉換,顯然是不太方便的,解決方案如下:
python調用Darknet接口處理視頻
或者最新的,可以直接使用這個。
https://blog.csdn.net/lilai619/article/details/79695109(主要看yolov3.cfg中的問題)
https://blog.csdn.net/u012420309/article/details/79993870(Yolov3.cfg中的問題)
https://juejin.im/post/5b3d943ef265da0fa332cd66(代碼中的解釋)
https://blog.csdn.net/zzhang_12/article/details/80393448(可以再看看darknet製作)
訓練新數據
STEP
(0)數據集製作:
A.製作VOC格式的xml文件
工具:LabelImg 【羣文件提供了exe免安裝版本以及使用說明】
B.將VOC格式的xml文件轉換成YOLO格式的txt文件
腳本:voc_label.py,根據自己的數據集修改就行了。
最簡單是因爲把數據整理成以下的樣子就可以開始訓練:
path/to/img1.jpg 50,100,150,200,0 30,50,200,120,3
path/to/img2.jpg 120,300,250,600,2
也就是:地址,xmin,ymin,xmax,ymax,類別ID然後空格下一個box,每張圖一行。
例子:
images/images_all/86900fb6gy1fl4822o7qmj22ao328qv7.jpg 10,259,399,580,27
images/images_all/b95fe9cbgw1eyw88vlifjj20c70hsq46.jpg 10,353,439,640,29
images/images_all/005CsCZ0jw1f1n8kcj8m1j30ku0kumz6.jpg 75,141,343,321,27
(1)文件修改:
(A)關於 .data .names 兩個文件修改非常簡單,參考官網或者羣文件YOLOv3.txt連接中的文件。
(B)關於cfg修改,以6類目標檢測爲例,主要有以下幾處調整(藍色標出),也可參考我上傳的文件,裏面對應的是4類。
A.filters數目是怎麼計算的:3x(classes數目+5),和聚類數目分佈有關,論文中有說明;
B.如果想修改默認anchors數值,使用k-means即可;
C.如果顯存很小,將random設置爲0,關閉多尺度訓練;
D.其他參數如何調整,有空再補;
E.前100次迭代loss較大,後面會很快收斂;
Region xx: cfg文件中yolo-layer的索引;
Avg IOU:當前迭代中,預測的box與標註的box的平均交併比,越大越好,期望數值爲1;
Class: 標註物體的分類準確率,越大越好,期望數值爲1;
obj: 越大越好,期望數值爲1;
No obj: 越小越好;
.5R: 以IOU=0.5爲閾值時候的recall; recall = 檢出的正樣本/實際的正樣本
0.75R: 以IOU=0.75爲閾值時候的recall;
count:正樣本數目。
附:幾個經典的實現
1. yolov3
YOLOV3訓練自己的數據集(PyTorch版本)
參考文獻:
1.https://blog.csdn.net/maweifei/article/details/81137563
2.https://blog.csdn.net/sinat_26917383/article/details/85614247
3.https://blog.csdn.net/luoying_ontheroad/article/details/81136973