GPU版本編譯

如圖，按照官網方式直接編譯darknet，實際上默認是CPU版本，測試後，比較慢，如圖：

所以這裏我們直接將其編譯爲GPU版本，需要更改以下幾個地方：

1. 更改Makefile前兩行GPU和CUDNN的配置：

GPU=1
CUDNN=1

（OPENCV 可以不修改，親測可以，修改爲1也行）

2. 更改CUDA的路徑

48~51行，在"ifeq ($(GPU), 1)"語句塊中修改爲自己的CUDA安裝路徑，更改前默認路徑如下：

ifeq ($(GPU), 1)

COMMON+= -DGPU -I/usr/local/cuda/include/

CFLAGS+= -DGPU

LDFLAGS+= -L/usr/local/cuda/lib64 -lcuda -lcudart -lcublas -lcurand

例如修改爲：

ifeq ($(GPU), 1) 
COMMON+= -DGPU -I/usr/local/cuda-9.0/include
CFLAGS+= -DGPU
LDFLAGS+= -L/usr/local/cuda-9.0/lib64 -lcuda -lcudart -lcublas -lcurand
endif

23行，修改NVCC的路徑：

NVCC=/usr/local/cuda-9.0/bin/nvcc

完整的如下：

GPU=1
CUDNN=1
OPENCV=1
OPENMP=0
DEBUG=0

ARCH= -gencode arch=compute_30,code=sm_30 \
      -gencode arch=compute_35,code=sm_35 \
      -gencode arch=compute_50,code=[sm_50,compute_50] \
      -gencode arch=compute_52,code=[sm_52,compute_52]
#      -gencode arch=compute_20,code=[sm_20,sm_21] \ This one is deprecated?

# This is what I use, uncomment if you know your arch and want to specify
#ARCH= -gencode arch=compute_52,code=compute_52


VPATH=./src/:./examples
SLIB=libdarknet.so
ALIB=libdarknet.a
EXEC=darknet
OBJDIR=./obj/

CC=gcc
CPP=g++
NVCC=/usr/local/cuda-9.0/bin/nvcc
AR=ar
ARFLAGS=rcs
OPTS=-Ofast
LDFLAGS= -lm -pthread 
COMMON= -Iinclude/ -Isrc/
CFLAGS=-Wall -Wno-unused-result -Wno-unknown-pragmas -Wfatal-errors -fPIC

ifeq ($(OPENMP), 1) 
CFLAGS+= -fopenmp
endif

ifeq ($(DEBUG), 1) 
OPTS=-O0 -g
endif

CFLAGS+=$(OPTS)

ifeq ($(OPENCV), 1) 
COMMON+= -DOPENCV
CFLAGS+= -DOPENCV
LDFLAGS+= `pkg-config --libs opencv` -lstdc++
COMMON+= `pkg-config --cflags opencv` 
endif

ifeq ($(GPU), 1) 
COMMON+= -DGPU -I/usr/local/cuda-9.0/include
CFLAGS+= -DGPU
LDFLAGS+= -L/usr/local/cuda-9.0/lib64 -lcuda -lcudart -lcublas -lcurand
endif

ifeq ($(CUDNN), 1) 
COMMON+= -DCUDNN 
CFLAGS+= -DCUDNN
LDFLAGS+= -lcudnn
endif

OBJ=gemm.o utils.o cuda.o deconvolutional_layer.o convolutional_layer.o list.o image.o activations.o im2col.o col2im.o blas.o crop_layer.o dropout_layer.o maxpool_layer.o softmax_layer.o data.o matrix.o network.o connected_layer.o cost_layer.o parser.o option_list.o detection_layer.o route_layer.o upsample_layer.o box.o normalization_layer.o avgpool_layer.o layer.o local_layer.o shortcut_layer.o logistic_layer.o activation_layer.o rnn_layer.o gru_layer.o crnn_layer.o demo.o batchnorm_layer.o region_layer.o reorg_layer.o tree.o  lstm_layer.o l2norm_layer.o yolo_layer.o iseg_layer.o image_opencv.o
EXECOBJA=captcha.o lsd.o super.o art.o tag.o cifar.o go.o rnn.o segmenter.o regressor.o classifier.o coco.o yolo.o detector.o nightmare.o instance-segmenter.o darknet.o
ifeq ($(GPU), 1) 
LDFLAGS+= -lstdc++ 
OBJ+=convolutional_kernels.o deconvolutional_kernels.o activation_kernels.o im2col_kernels.o col2im_kernels.o blas_kernels.o crop_layer_kernels.o dropout_layer_kernels.o maxpool_layer_kernels.o avgpool_layer_kernels.o
endif

EXECOBJ = $(addprefix $(OBJDIR), $(EXECOBJA))
OBJS = $(addprefix $(OBJDIR), $(OBJ))
DEPS = $(wildcard src/*.h) Makefile include/darknet.h

all: obj backup results $(SLIB) $(ALIB) $(EXEC)
#all: obj  results $(SLIB) $(ALIB) $(EXEC)


$(EXEC): $(EXECOBJ) $(ALIB)
	$(CC) $(COMMON) $(CFLAGS) $^ -o $@ $(LDFLAGS) $(ALIB)

$(ALIB): $(OBJS)
	$(AR) $(ARFLAGS) $@ $^

$(SLIB): $(OBJS)
	$(CC) $(CFLAGS) -shared $^ -o $@ $(LDFLAGS)

$(OBJDIR)%.o: %.cpp $(DEPS)
	$(CPP) $(COMMON) $(CFLAGS) -c $< -o $@

$(OBJDIR)%.o: %.c $(DEPS)
	$(CC) $(COMMON) $(CFLAGS) -c $< -o $@

$(OBJDIR)%.o: %.cu $(DEPS)
	$(NVCC) $(ARCH) $(COMMON) --compiler-options "$(CFLAGS)" -c $< -o $@

obj:
	mkdir -p obj
backup:
	mkdir -p backup
results:
	mkdir -p results

.PHONY: clean

clean:
	rm -rf $(OBJS) $(SLIB) $(ALIB) $(EXEC) $(EXECOBJ) $(OBJDIR)/*

然而測試的時候還是有坑，如下：

網上一堆解決辦法，無果，最後修改了下配置文件：

打開yolov3.cfg，註釋掉Training配置，同時Testing配置取消註釋。

完美解決，最後，速度飛速提升：

【注：】以上是原生態的darknet，其處理圖片性能很強，但是對於視頻處理，由於封裝原因，需要經過轉換，顯然是不太方便的，解決方案如下：

python調用Darknet接口處理視頻

或者最新的，可以直接使用這個。

https://blog.csdn.net/lilai619/article/details/79695109（主要看yolov3.cfg中的問題）

https://blog.csdn.net/u012420309/article/details/79993870（Yolov3.cfg中的問題）

https://juejin.im/post/5b3d943ef265da0fa332cd66（代碼中的解釋）

https://blog.csdn.net/zzhang_12/article/details/80393448（可以再看看darknet製作）

訓練新數據

STEP

（0）數據集製作：

A.製作VOC格式的xml文件

工具：LabelImg 【羣文件提供了exe免安裝版本以及使用說明】

B.將VOC格式的xml文件轉換成YOLO格式的txt文件

腳本：voc_label.py，根據自己的數據集修改就行了。

最簡單是因爲把數據整理成以下的樣子就可以開始訓練：

path/to/img1.jpg 50,100,150,200,0 30,50,200,120,3
path/to/img2.jpg 120,300,250,600,2

也就是：地址，xmin,ymin,xmax,ymax，類別ID然後空格下一個box，每張圖一行。
例子：

images/images_all/86900fb6gy1fl4822o7qmj22ao328qv7.jpg 10,259,399,580,27
images/images_all/b95fe9cbgw1eyw88vlifjj20c70hsq46.jpg 10,353,439,640,29
images/images_all/005CsCZ0jw1f1n8kcj8m1j30ku0kumz6.jpg 75,141,343,321,27

（1）文件修改：

（A）關於 .data .names 兩個文件修改非常簡單，參考官網或者羣文件ＹＯＬＯv3.txt連接中的文件。

（B）關於cfg修改，以6類目標檢測爲例，主要有以下幾處調整（藍色標出）,也可參考我上傳的文件，裏面對應的是4類。

A.filters數目是怎麼計算的：3x(classes數目+5)，和聚類數目分佈有關，論文中有說明；

B.如果想修改默認anchors數值，使用k-means即可；

C.如果顯存很小，將random設置爲0，關閉多尺度訓練；

D.其他參數如何調整，有空再補;

E.前100次迭代loss較大，後面會很快收斂；

Region xx: cfg文件中yolo-layer的索引；

Avg IOU:當前迭代中，預測的box與標註的box的平均交併比，越大越好，期望數值爲1；

Class: 標註物體的分類準確率，越大越好，期望數值爲1；

obj: 越大越好，期望數值爲1；

No obj: 越小越好；

.5R: 以IOU=0.5爲閾值時候的recall; recall = 檢出的正樣本/實際的正樣本

0.75R: 以IOU=0.75爲閾值時候的recall;

count:正樣本數目。

附：幾個經典的實現

1. yolov3

YOLOV3訓練自己的數據集（PyTorch版本）

2.yolov3 pruning

參考文獻：

1.https://blog.csdn.net/maweifei/article/details/81137563

2.https://blog.csdn.net/sinat_26917383/article/details/85614247

3.https://blog.csdn.net/luoying_ontheroad/article/details/81136973

darknet GPU版本編譯及YOLOv3訓練新數據

GPU版本編譯

python調用Darknet接口處理視頻

訓練新數據

STEP

附：幾個經典的實現

YOLOV3訓練自己的數據集（PyTorch版本）

推薦2款開源、美觀的WinForm UI控件庫

NET9 AspnetCore將整合OpenAPI的文檔生成功能而無需三方庫

在Linux下管理MySQL的大小寫敏感性

MobileNet，從V1到V3

Shadow Detection

圖像處理之陰影檢測實例BDRAR

訓練自己的實例分割模型

MTCNN算法簡介

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結