將數據集做成VOC2007格式用於Faster-RCNN訓練

0.文件夾名

首先，確定你的數據集所放的文件夾名字，例如我的叫logos。

（或者和voc2007一樣的名字：VOC2007）

1.圖片命名

雖然說圖片名對訓練沒什麼影響，但建議還是按VOC2007那樣，如“000005.jpg”這種形式。至於圖片格式，代碼裏是寫的jpg。

批量修改圖片名字爲VOC2007格式可以參考以下Matlab代碼：

[plain]view
plain copy

%%  

%圖片保存路徑爲：  

%E:\image\car  

%E:\image\person  

%car和person是保存車和行人的文件夾  

%這些文件夾還可以有多個，  

%放在image文件夾裏就行  

%該代碼的作用是將圖片名字改成000123.jpg這種形式  

%%  

clc;  

clear;  

maindir='E:\image\';  

name_long=5; %圖片名字的長度，如000123.jpg爲6,最多9位,可修改  

num_begin=1; %圖像命名開始的數字如000123.jpg開始的話就是123  

subdir = dir(maindir);  

n=1;  

for i = 1:length(subdir)  

  if ~strcmp(subdir(i).name ,'.') && ~strcmp(subdir(i).name,'..')  

     subsubdir = dir(strcat(maindir,subdir(i).name));  

    for j=1:length(subsubdir)  

         if ~strcmp(subsubdir(j).name ,'.') && ~strcmp(subsubdir(j).name,'..')  

            img=imread([maindir,subdir(i).name,'\',subsubdir(j).name]);  

            imshow(img);  

            str=num2str(num_begin,'%09d');  

            newname=strcat(str,'.jpg');  

            newname=newname(end-(name_long+3):end);  

            system(['rename ' [maindir,subdir(i).name,'\',subsubdir(j).name] ' ' newname]);  

            num_begin=num_begin+1;  

            fprintf('當前處理文件夾%s',subdir(i).name);  

            fprintf('已經處理%d張圖片\n',n);  

            n=n+1;  

           pause(0.1);%可以將暫停去掉  

         end  

    end  

  end  

end

圖片名如果比較特殊或者像1(1).jpg等這類可能無法重命名，可以使用imwrite，如：

[html]view
plain copy

imwrite(img,strcat(save_path,newname));%改名後保存到另一文件夾，原圖片不變  

也可以使用Total Commander來批量重命名，非常方便，推薦使用這個工具。

下載地址：Total Commander破解版

2.畫目標包圍框

將圖片中所框的目標信息保存起來，我的是保存到txt裏，如下：

[plain]view
plain copy

000002.jpg car 44 28 132 121  

000003.jpg car 54 19 243 178  

000004.jpg car 168 6 298 164  

前面是圖片名，中間是目標類別，最後是目標的包圍框座標（左上角和右下角座標）。

打框的代碼(c++)我封裝成了dll，下載地址：圖像標註VS2013項目（我的環境是win7vs2013旗艦版，win8 win10好像不能運行）

或者下這個EXE版本的（win7下用cmd運行，win8 win10可能運行不了）：圖像標註EXE

2016-10-18：

上面標註的代碼使用的是別人封裝的opencv動態庫，現在修改爲opencv2.4.10，64位，vs2013，按網上教程配置好opencv，資源地址：

圖像標註EXE-2016-10-18

上面的代碼好像忘寫操作說明了，這裏寫一下：

（1）圖片顯示出來後，輸入法切換到英文；

（2）在目標的左上角按下鼠標左鍵，拉一個包圍框到目標右下角，然後鍵盤輸入標籤(一個字符)

（3）繼續（2）操作，直到框完該張圖片上的目標；

（4）按n進入下一張，esc退出。

注意：標籤只能輸入一個字符，你可以在生成的txt文件中替換成你實際的標籤。

3.做xml

將第2步得到的txt轉成xml。如果每張圖片有一個或多個包圍框，可參考代碼：VOC2007xml（這份代碼生成的xml訓練Matlab版本的FRCNN可能會出錯，最好用下面修改過的）

這份代碼生成的xml第一行含有版本和編碼信息：<?xml version="1.0" encoding="utf-8"?>，並且含有空格，用來訓練Faster RCNN可能會有問題，如下：

（左邊是VOC2007數據集中的xml，右邊是上面代碼生成的xml（第一行我刪掉了），用Notepad打開就可以看到）

VOC2007中的xml前面是tab字符（左邊那些箭頭），上面代碼生成的xml是空格（那些小黃點），所以，必須將空格轉換成tab，下載修改過的代碼：VOC2007xml_new

（下載VOC2007xml_new就可以了，不用下載VOC2007xml，不過如果xml用作其他用途還是可以的）

最終，得到的xml就和VOC一樣。

2016-11-24：

上面做xml的代碼請下載修改過的代碼！！！因爲第一份代碼帶有<?xml version="1.0" encoding="utf-8"?>以及空格，訓練會出錯的！！！本來想把第一份代碼刪掉的，但是csdn好像沒法刪資源啊！！！

代碼是Matlab（2014b）寫的，沒怎麼優化，當時想的就是功能能實現就行。

另外，如果同一幅圖上有多個目標，保存在txt文件中的包圍框信息需要連續存放。

4.保存xml到Annotations

新建一個文件夾，名字爲Annotations，將xml文件全部放到該文件夾裏。

5.將訓練圖片放到JPEGImages

新建一個文件夾，名字爲JPEGImages，將所有的訓練圖片放到該文件夾裏。

6.ImageSets\Main裏的四個txt文件

新建文件夾，命名爲ImageSets，在ImageSets裏再新建文件夾，命名爲Main。

我們可以通過xml名字(或圖片名)，生成四個txt文件，即：

txt文件中的內容爲：

[plain]view
plain copy

000005  

000027  

000028  

000033  

000042  

000045  

000048  

000058

即圖片名字（無後綴）,test.txt是測試集，train.txt是訓練集，val.txt是驗證集，trainval.txt是訓練和驗證集.VOC2007中，trainval大概是整個數據集的50%，test也大概是整個數據集的50%；train大概是trainval的50%，val大概是trainval的50%。可參考以下代碼：

[html]view
plain copy

%%  

%該代碼根據已生成的xml，製作VOC2007數據集中的trainval.txt;train.txt;test.txt和val.txt  

%trainval佔總數據集的50%，test佔總數據集的50%；train佔trainval的50%，val佔trainval的50%；  

%上面所佔百分比可根據自己的數據集修改，如果數據集比較少，test和val可少一些  

%%  

%注意修改下面四個值  

xmlfilepath='E:\Annotations';  

txtsavepath='E:\ImageSets\Main\';  

trainval_percent=0.5;%trainval佔整個數據集的百分比，剩下部分就是test所佔百分比  

train_percent=0.5;%train佔trainval的百分比，剩下部分就是val所佔百分比  

%%  

xmlfile=dir(xmlfilepath);  

numOfxml=length(xmlfile)-2;%減去.和..  總的數據集大小  

trainval=sort(randperm(numOfxml,floor(numOfxml*trainval_percent)));  

test=sort(setdiff(1:numOfxml,trainval));  

trainvalsize=length(trainval);%trainval的大小  

train=sort(trainval(randperm(trainvalsize,floor(trainvalsize*train_percent))));  

val=sort(setdiff(trainval,train));  

ftrainval=fopen([txtsavepath 'trainval.txt'],'w');  

ftest=fopen([txtsavepath 'test.txt'],'w');  

ftrain=fopen([txtsavepath 'train.txt'],'w');  

fval=fopen([txtsavepath 'val.txt'],'w');  

for i=1:numOfxml  

    if ismember(i,trainval)  

        fprintf(ftrainval,'%s\n',xmlfile(i+2).name(1:end-4));  

        if ismember(i,train)  

            fprintf(ftrain,'%s\n',xmlfile(i+2).name(1:end-4));  

        else  

            fprintf(fval,'%s\n',xmlfile(i+2).name(1:end-4));  

        end  

    else  

        fprintf(ftest,'%s\n',xmlfile(i+2).name(1:end-4));  

    end  

end  

fclose(ftrainval);  

fclose(ftrain);  

fclose(fval);  

fclose(ftest);

這四個txt放在ImageSets\Main中。

這樣，數據集就基本做好了。然後新建文件夾，名字爲logos(第0步確定的名字),將上面三個文件夾放到這裏，即logos文件夾裏有三個文件夾：

將logos文件夾拷貝到datasets\VOCdevkit2007裏就可以了。

（或者替換voc2007數據集中的Annotations、ImageSets和JPEGImages，免去一些訓練的修改）

Matlab版本faster-rcnn訓練過程看http://blog.csdn.net/sinat_30071459/article/details/50546891；

python版本faster-rcnn訓練過程看http://blog.csdn.net/sinat_30071459/article/details/51332084。

tumi678

發佈了5 篇原創文章 · 獲贊 27 · 訪問量 9萬+

私信關注

將數據集做成VOC2007格式用於Faster-RCNN訓練

0.文件夾名

1.圖片命名

2.畫目標包圍框

3.做xml

4.保存xml到Annotations

5.將訓練圖片放到JPEGImages

6.ImageSets\Main裏的四個txt文件

《日本蠟燭圖》讀書筆記 & 技術分析回測

《期貨-市場技術分析》讀書筆記

Python多線程編程深度探索：從入門到實戰

mongodb處理json數據很好

[轉帖]cpupower

35K*14 薪，入職了！這公司只要不裁員，我能一直呆下去！

TensorFlow計算loss值大小，tf.nn.softmax_cross_entropy_with_logits的用法

Densely Connected Convolutional Networks翻譯

SSD圖像識別代碼學習筆記

Ubuntu14.04+GPU＋keras機器學習環境配置

將數據集做成VOC2007格式用於Faster-RCNN訓練

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結