數據集label的統計分佈

原創

2020-06-23 09:48

在訓練模型前，需要知道數據集與標註的分佈情況。看看有沒有標註缺失的圖像，做標註補全；類別數量不平衡的話，也要做相應的數據預處理，否則模型訓練的效果不好。因此需要統計數據集的標註數量【num_anno】,類別數量【num_classes】，及各個類別標註的分佈【num_label】。以xml標註文件爲例，獲取各類別的標籤數據分佈。

import  xml.dom.minidom
import os,sys
import matplotlib.pyplot as plt  
 
rootdir = '../mmdetection/data/abn/VOCdevkit/VOC2012/Annotations/'
doc_xml = os.listdir(rootdir) 
print('num_anno', len(doc_xml))
classes_list = []
num_label = {}
for i in range(0,len(doc_xml)):
    path = os.path.join(rootdir,doc_xml[i])
    if os.path.isfile(path):
        #打開xml文檔
        dom = xml.dom.minidom.parse(path)
        #得到dom元素的label
        root = dom.documentElement
        label=dom.getElementsByTagName('name')
        for i in range(len(label)):
            c1 = label[i]
            class_name = c1.firstChild.data
            #列表中不存在則存入列表
            if classes_list.count(class_name)==0:
                classes_list.append(class_name)
                num_label[class_name] = 0
            num_label[class_name] += 1
print('num_classes', len(classes_list))
print('num_label', num_label)
plt.bar(range(len(num_label.keys())), num_label.values(), color='skyblue', tick_label=num_label.keys())

可視化各個類別的標註數量，更直觀看到標註分佈情況。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

【開發工具】開發工具安裝配置使用篇---source insight4.0、Apache

弄了好一段時間的Android studio之後又開始要搗鼓source insight。再加上剛重裝了電腦，導致之前的環境都沒有了。又開始了安裝source insight和其配置。爲了下一次安裝和配置環境不在這麼麻煩，寫下這篇博客來

2020-07-06 07:26:07

intellij 設置jdk版本（不能進去應用時使用）

筆者最近在用goland寫代碼，在安裝的時候，64位的版本一直不能使用（無法打開），故而使用32位的版本，但是一打開就提示需要32位的jdk，在網上搜了一下別人的方法都是需要進去應用設置的，和我的場景不相符所以我們需要一個

2020-07-01 04:18:10

idea中Module依賴不了jar及如何優先使用Module編譯

idea清除緩存重啓後，出現了兩個問題 1、某一個Module依賴不了jar包，或依賴不了別的Module，導致該Module大量劃紅線。 2、Module A的引用沒有使用項目裏的Module B進行編譯，而使用Module B

2020-06-29 23:15:15

Nvidia CUDA Toolkit and Compatible Driver Versions 驅動兼容性匹配

網址Nvidia官網驅動兼容性匹配

2020-06-24 23:12:09

python 圖像音頻轉base64

處理圖像和音頻的時候，通常拿到的數據以及返回的結果需要轉成base64。最近爲了測試算法接口，找了下面這一小段代碼，實現圖像、音頻與對應base64編碼的相互轉換，做個記錄（其實也有許多在線工具可以將圖像轉base64）。關於base64

2020-06-23 23:38:46

liunx 服務器上mysql數據庫備份腳本

#!/bin/bash #完成數據庫的定時備份。 #備份的路徑 BACKUP=/data/backup/db #當前的時間作爲文件名 DATETIME=$(date +%Y_%m_%d_%H%M%S) #可以輸出變量調試 echo $

2020-06-19 19:20:35

在新服務器部署flask+nginx+gunicorn項目

1.給服務器新增80端口的訪問權限 2.在ubuntu或者xshell(推薦)下連接服務器連接服務器 ssh [email protected] 2. 在服務器/root目錄下創建一個

2020-06-17 11:54:05

鏈接知識及Linux下grep使用

一般在.ld的鏈接文件裏 g_start = .; //. 這個點表示使用現在的地址 keep(*(SORT(.section*))) // 在目前地址的基礎上，增加.section* 大小的值 grep -rn “查找的字符”

宁静以致墨

2020-06-16 05:41:17

Excel讀取數據存入mysql數據庫好使的工具類

日常開發中經常遇到業務人員給出excle需要錄入數據庫的情況，有了這個方便的改改就可以了。 1.ExcelUtils package xxx.excel.test; import org.apache.poi.hssf.usermo

2020-06-16 03:54:26

關於[redis-server] 週期性出現問題的跟蹤

[redis-server] <defunct> 週期性的出現，會在短暫的時間內佔用大量cpu，<defunct>讓我們想到會跟子進程僵死有關係，redis本身是一個單進程的程序，只有在特殊情況下才會開啓子進程，查了一下資料發現在數

2020-06-14 02:54:35

按鈕文字倒計時效果

// 開啓倒計時效果（將此方法在按鈕點擊事件中執行） - (void)openCountdown { //倒計時時間 __block NSInteger time = 59; dispatch_queue

2020-06-13 08:35:36

本地動態生成驗證碼

#import <UIKit/UIKit.h> @interface AuthcodeView : UIView //字符素材數組 @property (strong, nonatomic) NSArray *dataArray

2020-06-13 08:35:35

正則判斷手機、密碼、郵箱

#import <Foundation/Foundation.h> @interface NSString (checkNumOrPW) //正則匹配手機號 + (BOOL)checkTelNumber:(NSString *)

2020-06-13 08:35:35

四項假設性思維-續

最近在學習高渙堂老師的四項假設性思維練習，這一篇，接上一篇的簡介。不論在公司，或者我們自己的工作，學習中，都會有一個願景，例如老闆想明年公司營收4個億，員工想到年底學會python，轉型高大上的AI工程師，數據XX工程師等，這都是“願景

2020-06-12 20:37:45

python入門之高級知識重難點

最近在學習python相關技術。主要跟隨黑馬程序員的B站python視頻在學。有時候會整理一些筆記發佈在這裏，爲了方便查看，在這裏記錄一下。下面是學習的一些知識點和要點。重點：重複練習，可以讓你更強！！！目錄python高級

2020-06-12 20:37:45

24小時熱門文章

最新文章

最新評論文章