非極大值抑制（NMS）

原創

2020-02-21 00:06

一般地，在目標檢測網絡進行分類之後會從一張圖片中找出n個可能是物體的矩形框，然後爲每個矩形框爲做類別分類概率：

就像上面的圖片一樣，定位一個車輛，最後算法就找出了一堆的方框，我們需要判別哪些矩形框是沒用的。非極大值抑制的方法是：先假設有6個矩形框，根據分類器的類別分類概率做排序，假設從小到大屬於車輛的概率分別爲A、B、C、D、E、F。

(1)從最大概率矩形框F開始，分別判斷A~E與F的重疊度IOU是否大於某個設定的閾值;

(2)假設B、D與F的重疊度超過閾值，那麼就扔掉B、D；並標記第一個矩形框F，是我們保留下來的。

(3)從剩下的矩形框A、C、E中，選擇概率最大的E，然後判斷E與A、C的重疊度，重疊度大於一定的閾值，那麼就扔掉；並標記E是我們保留下來的第二個矩形框。

就這樣一直重複，找到所有被保留下來的矩形框。

非極大值抑制（NMS）顧名思義就是抑制不是極大值的元素，搜索局部的極大值。這個局部代表的是一個鄰域，鄰域有兩個參數可變，一是鄰域的維數，二是鄰域的大小。這裏不討論通用的NMS算法，而是用於在目標檢測中用於提取分數最高的窗口的。例如在行人檢測中，滑動窗口經提取特徵，經分類器分類識別後，每個窗口都會得到一個分數。但是滑動窗口會導致很多窗口與其他窗口存在包含或者大部分交叉的情況。這時就需要用到NMS來選取那些鄰域裏分數最高（是行人的概率最大），並且抑制那些分數低的窗口。

站內首發文章

發佈了208 篇原創文章 · 獲贊 892 · 訪問量 129萬+

他的留言板關注

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

目標檢測：各種網絡結構對比

1、通常的CNN網絡結構如下圖所示圖1 上圖網絡是自底向上卷積，然後使用最後一層特徵圖進行預測，像SPP-Net，Fast R-CNN，Faster R-CNN就是採用這種方式，即僅採用網絡最

2020-07-03 02:02:07

輕量級網絡：MobileNet和SqueezeNet的比較

SqueezeNet：2016年 MobileNet ：2017年Google 同樣把是Alexnet參數量1/50的參數量，mobilenet速度比alexnet快10倍，而squeezenet沒有太大提升。單兩者都是用了卷積拆分的方

2020-07-03 01:04:20

損失函數：Focal Loss

一、正負樣本不均衡問題 Class Imbalance(正負樣本不平衡) 帶來的問題就是：樣本中會存在大量的easy examples，且都是負樣本(屬於背景的樣本)。這樣，easy negative examples會對loss起主要貢

2020-07-03 01:04:20

目標檢測——優化策略

1、對於基於anchor的檢測器，由於大步幅導致的低召回率可以通過降低 positive anchor boxes 所需的IOU分數來緩解，即修改訓練時的參數overlap; 2、

2020-07-03 01:04:20

目標檢測：各個檢測網絡的差異

two-stage：R-CNN、Fast R-CNN、Faster R-CNN將檢測結果分爲兩部分求解：物體類別（分類問題），物體位置即bounding box（迴歸問題）; one-stage：YOLO將物體檢測作爲一個迴歸問題進行求解

2020-07-03 01:04:20

損失函數：Center Loss

ECCV2016的文章《A Discriminative Feature Learning Approach for Deep Face Recognition》主要爲了進一步區分人臉。 code：https://github.com

2020-07-03 01:04:20

目標檢測——存在的問題

1、anchor box會帶來一些問題，比如模型的輸出變得非常稠密，因爲對應特徵圖中每個anchor box，都要輸出一個4元組的位置預測和對應這個位置的物體分類的預測分數（C類），這樣就會生成(C+4)×H×W×6個輸出。考慮在多個特徵

2020-07-03 01:04:09

目標檢測：YOLO V3（視頻講解）

與其看文章，不如先看一下這個講解很清晰的視頻：https://www.bilibili.com/video/av77348259?p=2

2020-07-03 01:04:09

目標檢測：anchor box

目前，幾乎所有流行的通用目標檢測方法，如經典的兩步方法Faster-RCNN，一步方法SSD和YOLO等，都需要根據經驗設計不同尺度（可以看成是物體面積）和高寬比的anchor box（有的方法中叫做default box或prior b

2020-07-03 01:04:09

用兩個33代替55卷積的優點

問題： 1、對於5*5和兩個3*3的計算量，我們可以比較一下。 2、我們假設輸入圖像大小是5*5*1,最終都需要將其變成1*1*1. 3、那麼對於5*5的核（暫時用1個），我們的總參數是25，總的乘法計算數爲1*5*5*1=25; 4、而

2020-07-03 01:04:09

深度學習之Tensorflow框架實現VGG/RNN網絡/驗證碼生成與識別

①實現VGG網絡模型 cwd = os.getcwd() #獲取當前路徑 VGG_PATH = cwd + "/data/imagenet-vgg-verydeep-19.mat" data = scipy.i

2020-06-30 20:56:39

深度學習1感知機及實現簡單反向傳播網絡

感知機是什麼？感知機接受多個輸入信號，輸出一個信號感知機的信號只有“流/不流”兩種取值，0對應“不傳遞信號”，1對應“傳遞信號”。輸入信號在被送往神經元時，會被分別乘以固定的權重。神經元會計算傳送過來的信號的總和，只有當這個

2020-06-30 20:56:39

深度學習之Caffe框架及製作數據源

caffe框架：結構： Blob:stores data and derivatives Layer: transform bottom blobs to top blobs Net:Many layers;computes g

2020-06-30 20:56:39

搭建CNN識別你的貓貓狗狗

本文爲Udacity優達學城深度學習課程筆記第三篇，使用圖像增強對貓狗圖像進行分類。課程地址：https://classroom.udacity.com/courses/ud187 最終目的是訓練CNN模型，使其能識別上面的小

光于前裕于后

2020-06-25 06:24:00

吳恩達 [deeplearning.ai 神經網絡和深度學習] 第二週編程作業總結

本文參考：https://blog.csdn.net/u013733326/article/details/79639509 進入研究生階段後，首先意識到的是需要儘快對神經網絡進行熟悉與學習，於是參加了網易雲課堂吳恩達老師發佈的一系列課程

2020-06-17 16:25:20

24小時熱門文章

最新文章

最新評論文章