bbox迴歸預測時所採用公式思路討論（1）

原創

2018-09-02 03:33

在深度學習框架中，從faster rcnn開始，中間的預測模型，不如ssd,yolo,yolov2等，一直在用如下公式對bbox的位置進行迴歸，
tx=(x-xa)/wa
ty=(y-ya)/ha
tw=log(w/wa)

th=log(h/ha)

這裏，其實很多人看到這裏時，會有個疑問，爲什麼不用如下公式來做迴歸呢？
tx=x-xa
ty=y-ya
tw=w/wa

th=h/ha

這樣不是更加直觀，簡潔麼？

其實，採用上面的公式，原因如下。

這裏 x,y,w,h,分別代表當前的bbox的左上角點的橫軸，左上角點的縱軸，寬和高。

xa,ya,wa,ha 分別代表ground truth的相應參數。

這裏，要從x迴歸得出xa，與兩個bbox中心點的位移和寬度的變化倍數有關，兩者關係如下：

假設兩個矩形中心點位移爲d

xa +0.5*wa = x+0.5*w+d.

這裏w 和wa肯定也是有個函數關係的,定爲wa = tw*w,那麼上式就變爲：

xa+0.5wa = x+0.5*wa/tw+d,

從上式上看，xa 與x的位置關係，由wa和d共同決定，換算如下公式爲：

(x-xa)/wa = 0.5-0.5/tw-d.

這樣就可以把上式右邊的部分等價爲一個未知量tx,來回歸得到。

同理ty。

那麼來看tw=log(w/wa)的道理。

這個我感覺主要因爲計算機在數值計算上精度不夠，才採用指數來運算的，就好像我們採用softmax一樣。

利用了指數函數把無限小的數據映射爲0，把0映射爲1的特性，避免了計算機的精度粒度，在處理過小數據時，不夠用的問題。

同理th=log(h/ha),也一樣。

不知道我說的對不對，大家有沒有補充、糾正的，請不吝賜教啊，

注：在bbox迴歸預測時所採用公式思路討論（2）中，我打算討論下yolov2在這上面的改進工作，說說原理，這樣做的好處，以及實際實驗結果。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

caffe中增加自己的layer

假設新增加的層命名爲：NEW 1. 在src/proto的LayerParameter 的 LayerType下加 NEW= 數字； 2. 在src/layer_factory.cpp中，加 case LayerParam

2020-07-07 08:02:37

Fast RCNN ubuntu下安裝筆記

微軟研究院大神Ross Girshick新作：fase CNN，測試速度比RCNN快200倍。文章：http://arxiv.org/pdf/1504.08083v1.pdf 代碼：https://github.com/rbgirshi

2020-07-07 08:02:37

python深度學習---生成式對抗網絡（GAN）

生成式對抗網絡（GAN，generative adversarial network）由 Goodfellow 等人於 2014 年提出，它可以替代VAE來學習圖像的潛在空間。 ''' # 它能夠迫使生成圖像與真實圖像在統計上幾乎無

2020-07-06 21:30:11

深度學習設計

損失函數設計： 1、目標檢測領域：不提倡使用預測框座標與GT座標的差值進行損失函數統計，因爲座標差值會受座標尺寸大小影響，座標尺寸大的時候，差值相對大，座標尺寸小，差值相對小。改進：使用IOU，IOU不受座標尺寸因素的影響。（兩種座

2020-07-06 19:28:01

[百度飛槳PaddlePaddle]Python“小白”逆襲大神--訓練營結營心得

學習背景我是一個可以說混了4年的 phper，高不成低不就的。每天寫業務邏輯，改 bug，日復一日。爲啥一個 phper 幹了那麼久現在才學 python 呢？是否不務正業什麼的？其實我在17 ~ 18年就開始接觸 pytho

2020-07-06 16:27:04

cuda error

1. 問題描述想把從圖像手工生成的特徵和經過backbone提取的特徵concatenate起來再進入網絡後面的層： x_added_coord = torch.cat([x_backbone, x_coord], 1) 報錯： Ru

2020-07-05 20:39:46

pytorch Dataloader 速度慢

1. 問題描述 Dataloader每讀完一個batch中間會間隔2s左右，很浪費時間，而且確定不是由於Dataset的__getitem__()複雜導致的。並且有一個規律，如果設置num_works=4，會出現4個batch一批很快，然

2020-07-05 20:39:35

從RCNN到Faster RCNN

R-CNN (Region-based CNN features) 性能：RCNN在VOC2007上的mAP是58%左右。簡述：R-CNN要完成目標定位，其流程主要分爲四步： 1.輸入圖像 2.利用選擇性搜索(Selectiv

2020-07-05 10:51:31

深度學習基本術語

1、關於一個事件或對象的描述，稱爲一個“示例”（instance）或“樣本”（sample），“示例”或“樣本”的集合稱爲一個“數據集”（data set）。例如，（色澤=青綠；根蒂=蜷縮；敲聲=濁響），（色澤=烏黑；根蒂=

2020-07-05 06:12:43

Deep Learning科普

首先，要由人工智能之父圖靈說起。圖靈曾經有個夢想卸載《計算機器與智能》（1950）一文中，如果有一天，計算機能夠做到，隔着牆，你根本分不清對面和你交流是一個人還是計算機，那麼這臺計算機就具有了人工智能。接下來的半個世紀裏

生命不止coding不息

2020-07-04 20:52:07

理解CNN神經網絡

首先構建好用於學習的模型，也就是各個層用什麼激活函數、輸出層的如softmax函數、各層神經元的個數、損失函數等等。然後使用訓練數據集來不斷的調整模型的參數（學習）。具體怎麼做的？首先設定一個初始參數。然後開始學習，計

2020-07-04 12:09:04

What is Back Propaganda？

反向傳播用來計算導數，但這個不是反向傳播的特性，這個導數怎麼算是要自己來寫的！把每一層的結點的導數計算公式封裝在結點內部後，再來使用反向傳播，反向傳播的特性就是：鏈式法則，或者說反向傳播是符合鏈式法則的，有了這個前提，我們纔可以

2020-07-04 12:09:04

caffe-車尾識別

caffe-車尾識別 opencv，caffe，傳統方法和深度方法結合 http://weibo.com/PVl32019.01.075t3p/2313474325750605004851/wenda_home http://weibo.

2020-07-04 11:12:41

whats is the difference between train, validation and test set, in neural networks?

The training and validation sets are used during training. for each epoch for each training data instance

2020-07-04 11:12:29

exponentially weighted averages

定義一個變量的當前值和以前所有值的加權平均公式 t=0t=0t=0時，Vt=0V_{t} = 0Vt=0 t>0t>0t>0時，Vt=βVt−1+(1−β)θtV_{t} = βV_{t-1} + (1-β)θ_{t}Vt

2020-07-04 05:20:50

24小時熱門文章

最新文章

最新評論文章