Visual Tracking with Online Multiple Instance Learning (MIL)目標跟蹤論文筆記

原創

2018-09-04 01:56

1. 論文信息

論文標題：Visual Tracking with Online Multiple Instance Learning
論文作者：
1. Boris Babenko，University of California, San Diego
2. Ming-Hsuan Yang，University of California, Merced
3. Serge Belongie，University of California, San Diego
發表會議：CVPR，2009

2. 基礎知識

目標跟蹤的三大要素：圖像表示（Image Representation）、外觀模型（Appearance Model）和運動模型（Motion Model）。
本文中的圖像表示爲Haar-like特徵，外觀模型由一個判別分類器組成，運動模型就是在上一幀目標周圍取一系列的patches（要求：距離 < s ），看哪一個patch的概率最高就將新的目標框給它（貪心算法）。
本文的重點是外觀模型。
本文沒有考慮旋轉和尺度變化。

3. 整體思路

只要能夠在每一幀中都能應用上述貪心算法，理論上就能實現目標跟蹤，那麼，程序如何計算各個patches（要求：距離 < s ）的概率呢？
只要每一幀確定了當前的目標位置，程序就會對外觀模型進行更新，實質上是更新判別分類器，新的分類器會對各個patches（要求：距離 < s ）的概率重新進行計算，將概率最大的patch作爲新的目標位置。

4. 判別分類器如何更新

一旦確定了當前的目標位置，就選取一組patches（要求：γ < 距離 < β ），把這些patch放到一個包裏面，標記爲positive，即假設這個包裏面的所有patch中，至少有一個是正樣本。
同時也另選取一組patches（要求：γ < 距離 < β ），對於這些patch，每個都作爲一個獨立的包（有多少個patch，就有多少個包），標記爲negative，即假設這個包裏面的patch是負樣本。
注意：這裏用的判別分類器並不是一個單獨的分類器，實際上它由許多獨立的基於Haar-like特徵的弱分類器構成，將這些弱分類器用線性的方式加起來，就形成了一個Haar級聯分類器：

H (x) = \sum k = 1 K α k h k (x) (1)

上述公式(1)中的K 表示候選分類器，αk 是權值，最終目的是從M 個Haar-like特徵分類器中選出K 個用於進行判別。

該論文在更新判別分類器時，核心算法如下所示：
1. for k = 1 to K do
2. for m = 1 to M do
3. pmij=σ(Hij+hm(xij))
4. pmi=1−∏j(1−pmij)
5. Lm=∑i(yilog(pmi)+(1−yi)log(1−pmi))
6. end for
7. m∗=argmaxmLm
8. hk(x)←hm∗(x)
9. Hij=Hij+hk(x)
10. end for
在上述算法中，第三行中求的是樣本的概率，第四行求的是包的概率。
從上面的算法可以看出，本文MIL算法主要依賴對數似然函數進行求解，每處理一幀圖像，算法就會採集一些訓練樣本{(X1,y1),(X2,y2)⋯} ，其中Xi={Xi1,Xi2⋯} ，這時，算法會通過估計p(y|x) 的值來使對數似然函數最大化，如下所示：

$log L = \sum i log (p (y i | X i)) (2)$
其中，

$p (y | x) = σ (H (x)) (3)$
而

$σ (x) = 1 1 + e - x (4)$
σ(x) 是Sigmoid函數，其中x 爲H(x) ，表示分類器的結果。

5. 一些不足及相應的修補方法

對於positive包，一個包中有多個實例，文章在計算時假定這些實例全部爲正樣本，這種假設離真實情況存在差異，其補救辦法是：基於似然損失函數來選擇弱分類器h 。
在選擇弱分類器時，沒有采用係數，文章沒有對此問題加以補救，文章認爲這並沒有影響性能。
似然函數在計算時，僅僅依據當前的樣本，可能導致對當前樣本的過擬合，文章通過保留歷史數據的做法進行修補（前面的算法有沒有體現這種思想？）

6. 實現細節

在文章中，每一個弱分類器hk 由一個Haar-like特徵fk 以及對應的4個參數構成，弱分類器返回一個對數概率，如下所示：

$h k (x) = log [p t ( y = 1 | f k ( x ) ) p t ( y = 0 | f k ( x ) )] (5)$
其中，

$p t (f t (x) | y = 1) \sim N (μ 1, σ 1) p t (f t (x) | y = 0) \sim N (μ 2, σ 2) (6)$
文章令p(y=1)=p(y=0) ，採用貝葉斯來計算hk(x) 。當這個弱分類器接收了一組新數據{(x1,y1),(x2,y2),...,(xn,yn))} 時，更新的原則如下所示：
$μ 1 \leftarrow γ μ 1 + (1 - γ) 1 n \sum i | y i = 1 f k (x i) σ 1 \leftarrow γ σ 1 + (1 - γ) 1 n \sum i | y i = 1 (f k (x i) - μ 1) 2 - - - - - - - - - - - - - - - - - \sqrt (7)$
其中，γ 被稱爲學習率參數。
對μ0 和σ0 的更新原則也是一樣的。
上述弱分類器函數hk(x) 的計算在配套代碼中有所體現，比如：

x = samples.feature;
p0 = exp((x - mu0).^2.*e0).*n0;
p1 = exp((x - mu1).^2.*e1).*n1;

r = log(eps + p1) - log(eps + p0);

7. 源碼分析

源碼中幾個重要的步驟有：採樣、爲每個樣本計算Haar特徵、更新弱分類器和選擇分類器，其中更新弱分類器有三個相關函數（weakClassifierUpdate、weakClassifier、MilBoostClassifierUpdate）。
函數weakClassifierUpdate、weakClassifier、MilBoostClassifierUpdate之間的區別在於，weakClassifierUpdate 主要用於更新μ 和σ ，weakClassifier。主要用於存放各個弱分類器對各個樣本的分類結果， MilBoostClassifierUpdate主要用於選出50個分類器。
算法的主要結構如下圖所示：

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

論文筆記之Structural Deep Network Embedding

本論文是kdd2016的一篇論文主要的目的也是做node embedding。主要的想法就是通過deep autoencode對node進行embedding，不過在在embedding的時候不僅考慮了1-hop的信息而且考慮

2020-07-08 10:23:34

論文筆記之Fully Convolutional Networks for Semantic Segmentation

最近了解到了Image Semantic Segmentation方面的知識，在此做一個記錄。這篇論文是2015cvpr的best paper，可以說是在cnn上做圖像語義分割的開山之作。 1.語義分割定義：語義就是指物體的

2020-07-08 10:23:34

MobileNets: Efficient Convolutional Neural Networks for Mobile Vision Applications論文閱讀筆記

論文地址：MobileNets: Efficient Convolutional Neural Networks for Mobile Vision Applications MobileNet是爲移動和嵌入式設備提出的輕量級網絡

2020-07-07 12:29:52

【Paper Note】Representation Learning-Assisted Click-Through Rate Prediction (DeepMCP) 論文詳解

https://arxiv.org/pdf/1906.04365.pdf 背景以往的點擊率預估模型像FM系列、WDN等模型，都只是考慮特徵和ctr之間的聯繫，阿里的這篇論文，提出了DeepMCP模型，不僅考慮了特徵和ctr之間

2020-07-07 01:30:56

論文筆記——Federated learning framework for mobile edge computing networks

論文筆記——Federated learning framework for mobile edge computing networks 本論文着重研究的是聯邦學習應用於需求預測類問題。一般來說，FL存在的一些問題：非獨立同分布數據

2020-07-06 10:38:33

WWW19 A First Look at Deep Learning Apps on Smartphones

這篇文章有點像行業調查，對目前市場上APP中DL的各個特性進行統計，調研時間從2018.06 ～ 2018.09 大約三個月的時間，作者也說了後續會繼續跟進。作者製作了一個可以嗅探Android apk中DL的軟件，同時對APP

2020-07-06 03:56:57

【論文筆記-AAAI2020】Overcoming Language Priors in VQA via Decomposed Linguistic Representations

這篇博客會大概講解一下論文的工作，以及一些VQA 領域的近況，也會涉及到一些自己的見解。一些容易誤解的地方，我會盡量的表達細緻，方便讀者理解。如果需要深入研究，推薦自行再品讀該論文：https://jingchenchen.git

2020-07-05 19:21:39

[NIPS 2019] Multi-Agent Common Knowledge Reinforcement Learning筆記

文章目錄前言IntroductionProblem settingCommon knowledgeLearning under common knowledge (LuCK)Field-of-view common knowled

强殖装甲凯普

2020-07-05 06:05:25

【論文筆記】TensorFlow深度神經網絡提前穩定特徵重要性

論文地址：Early Stabilizing Feature Importance for TensorFlow Deep Neural Networks 博客裏只給出一下論文中介紹的方法這一章節，論文中前面介紹了神經網絡中特徵

2020-07-05 01:13:40

【論文筆記】CUSBoost：基於聚類的提升下采樣的非平衡數據分類

原論文地址：CUSBoost: Cluster-based Under-sampling with Boosting for Imbalanced Classification Abstract 普通的機器學習方法，對於非平衡數據

2020-07-05 01:13:30

【論文筆記】Deep Survival: A Deep Cox Proportional Hazards Network

相關資源原論文地址：here 論文中使用的深度生存分析庫：DeepSurv，是基於Theano 和 Lasagne庫實現的，支持訓練網絡模型，預測等功能。考慮到DeepSurv庫中存在着一些錯誤以及未實現的功能，博主使用目前主

2020-07-05 01:13:29

論文筆記2：A Single Model CNN for Hyperspectral Image Denoising

2020-07-04 23:28:40

unsupervised image segmentation by backpropagation-論文筆記

這是一個有趣的非監督分割方法代碼短小精悍直接說算法 1.首先對原圖進行超像素分割。 2.使用卷積網絡進行正向傳播。網絡輸出100channel，輸出和輸入大小相同。也就是說，每個輸入像素對應輸出100個像素。這10

2020-07-04 18:40:16

Scaling Up Crowd-Sourcing to Very Large Datasets: A Case for Active Learning-筆記

通過Active Learning（AL）算法，找到最小的需要標註的數據進行訓練，來標記未標記的數據。 AL必須滿需下邊的需求才能作爲crowd-sourced database的默認的最優策略： Generality

2020-07-04 18:40:16

Bootstrap-Scaling Up Crowd-Sourcing to Very Large Datasets: A Case for Active Learning

論文Scaling Up Crowd-Sourcing to Very Large Datasets A Case for Active Learning對bootstrap做了介紹。原書（B. Efron and R. J.

2020-07-04 18:40:16

24小時熱門文章

最新文章

最新評論文章