mosse(Minimizing the Output Sum of Squared Error)論文解讀


原文地址:https://www.cs.colostate.edu/~vision/publications/bolme_cvpr10.pdf


摘要

最小輸出誤差平方和(MOSSE)濾波器,對光照,尺度,姿勢和非剛性變形的變化具有魯棒性。 根據峯-旁瓣比檢測到遮擋,這使跟蹤器可以暫停並恢復到物體再次出現時停止的位置

基於相關濾波的跟蹤

首先,計算輸入圖像的二維傅立葉變換:F=Ff\boldsymbol{F}=\mathcal{F}\text{(}\boldsymbol{f}\text{)}和濾波器的二維傅立葉變換:H=Fh\boldsymbol{H}=\mathcal{F}\text{(}\boldsymbol{h}\text{)}。 卷積定理指出,函數卷積的傅立葉變換是函數傅立葉變換的乘積。 使用⊙符號表示元素點乘法,並使用*表示複共軛,相關性採用以下形式:
在這裏插入圖片描述

使用逆FFT將相關輸出轉換回空間域。 此過程的瓶頸是計算正向和逆向FFT,因此整個過程的上限時間爲O(P log P),其中P是跟蹤窗口中像素的數量。

預處理

首先,使用對數函數對像素值進行轉換,該函數有助於解決低對比度照明情況。 像素值被歸一化爲平均值爲0.0,範數爲1.0。 最後,將圖像乘以餘弦窗口,該餘弦窗口將邊緣附近的像素值逐漸減小爲零。 這還有一個好處,就是可以將更多的重點放在目標的中心附近。

mosse濾波器

首先,它需要一組訓練圖像fi和訓練輸出gi。 通常,gi可以是任何形狀。 在這種情況下,gi是由ground truth生成的以至於它具有一個(σ= 2.0)2D高斯形狀的峯,其中心位於訓練圖像fi中的目標。
訓練在傅立葉域中進行,以利用輸入和輸出之間的簡單元素關係。 如上一節所述,我們將大寫變量Fi,Gi和濾波器H定義爲它們的小寫字母對應變量的傅立葉變換。
在這裏插入圖片描述
除法是按元素進行相除的。
爲了找到一個將訓練輸入映射到期望的訓練輸出的濾波器,MOSSE找到了一個濾波器H,該濾波器使卷積的實際輸出和期望的卷積輸出之間的平方誤差之和最小。
此最小化問題的形式爲:
在這裏插入圖片描述
Fi和Gi是輸入圖像以及傅立葉域中的相應所需輸出,目標是找到一個濾波器H,該濾波器使輸出誤差平方和最小。 因爲傅立葉域中的相關是逐元素相乘,所以可以獨立地優化濾波器H的每個元素。 因此,優化問題可以從多元優化問題轉變爲獨立地優化H的每個元素的問題。
在這裏插入圖片描述

其中ω和ν索引H的元素。

此函數是實值的,正的和凸的,因此將只有一個最優值。 通常,爲了找到函數的最優值,可通過將導數設置爲零,然後求解目標變量的來找到穩定點。 爲該函數找到穩定點是不同的,因爲它是復變量的實數值函數。

解決此優化問題並不特別困難,但需要格外小心,因爲要優化的函數是複雜變量的實值函數。 首先,H的每個元素(由ω和ν索引)可以獨立求解,因爲傅里葉域中的所有運算都是逐元素執行的。 這涉及根據Hων\boldsymbol{H}_{\boldsymbol{\omega \nu }}Hων\boldsymbol{H}_{\boldsymbol{\omega \nu }}^{*}重寫函數。 然後,部分Hων\boldsymbol{H}_{\boldsymbol{\omega \nu }}^{*}設爲零,同時將Hων\boldsymbol{H}_{\boldsymbol{\omega \nu }}視爲自變量
在這裏插入圖片描述

可以證明,滿足該方程式的任何Hων\boldsymbol{H}_{\boldsymbol{\omega \nu }}都是一個穩定點。

在這裏插入圖片描述
計算偏導得:
在這裏插入圖片描述
求解Hων\boldsymbol{H}_{\boldsymbol{\omega \nu }}得:
在這裏插入圖片描述
最後通過求解H *,我們用原始數組表示法將該表達式重寫爲,可以找到MOSSE濾波器的閉式表達式:
在這裏插入圖片描述

濾波器初始化以及在線更新

使用隨機仿射變換構造訓練集,以在初始幀中生成跟蹤窗口的八個小擾動(fi)。還會生成訓練輸(gi),其峯值對應於目標中心。
mosse濾波器爲:
在這裏插入圖片描述
其中η是學習率。 η取值爲0~1,η越大,則代表當前幀受前一幀的影響就越小,當η=1時,則完全不受前一幀的影響。 在實踐中,我們發現η= 0.125可使濾波器快速適應外觀變化,同時仍保持濾波器的魯棒性。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章