saliency detection論文(一)—Saliency Detection: A Spectral Residual Approach

目錄

本文是對Xiaodi Hou和Liqing Zhang寫的《Saliency Detection: A Spectral Residual》的翻譯與總結:

《Saliency Detection: A Spectral Residual Approach》是上交高材生侯曉迪在07年的CVPR上發表的一篇論文,這篇文章提出了一個圖像視覺顯著性的簡單計算模型,這個模型和Irri提出的模型是兩個截然不同的模型,Irri模型對於圖像視覺顯著性主要關注整幅圖片突出的部分,通過各種特徵的融合提取顯著性圖,而Hou的這個模型一上來關注的點就不在一張圖片裏突出的地方,而是背景。因爲各種object的特徵各不相同,想要找到他們的共同特徵,然後定位saliency object是較爲困難的。所以Hou他們換一種思考的方式,就是不找object的共性,而是找背景的共性,背景圖像也就那麼幾種,而且大多是有共性的,所以通過找到背景的共性,然後剔除背景,剩下的就是saliency了。他們是基於圖像的頻譜來進行操作的.

1. Abstract

   雖然對於人類的視覺系統來說,能夠非常準確快速的檢測一個顯著性的Object,但是對於基於computational模型的人工智能來說,仍然是一個巨大的挑戰。這篇文章提出來了一種非常簡單的顯著性檢測的方法。
   這個方法是獨立於features,策略或者其它的之前關於object的,它是通過分析輸入圖像的log-spectrum,然後在spectral域提取出圖像的殘差譜(即就是突出部分的光譜表示。具體的算法後面有討論)。然後通過這個殘差譜通過反傅里葉變化求出saliency map。
   對於這個模型的測試不僅基於自然圖像,也在合成圖像上進行了測試,結果顯示這個方法的快速、魯棒性非常好。

2. 殘差譜模型

     Barlow提出的有效編碼假說指出,感知系統的信息處理過程與外界信號的統計特性密切相關。初級感知系統的作用就是去除輸入信號的統計冗餘。也就是說,大腦之所以能夠對外界環境自適應,是因爲複雜的外界刺激存在冗餘,而大腦的神經元能夠有效地去除這些冗餘,從而可以利用較少的資源儘可能有效地表達更多的信息。從信息論的角度來看,有效編碼假說將圖像信息H(Image)分爲兩部分:

H(Image)=H(Innovation)+H(Prior Knowledge)

H(Innovation)表示突出的部分,H(Prior Knowledge)則表示冗餘的信息。通過去除圖像冗餘信息,就可以獲得圖像與衆不同的部分,即顯著目標。

2.1 log頻譜表示

    自然圖像的統計特性具有變換不變性:即將圖像從原來的空間座標變換到頻率座標系中,圖像在空間中具有的統計特性在頻域中仍然保留,這種不變性恰好保證了採用能量譜來刻畫自然圖像空間相關性的可靠性。
在自然圖像的統計特性中尺度不變性是最經典也是研究最廣泛的特性,這種特性也被稱爲1/f法則,即自然圖像集合的平均傅里葉譜的幅值A(f)服從下式的分佈。
下圖反映了自然圖像的log-log譜和log譜的區別。有圖可見,log-log曲線近似爲一條直線,而log曲線基本符合1/f法則。由於單幅圖像具有尺度不變性以及log-log譜的數據分佈不均衡(低頻部分數據跨度大,高頻部分數據彙集),所以本文采用log譜L(f)表示圖像,L(f)=log(A(f))。

log譜與log-log譜的對比

2.2 從譜殘差到顯著圖的獲得

    對於一個系統模型而言,考慮輸入刺激信號的統計相似性可以極大地減少多餘的視覺信息,這是因爲相似性意味着冗餘。不同的圖像數據,其log譜卻有着相似的分佈趨勢,而且曲線滿足局部線性條件。因此,在不同的log譜中我們只需要關注其差異部分忽略相似部分。
    給定一幅圖像I(x)首先計算2維離散傅里葉變換,將其從空間域轉到頻域,對幅值取對數後得到log譜L(f),由於log曲線滿足局部線性條件,所以用局部平均濾波器h(f)對其進行平滑,獲得平均頻譜:

平均頻譜
試驗中,n取3,因此譜殘差就是log譜和其進行均值濾波後的差,可按下面的式子計算:
R(f)=L(f)-V(f)
因此,總共需要的式子有:
這裏寫圖片描述

    先將圖片進行傅里葉變換,計算振幅譜A(f),計算相位譜P(f)(複數x+i*y的相位是arctan(y/x)),L(f)是log振幅譜,h是一個n*n均值濾波的卷積核,作者設n=3。R(f)就是Spectral Residual譜,再將R(f)+i*P(f)求出自然指數exp。注意:由歐拉公式可知,exp(r+i*Θ) = exp(r)*(cos(Θ) + i*sin(Θ)) = exp(r)*cos(Θ) + i*exp(r)*sin(Θ),Θ是相位譜,然後對其傅里葉反變換,再進行一個高斯模糊濾波就得到了所謂的顯著性區域。

這裏寫圖片描述

3. 實驗結果分析

文章使用一種新的對比方法,計算擊中率和誤警率,公式如下所示:
這裏寫圖片描述

   其實就是object與saliency之間的一個對應的關係變形。其中Ok(x)表示第k個觀察者標記的顯著目標圖,圖中1代表目標物體,0代表背景,S(x)爲計算出來的顯著圖,用擊中率HR(hit rate)和誤警率FAR(false alarm rate)來評價檢測效果。

   這種評價標準說明一個最優的顯著性檢測系統其HR值應該在沒有被標註爲顯著目標的區域具有最小值,在被大多數人標爲顯著目標的區域具有最大值。通過比較可以得到以下結果。

這裏寫圖片描述

由圖可以看出本文方法在計算時間上比Itti方法(*注:*Irri模型對於圖像視覺顯著性主要關注整幅圖片突出的部分,通過各種特徵的融合提取顯著性圖)更快,而且準確度也得到提升。
這裏寫圖片描述

本文參考資料

1、Saliency Detection: A Spectral Residual Approach原文
2、博客:http://blog.csdn.net/chenjiazhou12/article/details/39522467

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章