圖像的高頻和低頻

首先說說圖像頻率的物理意義。圖像可以看做是一個定義爲二維平面上的信號,該信號的幅值對應於像素的灰度值(對於彩色圖像則是RGB三個分量),如果我們僅僅考慮圖像上某一行像素,則可以將之視爲一個定義在一維空間上的信號,這個信號在形式上與傳統的信號處理領域的時變信號是相似的。不過是一個是定義在空間域上的,而另一個是定義在時間域上的。所以圖像的頻率又稱爲空間頻率,它反映了圖像的像素灰度在空間中變化的情況。例如,一面牆壁的圖像,由於灰度值分佈平坦,其低頻成分就較強,而高頻成分較弱;而對於國際象棋棋盤或者溝壑縱橫的衛星圖片這類具有快速空間變化的圖像來說,其高頻成分會相對較強,低頻則較弱(注意,是相對而言)。

舉個可能不大恰當的例子:

人眼對圖像中的高頻信號更爲敏感,假如你是一個近視,面對一幅圖象,你戴上眼鏡,盯緊一個地方看到的是高頻分量;摘掉眼鏡,眯起眼睛,模模糊糊看到的就是低頻分量。

池化操作時在卷積神經網絡中經常採用過的一個基本操作,一般在卷積層後面都會接一個池化操作,但是近些年比較主流的ImageNet上的分類算法模型都是使用的max-pooling,很少使用average-pooling,通常來講,max-pooling的效果更好,雖然max-pooling和average-pooling都對數據做了下采樣,但是max-pooling感覺更像是做了特徵選擇,選出了分類辨識度更好的特徵,提供了非線性,根據相關理論,特徵提取的誤差主要來自兩個方面:(1)鄰域大小受限造成的估計值方差增大;(2)卷積層參數誤差造成估計均值的偏移。一般來說,average-pooling能減小第一種誤差,更多的保留圖像的背景信息(這裏可以理解爲average-pooling保留圖像的低頻信息),max-pooling能減小第二種誤差,更多的保留紋理信息(max-pooling更能保留圖像的高頻信息)。average-pooling更強調對整體特徵信息進行一層下采樣,在減少參數維度的貢獻上更大一點,更多的體現在信息的完整傳遞這個維度上,在一個很大很有代表性的模型中,比如說DenseNet中的模塊之間的連接大多采用average-pooling,在減少維度的同時,更有利信息傳遞到下一個模塊進行特徵提取。

但是average-pooling在全局平均池化操作中應用也比較廣,在ResNet和Inception結構中最後一層都使用了平均池化。

 

參考:

https://blog.csdn.net/u012193416/article/details/79432668

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章