深度學習&圖像處理(深度學習在圖像處理領域中的應用綜述1)

殷琪林,王金偉.深度學習在圖像處理領域中的應用綜述[J].高教學刊,2018(09):72-74

1.特徵表達/提取方法->特徵學習

圖像特徵是指圖像的原始特性或屬性,可以分爲視覺特徵或統計特徵。視覺特徵主要是人的視覺直覺感受的自然特徵(圖像的顏色、紋理和形狀);統計特徵是指需要通過變換或測量才能得到的人爲特徵(頻譜、直方圖等)。

常見特徵提取方法:

  • LBP算法(Local Binary Patterns):一種用來描述圖像局部紋理特徵的算子,具有灰度不變性。

其主要思想是在目標像素周圍定義一個3x3的窗口,以目標像素爲閾值,將相鄰的8個像素的灰度值與目標像素進行對比,大於目標像素標記爲1,小於等於則標記爲0。每個窗口都可以產生一個8位的二進制數,這樣就得到了目標像素的LBP值。然後計算每個區域的直方圖,然後對該直方圖進行歸一化處理。最後將得到的每個區域的統計直方圖進行連接成爲一個特徵向量,也就是整幅圖的LBP紋理特徵向量。然後便可利用SVM或者其他機器學習算法進行分類。

  • HOG特徵提取算法(Histogram of Oriented Gradient):在一幅圖像中,圖像的表象和形狀能夠被邊緣或梯度的方向密度分佈很好的表示,具有幾何和光學不變性。

其主要思想是將圖像灰度化,採用Gamma校正法對輸入圖像進行顏色空間的標準化以調節圖像的對比度,降低圖像局部的陰影和光照變化所造成的影響,同時可以抑制噪音的干擾;計算圖像每個像素的梯度,將圖像劃分成小區域,統計每個區域的梯度直方圖,將每幾個區域組成一個批次,一個批次內所有區域的特徵串聯起來便得到該批次的HOG特徵。將圖像內的所有批次的HOG特徵串聯起來就可以得到該圖像的HOG特徵。這個就是最終的可供分類使用的特徵向量了。

  • SIFT算子(Scale-invariant feature transform):通過求一幅圖中的特徵點及其有關尺寸和方向的描述子得到特徵並進行圖像特徵點匹配,具有尺度不變性和旋轉不變性。

其主要思想是首先生成尺度空間->檢測尺度空間極值點->去除不好的特徵點->爲每個關鍵點指定方向參數->生成關鍵點描述子->根據SIFT進行圖像的匹配。

2.圖像識別or圖像取證

圖像識別技術的過程分爲信息的獲取、預處理、特徵抽取和選擇、分類器設計和分類決策。模式識別是指對錶示事物或現象的不同形式的信息做分析和處理從而得到一個對事物或現象做出描述、辨認和分類等的過程,其主要分爲三種:統計模式識別、句法模式識別、模糊模式識別。

圖像取證不同於圖像識別的地方在於識別是區分圖像內容裏的差異,肉眼可以察覺到,而取證則是區分圖像中以微弱信號存在的操作指紋,類間形態的差異微乎其微,所以對於圖像取證問題一般的深度學習模型不能勝任。圖像取證的性質必然決定了網絡輸入的改變, 只有放大了想要提取的指紋特徵,深度學習模型才能更好地充當一個特徵提取和分類器。 

相關研究:https://blog.csdn.net/qq_35509823/article/details/86505661

3.Degradation退化

隨着網絡結構的加深,帶來了兩個問題:一是消失/爆炸梯度,導致了訓練十分難收斂,這類問題能夠通過正則化和歸一化解決;另一個是被稱爲degradation的退化現象。對合適的深度模型繼續增加層數,模型準確率會下滑,訓練誤差和測試誤差都會很高。其實當BN出現之後,梯度消失和爆炸的問題已經基本上被解決了,但是網絡層數加深之後還是會出現效果差的情況,ResNet主要解決的是網絡的退化問題。

解釋1:網絡越深,反傳回來的梯度相關性越來越差,最後接近白噪聲。我們認爲圖像具有局部相關性,因此梯度應該也具有類似的相關性,這樣的更新纔有意義,如果接近白噪聲,那其實就可以認爲做隨機擾動。自然效果就越來越差了。解釋2:引入殘差之後對參數的變化更加的敏感。原本的網絡只是學習一個從輸入到輸出的映射,現在學習的是輸入和輸出之間的差值。解釋3:現在我們要訓練一個深層的網絡,它可能過深,假設存在一個性能最強的完美網絡N,與它相比我們的網絡中必定有一些層是多餘的,那麼這些多餘的層的訓練目標是恆等變換,只有達到這個目標我們的網絡性能才能跟N一樣。對於這些需要實現恆等變換的多餘的層,要擬合的目標就成了H(x)=x,在傳統網絡中,網絡的輸出目標是F(x)=x,這比較困難,而在殘差網絡中,擬合的目標成了x-x=0,網絡的輸出目標爲F(x)=0,這比前者要容易得多。解釋4:類似LSTM的思想,加入一個進位閘,讓數據能夠傳到後面去,不至於由於網絡越來越深,到了後面學習不到有效的特徵了。所以加入一個快捷鍵,讓數據一直往下傳,讓每一層都能讀到有效的特徵。

4.降維

計算機的圖像識別技術是一個異常高維的識別技術。不管圖像本身的分辨率如何,其產生的數據經常是多維性的,這給計算機的識別帶來了非常大的困難。想讓計算機具有高效地識別能力,最直接有效的方法就是降維。降維分爲線性降維和非線性降維。常見的線性降維方法有主成分分析(PCA)/線性奇異分析(LDA),它們簡單、易於理解。但是通過線性降維處理的是整體的數據集合,所求的是整個數據集合的最優低維投影。經過驗證,這種線性的降維策略計算複雜度高而且佔用相對較多的時間和空間,因此就產生了基於非線性降維的圖像識別技術,它是一種極其有效的非線性特徵提取方法。此技術可以發現圖像的非線性結構而且可以在不破壞其本徵結構的基礎上對其進行降維,使計算機的圖像識別在儘量低的維度上進行,這樣就提高了識別速率。例如人臉圖像識別系統所需的維數通常很高,其複雜度之高對計算機來說無疑是巨大的“災難”。由於在高維度空間中人臉圖像的不均勻分佈,使得人類可以通過非線性降維技術來得到分佈緊湊的人臉圖像,從而提高人臉識別技術的高效性。

5.R-CNN

物體檢測算法中常用到的幾個概念:Bounding Box:bbox是包含物體的最小矩形,該物體應在最小矩形內部。物體檢測中關於物體位置的信息輸出是一組(x,y,w,h)數據,其中x,y代表着bbox的左上角或其他固定點,對應的w,h表示bbox的寬和高。一組(x,y,w,h)唯一確定一個定位框。Intersection over Union(IoU):對於兩個區域R和R′,兩個區域的重疊程度記爲overlap。在訓練網絡的時候,我們常依據侯選區域和標定區域的IoU值來確定正負樣本。非極大值抑制(Non-Maximum Suppression,NMS):就是把不是極大值的抑制掉,在物體檢測上,就是對一個目標有多個標定框,使用極大值抑制算法濾掉多餘的標定框。

R-CNN(即Region-CNN,是第一個成功將深度學習應用到目標檢測上的算法。R-CNN基於CNN,線性迴歸,和SVM等算法,實現目標檢測技術。物體檢查系統可以大致分爲四步進行:
獲取輸入圖像->提取約2000個候選區域->將候選區域輸入CNN網絡(候選圖片需縮放)->將CNN的輸出輸入SVM中進行類別的判定

6.目標檢測

即找出圖像中所有感興趣的目標,確定它們的位置和大小,是機器視覺領域的核心問題之一。由於各類物體有不同的外觀,形狀,姿態,加上成像時光照,遮擋等因素的干擾,目標檢測一直是機器視覺領域最具有挑戰性的問題。目標檢測要解決的核心問題是:目標可能出現在圖像的任何位置,可能有各種不同的大小,可能有各種不同的形狀。

計算機視覺中關於圖像識別有四大類任務:
分類-Classification:解決“是什麼?”的問題,即給定一張圖片或一段視頻判斷裏面包含什麼類別的目標。
定位-Location:解決“在哪裏?”的問題,即定位出這個目標的的位置。
檢測-Detection:解決“是什麼?在哪裏?”的問題,即定位出這個目標的的位置並且知道目標物是什麼。
分割-Segmentation:分爲實例分割和場景分割,解決“每一個像素屬於哪個目標物或場景”的問題。

7.四元數

四元數是用於表示旋轉的一種方式,是簡單的超複數,都是由實數加上三個虛數單位 i、j、k 組成,而且它們有如下的關係: i^2 = j^2 = k^2 = -1, i^0 = j^0 = k^0 = 1 , 每個四元數都是 1、i、j 和 k 的線性組合,即是四元數一般可表示爲a + bi+ cj + dk,其中a、b、c 、d是實數。

對於i、j、k本身的幾何意義可以理解爲一種旋轉,其中i旋轉代表X軸與Y軸相交平面中X軸正向向Y軸正向的旋轉,j旋轉代表Z軸與X軸相交平面中Z軸正向向X軸正向的旋轉,k旋轉代表Y軸與Z軸相交平面中Y軸正向向Z軸正向的旋轉,-i、-j、-k分別代表i、j、k旋轉的反向旋轉。

8.固有痕跡(指紋特性)

9.多模塊堆疊

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章