圖像數據與邊緣檢測

學習目標

  • 目標
    • 瞭解卷積網絡的歷史
    • 瞭解邊緣檢測相關概念以及卷積運算過程
  • 應用

3.1.1 爲什麼需要卷積神經網絡

計算機視覺領域,通常要做的就是指用機器程序替代人眼對目標圖像進行識別等。那麼神經網絡也好還是卷積神經網絡其實都是上個世紀就有的算法,只是近些年來電腦的計算能力已非當年的那種計算水平,同時現在的訓練數據很多,於是神經網絡的相關算法又重新流行起來,因此卷積神經網絡也一樣流行。

  • 1974年,Paul Werbos提出了誤差反向傳導來訓練人工神經網絡,使得訓練多層神經網絡成爲可能。
  • 1979年,Kunihiko Fukushima(福島邦彥),提出了Neocognitron, 卷積、池化的概念基本形成。
  • 1986年,Geoffrey Hinton與人合著了一篇論文:Learning representations by back-propagation errors。
  • 1989年,Yann LeCun提出了一種用反向傳導進行更新的卷積神經網絡,稱爲LeNet。
  • 1998年,Yann LeCun改進了原來的卷積網絡,LeNet-5。

3.1.1.2 圖像特徵數量對神經網絡效果壓力

假設下圖是一圖片大小爲28 * 28 的黑白圖片時候,每一個像素點只有一個值(單通道)。那麼總的數值個數爲 784個特徵

 

那現在這張圖片是彩色的,那麼彩色圖片由RGB三通道組成,也就意味着總的數值有28 28 3 = 2352個值。

 

從上面我們得到一張圖片的輸入是2352個特徵值,即神經網路當中與若干個神經元連接,假設第一個隱層是10個神經元,那麼也就是23520個權重參數。

如果圖片再大一些呢,假設圖片爲1000 1000 3,那麼總共有3百萬數值,同樣接入10個神經元,那麼就是3千萬個權重參數。這樣的參數大小,神經網絡參數更新需要大量的計算不說,也很難達到更好的效果,大家就不傾向於使用多層神經網絡了。

所以就有了卷積神經網絡的流行,那麼卷積神經網絡爲什麼大家會選擇它。那麼先來介紹感受野以及邊緣檢測的概念。

3.1.2 感受野

1962年Hubel和Wiesel通過對貓視覺皮層細胞的研究,提出了感受野(receptive field)的概念,Fukushima基於感受野概念提出的神經認知機(neocognitron)可以看作是卷積神經網絡的第一個實現網絡。

單個感受器與許多感覺神經纖維相聯繫,感覺信息是通過許多感受神經纖維發放總和性的空間與時間類型不同的衝動,相當於經過編碼來傳遞。

 

3.1.3 邊緣檢測

爲了能夠用更少的參數,檢測出更多的信息,基於上面的感受野思想。通常神經網絡需要檢測出物體最明顯的垂直和水平邊緣來區分物體。比如

 

看一個列子,一個 6×6的圖像卷積與一個3×3的過濾器(Filter or kenel)進行卷積運算(符號爲 ), 也可能是矩陣乘法所以通常特別指定是卷積的時候代表卷積意思。

  • 相當於將 Filter 放在Image 上,從左到右、從上到下地(默認一個像素)移動過整個Image,分別計算 ImageImage 被 Filter 蓋住的部分與 Filter的逐元素乘積的和

 

在這個6×6 的圖像中,左邊一半像素的值全是 10,右邊一半像素的值全是 0,中間是一條非常明顯的垂直邊緣。這個圖像與過濾器卷積的結果中,中間兩列的值都是 30,兩邊兩列的值都是 0,即檢測到了原 6×66×6 圖像中的垂直邊緣。

注:雖然看上去非常粗,是因爲我們的圖像太小,只有5個像素長、寬,所以最終得到結果看到的是兩個像素位置,如果在一個500 x 500的圖當中,就是一個豎直的邊緣了。

 

隨着深度學習的發展,我們需要檢測更復雜的圖像中的邊緣,與其使用由人手工設計的過濾器,還可以將過濾器中的數值作爲參數,通過反向傳播來學習得到。算法可以根據實際數據來選擇合適的檢測目標,無論是檢測水平邊緣、垂直邊緣還是其他角度的邊緣,並習得圖像的低層特徵。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章