9. 深度學習實踐:卷積網絡(續)

接上節敘述:9. 深度學習實踐:卷積網絡

6. 結構化輸出

CNN可用於輸出高維的結構化對象,不僅僅是預測分類任務的類標籤,或者回歸任務的實數值。通常該對象是一個張量,由標準卷積層產生。例如,模型可產生張量S ,其中Si,j,k 是網絡的輸入像素(j,k) 屬於類i 的概率。

這允許模型標記圖中的每個像素。對圖像逐像素標記的一種策略:先產生圖像標籤的原始猜測,然後使用相鄰像素間的交互來修正原始猜測。一旦每個像素進行了預測,可用各種方法進一步處理,一般想法是假設大片相連的像素傾向於相同標籤。

7. 數據類型

CNN使用的數據通常包含多個通道,每個通道是時間上或者空間上,某一點的不同觀測量。如圖像通常是3通道,對應着某一個像素點在R、G、B三通道上的不同值。

卷積網絡的一個優點:可以處理具有可變的空間尺度的輸入。可變類型的輸入不能用傳統的基於矩陣乘法的NN來表示。例如,一組圖像集合,每個都具有不同的高度和寬度。固定大小的權重矩陣對其建模還不清楚。

但卷積可直接應用:核依據輸入大小被使用不同次,輸出也相應的縮放。之前說了,卷積(相乘相加)本質上可被視爲特殊的矩陣乘法,相同卷積核爲每種大小的輸入,引入一個不同大小的雙重分塊循環矩陣。

當網絡的輸出允許和輸入一樣具有可變的大小時,例如爲每個像素分配一個標籤(圖像分割),這時不需要進一步設計工作。當然有時網絡必須產生一個固定大小的輸出時,例如想爲整個圖指定一個類標籤(圖像分類),需要進行額外設計,例如池化層策略。

卷積處理可變尺寸的輸入,當且僅當輸入是因爲包含對同種事物的不同量的觀察(時間上不同長度,空間上不同寬度)而導致的尺寸變化纔有意義。若輸入是因爲它可以選擇性的包括不同種類的觀察而具有可變尺寸,使用卷積不合理。舉個例子很容易明白。例如,圖像集合中都是3通道,僅僅寬高不同,用卷積合適。若圖像集合寬高都相同,有的2通道,有的3通道,這時用卷積不合適。

8. 高效的卷積算法

設計更快的執行卷積或者近似卷積,而不損害模型準確性的方法,是一個活躍研究領域。甚至僅僅提高前向傳播效率的技術也很有用。因爲商業中通常部署網絡比訓練網絡還耗資源。

9. 隨機或無監督的特徵

CNN訓練中最昂貴的部分是學習特徵。輸出層的計算代價通常不高。當使用梯度執行監督訓練時,每步梯度計算需要完整執行整個網絡的前向和反向傳播。減少卷積網絡成本的一種方式:使用不是由監督方式訓練得到的特徵。

有三種基本策略,可不通過監督訓練而得到卷積核。一種是簡單地隨機初始化,一種是手動設計,一種是無監督的標準來學習核。卷積深度信念網絡,使用了貪心逐層預訓練。大約在2007年至13年流行,數據集很小,計算能力有限。而今,GPU等計算能力提高,大多數CNN都是以純粹監督的方式訓練。

10. CNN的神經科學基礎

CNN也許是生物學啓發AI的最成功的的案例了。1960年代,神經生理學家對貓的觀察發現:處於視覺系統較爲前面的神經元,對非常特定的光模式(例如精確定向的條紋)反映最強烈,但對其他模式幾乎沒反應。

從DL的角度來看,其工作可幫助我們專注於簡化的大腦功能視圖。關注大腦中V1的部分:初級視覺皮層。CNN被設計遵循V1的三個性質:可進行空間映射。包含簡單細胞,概括爲再一個小的空間上感受野內的圖像的線性函數,CNN的探測器單元。包含複雜細胞,如池化單元。

研究表明,大多數V1細胞具有由Gabor函數所描述的權重,其描述在圖像中的2維點處的權重,我們可認爲圖像是2維座標的函數。

這裏寫圖片描述

許多ML算法在應用於自然圖像時,會學習那些用來檢測邊緣或邊緣特定顏色的特徵。這些特徵檢測器令人聯想到V1中的Gabor函數。左圖是應用於小圖像塊的無監督學習算法學得的權重,右圖是完全監督的卷積網絡的第一層學的卷積核。

11. CNN的歷史

CNN(1989,LeCun)是第一個解決重要商業應用的NN,仍然是當今DL商業應用的前沿。20世紀90年代,AT&T開發了一個讀取支票的CNN,到90年代末,用於讀取美國10%以上的支票。後面,微軟部署了若干個基於CNN的OCR和手寫識別系統。

當前對DL的商業興趣的熱度,起始於2012年Krizhevsky贏得了ImageNet競賽。此後風生水起。

CNN是第一批能用BP有效訓練的DL網絡之一。不完全清楚爲什麼如此,可能是CNN比全連接網絡計算效率更高?

CNN本身提供了這種方法來特化NN,使其能夠處理具有清楚的網格結構拓撲的數據,在二維圖像拓撲上最爲成功。爲了處理一維序列數據,接下來將討論NN框架的另一種強大的特化:RNN。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章