跟蹤中的主要深度學習模型介紹(一)

深度學習的發展主要經歷了三個重要的時期,從前期深度學習的前身神經網絡的提出後,深度學習發展緩慢;到中期深度學習的迅速發展,取得很多驚人成果;再到深度學習的繁盛時期,深度學習逐漸成爲很多領域的熱門研究問題。

前期(1970年~2006年):BP神經網絡的提出後,由於當時的數據不易獲取、梯度彌散問題、優化目標函數的求解過度依賴於初值選取、硬件對多大量樣本的計算能力不足等問題,前期大部分學者並不看好深度神經網絡算法,更學者轉而研究淺層學習方法(如隨機森林、支持向量機等)。  

中期(2006年~2011年): 2006年深度學習領域取得了突破進展,Hinton教授提出無監督深度置信網絡的訓練方法,使得通過深度學習算法實現人工智能成爲可能,各大領域學者又開始對深度學習充滿信心。

繁盛期(2012年~至今):2012年,Hinton教授帶領團隊繼續在深度學習上取得重大突破,其在ImageNet圖像分類大賽上以準確率超過第二名10%的成績[ ],將深度學習的發展潛力展現出來的同時,吸引了越來越的學者、企業爭相進入深度學習研究領域。

直至今日,卷積神經網絡、堆棧神經網絡等深度學習模型,不斷結合遷移學習、對抗學習以及強化學習等方法取,在圖像識別、視覺跟蹤等鄰域中取得了極大成就。接下來介紹幾個常用於目標跟蹤的深度模型。

2.1 卷積神經網絡(CNN):

卷積神經網是由卷積、非線性變換、下采樣和批量歸一化等四種基礎模塊週期性交替進行組成,其結構採用局部連接、權值共享的方式,即只有某個局部區域內的刺激才能激活神經元,這樣大大降低了網絡模型參數的同時,對訓練數據量的依賴性也降低。

卷積神經網絡的基本結構圖如下圖 2 所示,卷積層利用卷積覈對輸入圖片進行處理,可以學習到魯棒性較高的特徵;下采樣層降低圖像分辨率,減少計算量的同時刻畫平移不變性,約減下一層輸入維度減少過擬合風險;非線性變換即激勵層,通過激活函數提高模型的非線性刻畫能力,從而提高網絡表徵高層中語義特性的能力;批量歸一化操作,部分網絡會應用其做優化操作,減少訓練過程中的不穩定性,加快收斂速度;誤差的反向傳播算法,根據實際輸出與期望輸出之間的差來反向傳播計算每一層上的誤差傳播項,結合每一層輸出關於該層參數的偏導數,實現每一層參數更新,進行有監督的學習與訓練。

圖2  卷積神經網絡基本框架示意

通過分析可知,卷積神經網絡具有如下優勢:1.利用卷積覈對輸入圖片進行處理,可以學習到魯棒性較高的特徵;2.下采樣層刻畫平移不變性,同時防止過擬合風險;3.通過激活函數提高模型的非線性刻畫能力,從而提高網絡表徵高層中語義特性的能力。

近幾年,研究表明歸一化層幾乎對最後結果幫助非常小,所以多數時候就摒棄了歸一化操作;目前深度神經網絡向着更深、更大規模的方向發展,但是訓練消耗大量時間。但與早期間的深度前饋神經網絡相比,卷積神經網絡局部連接與權值共享策略,需要估計的參數更少,使它成爲非常有潛力的深度學習模型。

2.2深度堆棧神經網絡(SAE):

深度堆棧神經網絡由多個自編碼器堆疊構成,其核心思想是保持輸入與輸出儘可能一致的情況下,實現無監督方式下的隱層特徵提取圖參數學習,如下圖 3 所示爲含有兩個隱藏層的深度堆棧網絡。單個自編碼器由輸入層L1、隱藏層L2和輸出層L3構成,其中L2層也稱編碼層,L3層也稱解碼層,L1層輸入L2層進行編碼,L3再對L2進行解碼,即輸入與輸出相等。

圖 3 深度堆棧神經網絡(2層隱藏層)

根據輸入數據即爲期望輸出的原則,第一個自編碼器學習得到輸入與編碼特徵(隱藏層1)的拓撲結構,進一步將編碼特徵(隱藏層1)作爲新的輸入,利用同樣的方式得到對應的編碼特徵(隱藏層2),編碼特徵可以視爲輸入的一種合理表示,隨着層級的加深,編碼特徵愈加抽象、具有整體特性。

堆棧神經網絡有如下優勢:1.自編碼網絡的提出是爲了預訓練網絡參數,給網絡參數一個合適的初值;2.現實生活中,那些打好標籤的數據其實是很少的,自編碼網絡提供了一種無監督聚類的能力;3.逐層學習策略,將相鄰兩層網絡視爲淺層網絡,加快學習速率,提高網絡的泛化能力。

深度堆棧神經網絡採用逐層學習策略,發揮了淺層神經網絡(SAE)的優勢以獲取初始化參數,通過“堆棧”形成深度神經網絡,最後將整個堆棧自編碼神經網絡的所有層都看成一個模型,統一對模型中的參數進行微調,與卷積神經網絡一樣具有強大的表達能力。自編碼網絡的一個改進是降噪自編碼網絡,與自編碼網絡不同的是,降噪自編碼網絡對應的降噪自編碼器(SDAE)輸入是帶有高斯噪聲的輸入,期望輸出沒有噪聲的數據,通過最小化重構誤差,使得降噪自編碼網絡具有一定抗噪能力,且其對輸入數據更具魯棒性。

圖4 自編碼網絡(右)、降噪自編碼網絡(左)的對比

圖 中左邊顯示了自編碼網絡、右邊顯示了改進後的降噪自編碼網絡,從圖中可以看出,自編碼網絡重構的是期望輸出與輸入的對比誤差,降噪自編碼重構的是期望輸出和噪聲輸入的對比誤差。因此,後者除了具備一般自編碼網絡的特性外,其能夠學習到魯棒性更好的特徵表達,泛化能力也比前者更強。

2.3 深度生成網絡(GEN):

生成對抗網絡的核心思想是從訓練樣本中學習所對應的概率分佈,以期根據概率分佈函數獲取更多的“生成”樣本來實現數據擴展,其本質是通過擴展數據量以提高訓練模型的泛化能力,其網絡結構如下圖  所示,生成模型和判別模型的設計可以採納各種深度神經網絡,下圖  中選用了卷積神經網絡,故爲深度卷積對抗生成網絡。

圖5 深度卷積對抗生成網絡結構

深度對抗神經網絡,由兩個子網絡組成。一個生成模型,爲了生成與“真”圖像分佈相似的 “僞”圖像;另外一個判別模型,爲了在生成的“僞”圖像與“真”圖像中進行正確判斷。整個網絡呈現一種“對抗”關係,最終生成模型通過學習“真”數據的本質特性,刻畫出“真”數據的分佈概率,生成與“真”數據相似的新數據,達到了數據擴展的目的;同時,判別模型的性能也在“對抗”中逐步提高,得到一個特徵判別能力強大的判別器。深度對抗神經網絡已經在圖像分類、分割、檢測等諸多領域得到突破性成績,近年也在視覺跟蹤領域得到成功應用。

2.4注意力機制模型

注意力機制模仿人類視覺中大腦對信號的處理機制,人類視覺系統可以在快速獲取全局圖像後,重點注意感興趣的目標區域,以此獲得更多目標的細節信息。這種注意力的集中,可以更加快速在有限的時間內獲取更有價值的信息。其數學模型描述公式(1)所示,其模型結構如圖  所示, 對之前隱藏層狀態 的加權求和,權值 爲即注意力得分; 爲當前隱藏層狀態,注意力函數 計算 和 之間的非線性映射得分,之後用softmax函數進行歸一化得到概率分佈 .

圖6 全局注意力機制模型結構圖

注意力機制模型的一大優點是專注輸入數據與當前輸出顯著相關的有用信息,因其結構化的選取輸入子集,降低了輸入數據維度。注意力機制模型與RNN、CNN等神經網絡結合,已經成爲深度學習的一個熱點,目前在自然語言處理、圖像處理、目標跟蹤等領域得到廣泛應用。

2.5.孿生網絡模型(SimeaeNet)

孿生網絡是指包含兩個或多個相同子網絡的一類神經網絡,這類網絡不僅具有相同的參數和權重,參數跟新也是同時在子網絡中進行,其模型結構圖如下圖  所示。

圖7 孿生網絡模型結構

孿生網絡核心思想是度量學習,實現方法是構建合適的距離函數(如歐氏距離等)描述樣本之間的相似度,對同一類別樣本相似度大距離小,不同類別樣本相似度小距離大。模型數學描述即:

   

公式(2)中樣本輸入一對樣本 和標籤 ,其中y=1樣本對爲不同標籤,y=0樣本對爲同一標籤,樣本對通過神經網絡映射到特徵空間 ,計算映射後樣本對距離函數 ,若 則 與 爲同一標籤,反之,則爲不同標籤;結合標籤y計算對比損失函數 ,更新網絡參數。

    孿生網絡對於類別數多,但每個類別樣本少的情況下,可以僅僅學習少量樣本相似度,以此度量未知樣本的類別。在計算機視覺的圖像匹配、圖像識別、圖像檢索、多視圖3D重建、運動結構分析等領域應用廣泛,近年逐漸被應用於視覺跟蹤領域,精度達到要求的同時,實時性也很強。

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章