深度學習文獻總結

文獻1.  Hinton在《科學》上發表的“reducing the dimensionality of data with neural networks”.

        引用格式:Geoffery E. Hinton, Salakhutdinov RR. Reducing the dimensionality of data with neural networks. Science. 2006 Jul 28;313(5786):504-7.

總結:在本文中,作者提出:高維數據可以通過訓練一個多層神經網絡和一個小的中心層轉換爲用低維度神經節點表示的數據。文中認爲在初始化權重比較好的情況下, 採用梯度下降進行權重微調的“autoencoder”網絡,具有很好的學習能力,但是在初始權重不好時效果表差,該文的主要貢獻是提出了一種有效的初始化權重方法,該方法允許深度自編碼網絡(deep encoder networks)從低維編碼(low-dimensional codes)中相比於主成分分析,學習得更快更好。主成分分析常用於降低數據的維度。

文獻2.  2002年Hinton在《Neural Computation》上發表的“A fast learning algorithm for deep belief nets”。引用格式:Geoffrey E. Hinton, Simon Osindero, Yee-Whye Teh, A fast learning algorithm for deep belief nets Neural Compute, 18(7), 1527-54 (2006)

總結:文中提出了一種稱爲“互補先驗”的方法來解決在含有多個隱藏層的網絡中權重推算的問題;然後基於“互補先驗”提出了一種快速貪婪的算法,該算法能夠一次學習一層節點的權重,可以用來在網絡學習的權重微調階段進行初始化。經過權重微調,一個含有3層Hidden layers的網絡可以對手寫數字圖像進行很好的分類。效果比最好的(06年之前)的判別學習算法都要好。

文獻3.  Hinton在1995年在《Science》上發表的”The wake-sleep algorithm for unsupervised neural networks”。引用格式:Hinton G E, Dayan P, Frey B J, et al. The "wake-sleep" algorithm for unsupervised neural networks.[J]. Science, 1995, 268(5214):1158-61. 1.在本文中作者提出“Wake-sleep”算法,在“Wake”階段,自底向上學習,在“Sleep”階段,自頂向下學習Bottom-up是指對數據進行抽象,而抽象具體表現就是input與隱藏層之間是通過”recognition”connection連接; 2.“top-down”就是泛化問題,在下一層對上一層進行重建; 3. 在“Wake”階段,調整generative connections 以使重構最接近input;在“sleep”階段,調整recognition connections表徵以使抽象(識別)出來的向量在上一層中能更好地激活各個神經元。文中首先引入損失函數

C(a,d) = C(a) + C(a|d)

            文中認爲調節”recognition weights”不應以最小化C (d) 爲目標,而是還應該考慮各種分佈的熵,損失函數應該爲另外一種形式。(需要在Word中用Mathtype軟件編輯),在generative階段,認爲訓練出來的概率分佈Q應該儘可能接近後驗概率分佈,文中假設已知底層時,上層神經元之間的分佈是獨立的,那麼Q 就可以寫成一種連乘積的形式。用另外一種說法概括是:使得高層的特徵提取器能夠和底層進行通信,同時可以很容易地使用隨機二態神經元的分層網絡來實現,這些神經元的激活概率關於總輸入是一個平滑非線性方程,其中si和sj是神經元i和j的活躍度(activity),從上而下生成圖像的隱藏層神經元的二進制狀態可以被用來作爲它訓練從下而上的認知權值(reco-weights)時的期望輸出。生成權值爲generative weights,簡稱gene-weights,認知權值爲recognition weights,reco-weights,這樣,基於少量隨機值在2種學習階段中切換,可以同時學習得到認知權值。

知乎中摘的CVPR2016中比較好的論文:

作者:孔巴巴
鏈接:http://www.zhihu.com/question/47385572/answer/106144285

在CVPR會場更新
ResNet獲得了best paper.

這個題目被邀請真是受寵若驚。我關注的方向是2D圖像檢測和識別,其實這個方向更新比較快,很多文章在早就在Arxiv上掛出來了。說亮點的話還是等開完會吧。
說幾個感覺比較好的工作(排名不分前後),隨時更新。。。

1. Deep Residual Learning for Image Recognition(Best Paper)
這是kaiming組那篇影響力很大的文章,不用說了

2. You Only Look Once: Unified, Real-Time Object Detection
YOLO用純CNN來做檢測,可以達到實時的效果,雖然今年SSD的效果做的好很多,但YOLO確實起到了先驅的作用。另,一作貌似是一個傳奇人物。

3. Training Region-Based Object Detectors With Online Hard Example Mining
這個工作比較新,他提供了在F-RCNN的框架下,在訓練過程中如何對樣本進行選擇的一種解決方案。而且確實work。

4. Accurate Image Super-Resolution Using Very Deep Convolutional Networks
這是做超分辨率重建的一篇文章,主要的創新點在於在網絡的最後用原圖來輔助重建,有點殘差網的意思,當然效果也很好。

5. Inside-Outside Net: Detecting Objects in Context With Skip Pooling and Recurrent Neural Networks
在F-RCNN的框架下如何對特徵進行增強,文章主要考慮了multi-layer fusion和context信息。

6. HyperNet: Towards Accurate Region Proposal Generation and Joint Object Detection
通過對CNN的多層特徵進行融合提高定位準確性,利用類似於Faster-RCNN的方式進行目標檢測

7. Exploit All the Layers: Fast and Accurate CNN Object Detector With Scale Dependent Pooling and Cascaded Rejection Classifiers.
通過在CNN的多層建立級聯分類器來抑制負樣本(在目標檢測中對負樣本進行合理抑制起到了關鍵作用)

文獻4.  CVPR2016會議論文:《Inside-Outside Net: Detecting Objects in Context with Skip Pooling and Recurrent Neural Networks》,引用格式:Bell S, Zitnick C L, Bala K, et al. Inside-Outside Net: Detecting Objects in Context with Skip Pooling and Recurrent Neural Networks[C]. 2015.

         總結:文中提出了一種基於上下文和多尺度表徵的目標檢測網絡,稱爲Inside-Outside Net(簡稱ION),ION採用空域遞歸神經網絡採取上下文信息,用間隔池化(skip pooling)提取多尺度表徵信息,然後將兩種信息集成,如下圖所示:

         ION從con,conv4,conv5這3個卷積層的池化後結果提取多尺度信息,這樣這些尺度信息具有不同的分辨率和不同層次的抽象。經過conv5後的抽象結果再經過兩層4方向改進RNN得到有關上下文的特徵,4向RNN至少要有兩層以保證上下文信息在全圖像內經過了傳播。多尺度信息與上下文信息經過L2正則化後連接在一起組成特徵塊,特徵塊經過尺度變換,1*1卷積,最後經過兩層全連接網絡輸出到softmax和bbox,分別進行區域目標估計和標定框調整。

文獻5.  CVPR2016會議論文:《HyperNet: Towards Accurate Region Proposal Generation and Joint Object Detection》,引用格式:Kong T, Yao A, Chen Y, et al. HyperNet: Towards Accurate Region Proposal Generation and Joint Object Detection[C]. 2016.

         總結:針對小目標檢測困難和目標定位粗糙兩大問題,文中提出一種新的聯合建議區域產生與目標檢測的網絡。以往的region based proposal nets的問題有兩個:一是產生的建議區域(proposals)太多,二是檢測效率低。本文的主要思想是將建議分佈產生(proposal generation )和目標檢測(object detection)聯合在一起,採用瞭如下的網絡:

         首先是特徵提取,採用的是coarse-to-fine的方式,組成了一個超特徵映射集,這個超特徵映射集由多個特徵圖組成,特徵圖來源於原始圖片經過多層卷積,爲了使每個特徵圖具有相同大小,對每一層卷積出來的結果採取不同的採樣策略,比如第一層卷積結果採用MaxPooling,後面的卷積層結果採用逆卷積,這樣組合出來的超特徵映射集既具有全局輪廓信息,又有局部細節信息。

在建議區域產生(proposal generation)和目標檢測(object detection)最後均加入了一個雙分路網絡層:scoring和bbox reg, scoring用於對每個標定區域進行打分,判斷區域內是否存在感興趣的目標,bbox reg 採用迴歸對標定框進行微調並輸出框偏差。對於重疊的標定框,文中採用IoU(intersaction on unified)的值是否大於固定閾值來決定是否去除重疊的框。

文獻6.  關於基於圖論的圖像分割:《Efficient Graph-Based Image Segmentation》,2004年發表,引用格式:Felzenszwalb P F, Huttenlocher D P. Efficient Graph-Based Image Segmentation[J]. International Journal of Computer Vision, 2004, 59(59):167-181.

         總結:在本文中作者主要提出了用圖G={V,E}的表示方法來對存儲一幅圖像,其中V表示頂點,對於一幅圖像其表示所有像素,E表示每個像素和周圍像素所構成的邊,在該方法之前有用最小生成樹進行圖像分割的方法,但其缺點是閾值的選取不能避免灰度斜坡變化和具有高噪聲區域時多帶來的誤差,爲此文中提出了兩個概念:過精細和過粗糙,爲了使得分割是太精細和不是太粗糙,文中提出了一種新的分割方法,新分割方法需要利用到分割區域的域內差,分割區域之間的域間差,以及判斷邊緣的一種距離度量。

在編程中遇到的問題是:生成最小生成樹耗時巨大,到底是應該首先將整幅圖像首先生成最小生成樹,還是先執行算法前3步然後對分割出來的區域進行最小生成樹生成。

文獻7.  關於非極大值抑制算法:《Efficient Non-Maximum Suppression》,2006年發表,Pattern Recognition, 2006. ICPR 2006. 18th International Conference on

           主要講了所求的一維或二維區域在存在重合時如何從重選取最大的置信度的區域,並且如何提高計算速度,在圖像目標識別中,通常用IoU來作爲目標區域與標定框之間的差別,IoU越大的越有可能作爲目標標定的區域,該算法作爲selective search和bounding box regression的基礎,現在用於多篇CPVR 文章。

文獻8.  採用selective search進行圖像分割和目標識別的文獻《Segmentation as Selective Search for Object Recognition》,文章出自2011年ICCV會議上。該文獻首先指出目前的圖像分割方法基本是使用窮舉法,這種方法的缺點是耗時而且效果並不好,文中提出的selective search方法基於以下兩點考慮:首先是不能產生建議區域的目標不含被識別;第二,形狀和外貌以及目標周圍的背景信息對於識別目標具有重要作用。該文算法是類別獨立的,算法與分類類別無關,不用考慮圖像中的目標是什麼,文中的算法在Pascal VOC2007的測試集中取得了96.7%的結果,每幅圖像只需1536個平均區域,該算法使得更有價值的詞袋方法在VOC2010數據集上的識別額準確率提高了8.5個百分點,測試數據用了20個種類中的8類。

文獻9.  中文自動化學報期刊2016年9月新出的論文《基於卷積神經網絡的T波形態分類》。該文將T波從QT數據庫中分離出來,採用了8000數據點對:(1)單峯倒置(A);(2)單峯直立(B);(3)正負雙向(C);(4)負正雙向(D);(5)低平(E)五種形態的T波進行了分類,首先用CNN進行訓練,然後對測試波形進行分類,最終結果可以達到99.1%的準確率,雖然準確率高,但是T波的標定還需要人工手動進行,並沒有實現T波標定的自動化,所以僅僅是採用CNN實現了一個分類問題,並沒有什麼大的創新點。可以用在自己以後在採用神經網絡算法自動提取出來P ,R ,T三種波形後的波形分類上面,但問題的關鍵首先是能精確地提取出P,R,T三種波的起始,波峯,和終止點。

文獻10.  中文自動化學報期刊2016年9月新出的論文《基於卷積神經網絡的T波形態分類》。該文將T波從QT數據庫中分離出來,採用了8000數據點對(訓練集和測試集總共8000個,兩者之間沒有重疊):(1)單峯倒置(A);(2)單峯直立(B);(3)正負雙向(C);(4)負正雙向(D);(5)低平(E)五種形態的T波進行了分類,首先用CNN進行訓練,然後對測試波形進行分類,最終結果可以達到99.1%的準確率,雖然準確率高,但是T波的標定還需要人工手動進行,並沒有實現T波標定的自動化,所以僅僅是採用CNN實現了一個分類問題,並沒有什麼大的創新點。可以用在自己以後在採用神經網絡算法自動提取出來P ,R ,T三種波形後的波形分類上面,但問題的關鍵首先是能精確地提取出P,R,T三種波的起始,波峯,和終止點。

文獻11.最早出現的R-CNN文獻,全稱Regions with CNN features,引用格式:Girshick R, Donahue J, Darrell T, et al. Rich Feature Hierarchies for Accurate Object Detection and Semantic Segmentation[C]// Computer Vision and Pattern Recognition. IEEE, 2014:580-587.

              總結:在本文中,作者提出了一種基於建議區域的同時採用CNN的提取特徵的方法對圖像目標進行檢測和識別。以往的方法採用的是複雜的組合系統,這種系統既採用了低層次的圖像特徵,又用到了高層次的背景信息。主要貢獻有兩個:1. 採用大容量的CNN網絡對從上而下的建議區域進行分割,從而進行定位和目標分割;2. 當標記的數據很少時採用有監督的預訓練來提高參數結果的準確率,然後將網絡採用特殊區域方法的微調,最後得到一個很好的效果提升。

本文相較之前的基於HOG和DPM的目標檢測算法有很大提升,同時用到了greedy non-maximum suppression(貪婪非最大抑制)和selective search的方法來產生類別獨立的建議區域(即category-independent region proposals),常用建議區域產生的方法有:objectness, selective research, categoty-independent object proposals, constrained parametric min-cuts(CPMC), multi-scale combinatorial grouping, Ciresan等。

文中算法主要由三個模塊組成:第一模塊是產生種類獨立的建議區域;第二模塊是一個大容量的卷積神經網絡用於從每一個區域提取固定長度的特徵;第三個模塊是採用一組特殊的線性SVM分類器對區域內的目標進行辨識(分類)。

 

文獻12.《Efficient Non-Maximum Suppression》,講的是非最大值抑制算法,常用去除圖像檢測中的冗餘檢測框,有1D,2D和多維算法,下面是從博客上摘錄下的該算法介紹:

  以上完成了SUSAN檢測邊緣的功能,或許你已經想到了怎麼用SUSAN算子來檢測角點了。通過上面對abcde等幾個圓形模板的USAN值的分析,當模板的中心位於角點處時,USAN的值最小。下面簡單敘述下利用SUSAN算子檢測角點的步驟:

         1)利用圓形模板遍歷圖像,計算每點處的USAN

         2)設置一閾值g,一般取值爲1/2(Max(n) 也即取值爲USAN最大值的一半,進行閾值化,得到角點響應

         3)使用非極大值抑制來尋找角點。

        通過上面的方式得到的角點,存在很大僞角點。爲了去除僞角點,SUSAN算子可以由以下方法實現:計算USAN區域的重心,然後計算重心和模板中心的距離,如果距離較小則不是正確的角點;判斷USAN區域的重心和模板中心的連線所經過的像素都是否屬於USAN區域的像素,如果屬於那麼這個模板中心的點就是角點。

       總結SUSAN算子是一個原理簡單、易於瞭解的算子。由於其指數基於對周邊象素的 灰度比較,完全不涉及梯度的運算,因此其抗噪聲能力很強,運算量也比較小;同時,SUSAN算子還是一個各向同性的算子;最後,通過控制參數tg,可以根據具體情況很容易地對不同對比度、不同形狀的圖像通過設置恰當的tg進行控制。比如圖像的對比度較大,則可選取較大的t值,而圖像的對比度較小,則可選取較小的t值。總之,SUSAN算子是一個非常難得的算子,不僅具有很好的邊緣檢測性能;而且對角點檢測也具有很好的效果。

       更多信息請參考:

       1SUSAN Low Level Image Processinghttp://users.fmrib.ox.ac.uk/~steve/susan/

       2OpenCVsusan角點檢測:http://blog.csdn.net/augusdi/article/details/9012555

作者:kezunhai 出處:http://blog.csdn.net/kezunhai 歡迎轉載或分享,但請務必聲明文章出處。

文獻13.

2016年ICIP會議論文《A FACTORIZATION based active model for texture segmentation》,該文主要提出一種基於小型矩陣的能量方程,首先是採用局部譜直方圖作爲結構特徵,然後基於矩陣分解理論建立一個能量函數,和已有的模型不同的是,該文只是選擇從目標區域和背景區域一起選擇的權重來決定分割曲線的運動軌跡,最後是和最新的主動輪廓模型進行了對比,最後在和返程的和真實世界拍來的圖像上進行試驗,實驗結果表明本文的方法適合優於現有方法。

文獻14.

2016年ICIP會議論文《A FACTORIZATION based active model for texture segmentation》,第一作者是:Mingqi Gao該文主要提出一種基於小型矩陣的能量方程,首先是採用局部譜直方圖作爲結構特徵,然後基於矩陣分解理論建立一個能量函數,和已有的模型不同的是,該文只是選擇從目標區域和背景區域一起選擇的權重來決定分割曲線的運動軌跡,最後是和最新的主動輪廓模型進行了對比,最後在和返程的和真實世界拍來的圖像上進行試驗,實驗結果表明本文的方法適合優於現有方法。

文獻15.

2016年ICIP會議論文《CNN based region proposals for efficient object detection》,第一作者是: Jawadul H.Bappy. 加州大學。本文主要介紹了一種採用兩個CNN用來進行圖像目標識別的方法,第一個CNN用來產生建議區域,通過採用5層CNN來生成抽象圖像,然後在抽象圖像上進行目標區域分割,最後將分割區域直接輸入到第二個CNN中,第二個CNN主要用於分類,有5層卷積,最後再加上兩層全連接層,總共7層,全連接層後面接的是一組SVM二值分類器,SVM二值分類器的訓練採用的是真實的區域框爲正值,而其他的並不都是負值,只有IoU小於0.3的才認爲是複製,處於中間的沒說是正值還是負值,但是在validate是卻是IoU大於0.5的全部是正值,其他全部是負值,這種做法值得借鑑,另外本文的難點我覺得還是介紹太少,就是建議區域的產生,工作不夠紮實,其實建議區域的產生纔是最重要的,後面的分類方面的文獻和工作已有很多,沒有什麼新意。不過採用經過5層卷積後的抽象圖像進行分割是一種可以嘗試的新方法。

文獻16.

2016年ICIP會議論文《A Novel cnn-basd match kernel for image retrieval》,第一Dan zhu,指導教師是:章毓晉。是有關採用CNN的圖像檢索方法。

二值圖像連通域的標定算法專題研究,有關這個研究有好多篇文獻。autoencoder是一種無監督的學習算法,它利用反向傳播算法,讓目標值等於輸入值,如下圖所示,常用於降維和稀疏表示。

https://img-blog.csdn.net/20131112212405984?watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQvY2hhbmd5dWFuY2hu/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70/gravity/SouthEast

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章