deepCNN--“卷積神經網絡用於基於圖像檢索”文章閱讀

圖像檢索:http://www.zhihu.com/question/19726630知乎的一個通俗解釋

http://baike.baidu.com/view/5529743.htm?fr=aladdin#1百度的一個解釋

基礎知識:C1,C2層介紹

C1:response normalization layers

C2: a max pooling layers

http://www.cnblogs.com/tornadomeet/archive/2013/05/05/3061457.html

C3,C4,C5卷積層

幾篇挺好的blog

http://blog.csdn.net/zouxy09/article/details/8781543

http://www.360doc.com/content/13/1123/02/9482_331447040.shtml

http://www.colabug.com/thread-1123059-1-1.html

Krizhevsky 2012年文章

Imagenet classification with deep convolutional neural networks.

http://www.docin.com/p-657388714.html

入門介紹文章

http://blog.csdn.net/zouxy09/article/details/8781543

 

文章中提到的八層神經網絡:

輸入:inuput RGB value of impixl(像素)

卷積層有五層:第一、第二層卷積層後均加上max pooling、responded normalization來進行下采樣與正則化或者是歸一化,不曉得這個怎麼翻譯的。max pooling生成高層特徵,減少特徵,把特徵分到pooling中,正則化用於抑制過擬合over filtting。在這之前,卷積層後,神經元使用激勵函數ReLU,文中使用的這個激勵函數比sogiment好在,可以防止梯度消失,八層算是比較多的,會造成梯度消失,嚴重影響訓練結果。ReLU在Lrizhevsky有很好的表述,是一種非線性映射,訓練時間也要短。

Local Response Normalization的公式如下

Denoting by aix;y the activity of a neuron computed by applying kernel i at position(x; y) and then applying the ReLU nonlinearity, the response-normalized activity bix;y is given by the expression。

第三、四卷積層後不使用pooling與normalization,第五層輸出max pooling。第6,7,8是全連接層,在這篇文章中的意義沒有深究。

回到原來的文章,這篇文章是用八層卷積神經網絡在圖像檢索上的應用。用於消除‘長期存在的一個問題’-語意鴻溝的問題‘,語意鴻溝:計算機檢測的跟底層視覺特徵相似,視覺相似;人識別:描述對象或事件的語意理解上,圖像相似性判別,語意相似,所以人眼識別和計算機識別之間有個距離成爲語意鴻溝。所以本文把卷積神經網絡用在CBIR(基於文本的圖像檢索)中

the framework of deep learning for CBIR,對於deep learning學習出來的特徵用距離函數來計算代替引文中的分類識別。

神經網絡的輸出爲特徵,然後要選取方法對特徵進行表達,以適用於新的圖像檢索中來。

1)後三層全連接神經網絡層 輸出的 direct feature (FC1, FC2, and FC3 )as the feature representations。

本文定義這三個特徵向量爲“DF.FC1”, “DF.FC2”。DF.FC3 is the feature taken from the final output layer, DF.FC2 is the features taken from the final hidden layer, and DF.FC1 is the activations of the layer before DF.FC2.這些特徵也可以用於輸入分類如SVM,進行分類識別。應用範圍:the retrieval domain is similar to the original dataset for training the CNN model.

檢測類型:

 

檢測效果:

2)Refining by Similarity Learning。imilarity learning (SL) algorithms

OASIS算法:learns a bilinear similarity measure over sparse representations

這個算法是2010年提出的,參考 Large scale online learning of image similarity through ranking. Journal of Machine Learning Research

雙線性相似測量對於稀疏表達

在三個約束下,定義X集合爲:其中S包含相關部分,D包含不相關部分。

兩個樣本的相似度函數用雙線性形式:

定義三種限制下的損失函數爲:

總的損失爲;

關於OASIS算法見上面的文章裏的

其中的權重矩陣與算法思想參考經典的PA算法

 

 

OASIS到此結束,我們定義第二種特徵表達“DF.FC1+SL”,“DF.FC2+SL”, and “DF.FC3+SL”,用於地標圖像的檢測

檢測效果

第三種特徵表述:適用於檢測未知的新樣本

有兩種方法:Refining with class labels.Refining with side information

“ReDSL.FC1”, “ReDSL.FC2”, and“ReDSL.FC3”,表達第二種方法

http://dl.acm.org/citation.cfm?id=2502112

這種方法主要用於人臉檢測,

檢測效果:

第三種參見文獻

Online multimodal deep similarity learning with application to image retrieval文獻太複雜看不大懂,總體就是用online distance metric learning algprithm with cosine similarity.
得到y代替x,作爲特徵表達。
 
注:x+和X是相似隊,X-和X是非相似隊

 

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章