從零開始深度學習0513——CBIR基本知識

 

0513

 

 

感受野

 

衡量某一層的feature map 中的某一個cell 對應到原圖輸入的響應區域大小

 

如圖 輸入層11*11 沒有zero-padding

經過第一層5*5 conv  得到feature map 爲7*7

經過第二層7*7conv  得到feature map 爲1*1

所以可以知道 假如這個1*1是最後整個feature map 中的其中一個cell 根據上面的話,可以知道它對應的感受野就爲11*11,也就是對應輸入圖像的響應區域大小

 

 

 

語義分割其實就是對最後的feature map 進行像素級別的分類,通過感受野響應到輸入圖像,根據周圍的信息 去做分類

 

 

 

Output_field_size 是通過輸入計算得到的最後的feature map 大小

Input_field_size 是通過輸出的feature map計算對應的感受野

 

 

 

 

 

 

 

 

 

 

 

傳統的圖像檢索都是  手工提取圖像特徵,然後扔到SVM中進行處理,SVM需要特徵向量作爲輸入

 

 

以圖搜圖技術,

也稱爲基於內容的圖像檢索  Content-based Image Retrieval (CBIR) Framework

將大量的圖片經過特徵提取後,存儲進database,然後對查詢的圖像也進行feature extraction ,然後去database中進行相似度比對,按相似度大小返回查詢圖像

 

但是,用在工業屆中,如何進行實時的響應 是一個非常重要的點

優化後

 

 

所以會有一種索引技術在裏面,哈希的索引技術,將提取的特徵向量,比如是2048維向量映射到子空間中,比如映射成128維, 並且這128維中 存放的是 不是0就是1 的binary code   我們成爲 hash binary code 

通過這種技術,轉化爲,在128維的二進制數上進行相似度計算   會大大減小計算量

一是 維度減小  二是通過二進制的異或操作進行加速

在2048 -----à  128 這中間過程是幾乎不記的代價

準確率上即時可以假如從95% 降低到94%  但是速度上是成百上千倍的提升

 

 

 

有時候在數據量小的情況下,傳統的機器學習 也會佔優勢

深度學習 需要大量的樣本來 不斷學習 合適的參數  達到更好的acc

 

 

 

BOW   bag-of-word

包含:位置信息   關鍵點描述符

Local feature局部特徵算子

HOG   SIFT   …….

這些不是機器學習 學習的

是科學家根據統計學,一些梯度等等 科學計算方法  弄出來的

 

 

 

 

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章