從零開始深度學習0513——CBIR基本知識

原創

2020-07-02 23:52

0513

感受野

衡量某一層的feature map 中的某一個cell 對應到原圖輸入的響應區域大小

如圖輸入層11*11 沒有zero-padding

經過第一層5*5 conv 得到feature map 爲7*7

經過第二層7*7conv 得到feature map 爲1*1

所以可以知道假如這個1*1是最後整個feature map 中的其中一個cell 根據上面的話，可以知道它對應的感受野就爲11*11，也就是對應輸入圖像的響應區域大小

語義分割其實就是對最後的feature map 進行像素級別的分類，通過感受野響應到輸入圖像，根據周圍的信息去做分類

Output_field_size 是通過輸入計算得到的最後的feature map 大小

Input_field_size 是通過輸出的feature map計算對應的感受野

傳統的圖像檢索都是手工提取圖像特徵，然後扔到SVM中進行處理，SVM需要特徵向量作爲輸入

以圖搜圖技術，

也稱爲基於內容的圖像檢索 Content-based Image Retrieval （CBIR） Framework

將大量的圖片經過特徵提取後，存儲進database，然後對查詢的圖像也進行feature extraction ，然後去database中進行相似度比對，按相似度大小返回查詢圖像

但是，用在工業屆中，如何進行實時的響應是一個非常重要的點

優化後

所以會有一種索引技術在裏面，哈希的索引技術，將提取的特徵向量，比如是2048維向量映射到子空間中，比如映射成128維，並且這128維中存放的是不是0就是1 的binary code 我們成爲 hash binary code

通過這種技術，轉化爲，在128維的二進制數上進行相似度計算會大大減小計算量

一是維度減小二是通過二進制的異或操作進行加速

在2048 -----à 128 這中間過程是幾乎不記的代價

準確率上即時可以假如從95% 降低到94% 但是速度上是成百上千倍的提升

有時候在數據量小的情況下，傳統的機器學習也會佔優勢

深度學習需要大量的樣本來不斷學習合適的參數達到更好的acc

BOW bag-of-word

包含：位置信息關鍵點描述符

Local feature局部特徵算子

HOG SIFT …….

這些不是機器學習學習的

是科學家根據統計學，一些梯度等等科學計算方法弄出來的

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.