0513
感受野
衡量某一層的feature map 中的某一個cell 對應到原圖輸入的響應區域大小
如圖 輸入層11*11 沒有zero-padding
經過第一層5*5 conv 得到feature map 爲7*7
經過第二層7*7conv 得到feature map 爲1*1
所以可以知道 假如這個1*1是最後整個feature map 中的其中一個cell 根據上面的話,可以知道它對應的感受野就爲11*11,也就是對應輸入圖像的響應區域大小
語義分割其實就是對最後的feature map 進行像素級別的分類,通過感受野響應到輸入圖像,根據周圍的信息 去做分類
Output_field_size 是通過輸入計算得到的最後的feature map 大小
Input_field_size 是通過輸出的feature map計算對應的感受野
傳統的圖像檢索都是 手工提取圖像特徵,然後扔到SVM中進行處理,SVM需要特徵向量作爲輸入
以圖搜圖技術,
也稱爲基於內容的圖像檢索 Content-based Image Retrieval (CBIR) Framework
將大量的圖片經過特徵提取後,存儲進database,然後對查詢的圖像也進行feature extraction ,然後去database中進行相似度比對,按相似度大小返回查詢圖像
但是,用在工業屆中,如何進行實時的響應 是一個非常重要的點
優化後
所以會有一種索引技術在裏面,哈希的索引技術,將提取的特徵向量,比如是2048維向量映射到子空間中,比如映射成128維, 並且這128維中 存放的是 不是0就是1 的binary code 我們成爲 hash binary code
通過這種技術,轉化爲,在128維的二進制數上進行相似度計算 會大大減小計算量
一是 維度減小 二是通過二進制的異或操作進行加速
在2048 -----à 128 這中間過程是幾乎不記的代價
準確率上即時可以假如從95% 降低到94% 但是速度上是成百上千倍的提升
有時候在數據量小的情況下,傳統的機器學習 也會佔優勢
深度學習 需要大量的樣本來 不斷學習 合適的參數 達到更好的acc
BOW bag-of-word
包含:位置信息 關鍵點描述符
Local feature局部特徵算子
HOG SIFT …….
這些不是機器學習 學習的
是科學家根據統計學,一些梯度等等 科學計算方法 弄出來的