從零開始深度學習0518——BOW詞包模型基本知識

原創

刚子174

2020-07-02 23:52

視覺單詞可以理解爲就是 Local Feature

什麼是Local Feature 呢

包含兩個信息：

座標位置（x,y）

描述符（描述算子 descriptor）這個描述符是用來可以被量化比對的做match

計算機視覺中最重要的Local Feature 就是SIFT ：Scale Invariant Feature Transform

SIFT 是一種非常典型的著名的Local Feature

同樣包含剛剛說的兩個信息：

座標位置 Detector 檢測器

特徵描述算子 descriptor 用來描述特徵向量

SIFT 不是機器學習學出來的是科學及根據統計學數學等等規定出來的，給定一個圖片就可以去算它的Local Feature 信息

所以使用opencv 一行api就可以搞定

會輸出如上兩個信息

假如圖像計算出了100個點，

那麼它的座標位置的信息就會是100*2 的矩陣 100表示點的數量 2表示x和y兩個元素

如果是128維的特徵向量來描述特徵算子所以還會有 100*128的矩陣每一行是一個descriptor描述符描述算子用來對應表示前面每一行的（x,y）的feature

越高清的圖片檢測出的點越多

左邊的衣服不太可能去匹配到右邊的腦門

從幾何上來說大多數線都是平移過來，但是有個別線是斜着的違背了大方向是明顯錯誤的所以把它去掉這種基於幾何校驗的方式非常有名叫做隨機一致性採樣 Ransac

視覺單詞模型的基本結構

Step1：Feature Extraction 特徵提取會得到兩個信息位置和描述算子特徵向量

Step2：Codebook Construction 構造詞典其實就是做了聚類，然後取聚類中心構造詞典，既可以降維又可以表徵特徵

Step3：Vector Quantization

假設這是一張圖，每個黑色的叉叉是keypoint 或者說 local feature

紅色的圓圈是聚類出來的中心

可以看到，黃色的區域，有4個特徵點，（截圖少一個），y5 是這個區域的聚類中心，都用y5作爲特徵表達，所以在直方圖統計中對y5的橫座標就會加上4的分量

整個流程就是

Bag of vision words BoVW

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

從零開始深度學習0518——BOW詞包模型基本知識

移位操作搞定兩數之商

如何基於surging跨網關跨語言進行緩存降級

2024合集

程序員天天 CURD，怎麼才能成長，職業發展的思考(2)

教你用Perl實現Smgp協議

如何通過前端表格控件在10分鐘內完成一張分組報表？

win11關閉自動檢測病毒刪文件

通用代碼生成器簡介

lightdb 單機模式下數據庫平移

千兆寬帶實際網速能到達多少？

從零開始深度學習0521——keras基本知識+GAP理解

從零開始深度學習0602——caffe 解決安裝報錯問題

從零開始深度學習0519——圖像檢索基本知識

從零開始深度學習0601——pytorch 解決報錯 AvgPool2d object has no attribute divisor_override

從零開始深度學習0611——pytorch入門之Pytorch 與 numpy 區別+variable+activation+regression+classification+快速搭建

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結