从零开始深度学习0513——CBIR基本知识

原創

2020-07-02 23:52

0513

感受野

衡量某一层的feature map 中的某一个cell 对应到原图输入的响应区域大小

如图输入层11*11 没有zero-padding

经过第一层5*5 conv 得到feature map 为7*7

经过第二层7*7conv 得到feature map 为1*1

所以可以知道假如这个1*1是最后整个feature map 中的其中一个cell 根据上面的话，可以知道它对应的感受野就为11*11，也就是对应输入图像的响应区域大小

语义分割其实就是对最后的feature map 进行像素级别的分类，通过感受野响应到输入图像，根据周围的信息去做分类

Output_field_size 是通过输入计算得到的最后的feature map 大小

Input_field_size 是通过输出的feature map计算对应的感受野

传统的图像检索都是手工提取图像特征，然后扔到SVM中进行处理，SVM需要特征向量作为输入

以图搜图技术，

也称为基于内容的图像检索 Content-based Image Retrieval （CBIR） Framework

将大量的图片经过特征提取后，存储进database，然后对查询的图像也进行feature extraction ，然后去database中进行相似度比对，按相似度大小返回查询图像

但是，用在工业届中，如何进行实时的响应是一个非常重要的点

优化后

所以会有一种索引技术在里面，哈希的索引技术，将提取的特征向量，比如是2048维向量映射到子空间中，比如映射成128维，并且这128维中存放的是不是0就是1 的binary code 我们成为 hash binary code

通过这种技术，转化为，在128维的二进制数上进行相似度计算会大大减小计算量

一是维度减小二是通过二进制的异或操作进行加速

在2048 -----à 128 这中间过程是几乎不记的代价

准确率上即时可以假如从95% 降低到94% 但是速度上是成百上千倍的提升

有时候在数据量小的情况下，传统的机器学习也会占优势

深度学习需要大量的样本来不断学习合适的参数达到更好的acc

BOW bag-of-word

包含：位置信息关键点描述符

Local feature局部特征算子

HOG SIFT …….

这些不是机器学习学习的

是科学家根据统计学，一些梯度等等科学计算方法弄出来的

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.