从零开始深度学习0513——CBIR基本知识

 

0513

 

 

感受野

 

衡量某一层的feature map 中的某一个cell 对应到原图输入的响应区域大小

 

如图 输入层11*11 没有zero-padding

经过第一层5*5 conv  得到feature map 为7*7

经过第二层7*7conv  得到feature map 为1*1

所以可以知道 假如这个1*1是最后整个feature map 中的其中一个cell 根据上面的话,可以知道它对应的感受野就为11*11,也就是对应输入图像的响应区域大小

 

 

 

语义分割其实就是对最后的feature map 进行像素级别的分类,通过感受野响应到输入图像,根据周围的信息 去做分类

 

 

 

Output_field_size 是通过输入计算得到的最后的feature map 大小

Input_field_size 是通过输出的feature map计算对应的感受野

 

 

 

 

 

 

 

 

 

 

 

传统的图像检索都是  手工提取图像特征,然后扔到SVM中进行处理,SVM需要特征向量作为输入

 

 

以图搜图技术,

也称为基于内容的图像检索  Content-based Image Retrieval (CBIR) Framework

将大量的图片经过特征提取后,存储进database,然后对查询的图像也进行feature extraction ,然后去database中进行相似度比对,按相似度大小返回查询图像

 

但是,用在工业届中,如何进行实时的响应 是一个非常重要的点

优化后

 

 

所以会有一种索引技术在里面,哈希的索引技术,将提取的特征向量,比如是2048维向量映射到子空间中,比如映射成128维, 并且这128维中 存放的是 不是0就是1 的binary code   我们成为 hash binary code 

通过这种技术,转化为,在128维的二进制数上进行相似度计算   会大大减小计算量

一是 维度减小  二是通过二进制的异或操作进行加速

在2048 -----à  128 这中间过程是几乎不记的代价

准确率上即时可以假如从95% 降低到94%  但是速度上是成百上千倍的提升

 

 

 

有时候在数据量小的情况下,传统的机器学习 也会占优势

深度学习 需要大量的样本来 不断学习 合适的参数  达到更好的acc

 

 

 

BOW   bag-of-word

包含:位置信息   关键点描述符

Local feature局部特征算子

HOG   SIFT   …….

这些不是机器学习 学习的

是科学家根据统计学,一些梯度等等 科学计算方法  弄出来的

 

 

 

 

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章