深度学习 + 论文详解: Fast R-CNN 原理与优势

论文链接

p.s. 鉴于斯坦福大学公开课里面模糊的 R-CNN 描述,这边决定精读对应的论文并把心得和摘要记录于此。


前言

在机器视觉领域的物体识别分支中,有两个主要的两大难题需要解决:

  1. 目标图片里面含了几种“物体”,几个“物体”?
  2. 该些物体分别坐落于图片的哪个位置?

而 R-CNN 的发明就是用来解决第二个问题的工具,第一个问题不属于这里的讨论范围,故略过。R-CNN 如果去除时间和计算能力的因素不看,是一个挺好的物体位置定位方法,可以根据那些被估测出可能包含目标物体的画面,精确标定像素格边框的位置,但是现实上最初阶的 R-CNN 方法占用了大把的时间和计算资源,是无法在视频中实时检测物体位置的,原因如下:

  • Multi-stage pipeline(多个互相独立的通道)
    ... more ...
  • Slow training and detecting time
    ... more ...

而新的方法肯定必须围绕着上面几个问题去做修正,并且使用改进过的方法后,已经可以初步的应用在实时视频检测的场景中。至于改进的方法在 fast R-CNN 确立之前还有一个过度的方法:SPPnets(Spatial Pyramid Pooling networks)。


SPPnets


發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章