论文链接

fast R-CNN: https://arxiv.org/pdf/1504.08083.pdf

p.s. 鉴于斯坦福大学公开课里面模糊的 R-CNN 描述，这边决定精读对应的论文并把心得和摘要记录于此。

前言

在机器视觉领域的物体识别分支中，有两个主要的两大难题需要解决：

目标图片里面含了几种“物体”，几个“物体”？
该些物体分别坐落于图片的哪个位置？

而 R-CNN 的发明就是用来解决第二个问题的工具，第一个问题不属于这里的讨论范围，故略过。R-CNN 如果去除时间和计算能力的因素不看，是一个挺好的物体位置定位方法，可以根据那些被估测出可能包含目标物体的画面，精确标定像素格边框的位置，但是现实上最初阶的 R-CNN 方法占用了大把的时间和计算资源，是无法在视频中实时检测物体位置的，原因如下：

Multi-stage pipeline（多个互相独立的通道）
... more ...
Slow training and detecting time
... more ...

而新的方法肯定必须围绕着上面几个问题去做修正，并且使用改进过的方法后，已经可以初步的应用在实时视频检测的场景中。至于改进的方法在 fast R-CNN 确立之前还有一个过度的方法：SPPnets（Spatial Pyramid Pooling networks）。

SPPnets

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

深度学习 + 论文详解： Fast R-CNN 原理与优势

论文链接

前言

SPPnets

再谈23种设计模式（3）：行为型模式（学习笔记）

Power Automate Desktop 安装完，登录后老是提示one driver 错误

微前端学习笔记(4):从微前端到微模块之EMP与hel-micro方案探索

微前端学习笔记（1）：微前端总体架构概述，从微服务发微

985 硕士程序员，空窗 4 个月没有 Offer！

一文搞懂 Spring 循环依赖

赛博斗地主——使用大语言模型扮演Agent智能体玩牌类游戏。

VScode右键打开(添加到右键)

记一次 .NET某工控视觉自动化系统卡死分析

WindowsServer--SQL Server搭建主从同步实现读写分离 - 事务性分发

Tensorflow_03_Checkpoint 與 Tensorboard

卷積神經網絡 + 機器視覺： L10_RNN_LSTM (斯坦福CS231n）

深度學習 + 論文詳解： Fast R-CNN 原理與優勢

卷積神經網絡 + 機器視覺： L9_VGG_GoogleNet_ResNet (斯坦福CS231n）

卷積神經網絡 + 機器視覺： L3_Loss Functions and Optimization (斯坦福CS231n）

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結