行人檢測幾篇論文相關筆記

原創

勤劳的凌菲

2020-06-24 06:58

這部分內容會持續更新，比較難的論文會單獨開篇博文講解，相對比較簡單的就只寫概要記錄在此篇博文中。

PedHunter: Occlusion Robust Pedestrian Detector in Crowded Scenes

鏈接：https://arxiv.org/abs/1909.06826
代碼：https://github.com/ChiCheng123/PedHunter（目前還未放）
網絡架構
創新
其實就是mask-rcnn模型，與mask-rcnn不同的點爲：
1）人體mask預測分支改爲預測head的mask，並且在推斷過程中，去掉mask預測分支；作用：對行人檢測添加額外的監督信息，且不增加推斷的計算量；
2）rpn選擇proposal更加嚴格：iou閾值從0.5調整爲0.7；作用：用來訓練的正例質量更高，預測效果更好；
3）數據增強：爲了對遮擋情況魯棒性更好，將行人檢測框分爲五部分：頭部，左上身、右上身、坐下身、右下身，訓練時，每個圖像groud truth內以0.5的概率隨機遮擋後四部分的其中一部分，將值替換成imageNet中的均值。
4）提供一個新的行人檢測數據集：SUR-PED

Attribute-aware Pedestrian Detection in a Crowd

鏈接：https://arxiv.org/pdf/1910.09188v2.pdf
代碼：https://github.com/kalyo-zjl/APD（只放了測試代碼）
網絡架構
創新
一階段anchor-free的預測框。利用backbone提取特徵，然後採用四個分支進行網絡預測。
1）center分支：map大小爲 $R^{\frac{W}{r}\times\frac{H}{r}\times1}$ ，（W, H）爲原始圖像尺寸，r爲stride，預測center map中的每個點爲中心點的概率。
2）scale分支：map大小爲 $R^{\frac{W}{r}\times\frac{H}{r}\times2}$ , 預測bounding box的寬和高；
3）offset分支：map大小爲 $R^{\frac{W}{r}\times\frac{H}{r}\times2}$ ，預測中心點的偏移；
4）Attribute map: map大小爲 $KaTeX parse error: Undefined control sequence: \timesm at position 32: …imes\frac{H}{r}\̲t̲i̲m̲e̲s̲m̲}$ ,每個點學習一個向量，對於正例，利用這個向量可以得到兩個bounding box之間的密集度和差異度。
5）上述四個分支的結和：利用center分支和offset分支得到精度的中心點位置，再利用scale得到bounding box框，後處理時，利用attribute分支得到的屬性採用Attribute-aware NMS算法得到最終的結果。
6）Attribute-aware NMS算法

上述爲僞代碼，整體思想爲：只有當M框的密集度比較大而且M框與候選框的差異度比較大時，nms的閾值會比較大，其他時候nms閾值都較小。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

Stable Diffusion WebUI詳細使用指南

Stable Diffusion WebUI（AUTOMATIC1111，簡稱A1111）是一個爲高級用戶設計的圖形用戶界面（GUI），它提供了豐富的功能和靈活性，以滿足複雜和高級的圖像生成需求。由於其強大的功能和社區的活躍參與，A1111

2024-05-29 21:38:48

Visual C++界面開發組件Xtreme Toolkit Pro v24測試版發佈——完全支持SVG

Codejock軟件公司的Xtreme Toolkit Pro是屢獲殊榮的VC界面庫，是MFC開發中最全面界面控件套包，它提供了Windows開發所需要的11種主流的Visual C++ MFC控件，包括Command Bars、Contr

2024-05-16 12:19:55

OpenCV入門基礎操作（一）----圖像的讀取、顯示與保存

OPENCV入門基礎操作（一）圖像的處理讀入圖像顯示圖像保存圖像直接上整體代碼示例圖像的處理剛開始學習opencv 圖像處理，希望能夠多多提出寶貴意見，我也在一步一步地學習下去。堅持！這一講主要就是一

2024-05-13 21:17:21

Pinecone: 大模型時代的智能索引與搜索解決方案

隨着人工智能技術的飛速發展，大模型（Large Models）已成爲衆多領域的重要工具。無論是自然語言處理、圖像識別還是其他複雜任務，大模型都展現出了強大的性能。然而，隨着模型規模的不斷擴大，數據量的激增，如何有效地管理、索引和搜索這些模型

2024-04-19 11:29:43

如何基於香橙派AIpro對視頻/圖像數據進行預處理

本文分享自華爲雲社區《如何基於香橙派AIpro對視頻/圖像數據進行預處理》，作者：昇騰CANN。受網絡結構和訓練方式等因素的影響，絕大多數神經網絡模型對輸入數據都有格式上的限制。在計算機視覺領域，這個限制大多體現在圖像的尺寸、色域、歸一

2024-04-19 10:32:52

技術引領，策略升級：騰訊雲與你共探數字金融新篇章

引言 2024 年 3 月 27 日下午，在北京騰訊總部，一場關於大模型與數據要素時代數字金融發展的深入討論火熱進行中。【TVP 走進騰訊：大模型與數據要素時代的數字金融發展論壇】是在騰訊二十年發展歷程和數字化實踐的基礎上，進一步探索

2024-04-03 23:09:31

揭祕QQ的AI繪畫大模型技術——QQGC深度解析

隨着人工智能技術的飛速發展，AI繪畫已經成爲了一個備受矚目的領域。在這個領域中，QQGC——QQ的AI繪畫大模型技術，憑藉其卓越的性能和實用性，贏得了廣大用戶的喜愛。那麼，QQGC到底是什麼？它是如何實現的呢？本文將對這些問題進行深入解析。

2024-03-08 00:41:36

深入學習NumPy庫在數據分析中的應用場景

在數據科學與機器學習領域，NumPy（Numerical Python）是一個經常被提及的重要工具。它是Python語言中一個非常強大的庫，提供了高性能的多維數組對象以及用於處理這些數組的工具。NumPy不僅僅是一個用於數值計算的庫，它還

2024-03-02 00:30:28

CPU基本概念

1 概述 CPU是Central Processing Unit的簡稱，中泱處理器。它主要用來執行儲存於程序裏的一系列指令。 2 組成計算機有5大基本組成部分：運算器，控制器，存儲器，輸入和輸出。從邏輯上來看，CPU可以劃分爲

2023-08-22 00:02:32

智慧園區樓宇合集 | 圖撲數字孿生管控系統

智慧園區是指將物聯網、大數據、人工智能等技術應用於傳統建築和基礎設施，以實現對園區的全面監控、管理和服務的一種建築形態。通過將園區內設備、設施和系統聯網，實現數據的傳輸、共享和響應，提高園區的管理效率和運營效益，爲居住者和使用者提供更加智能

2023-07-25 01:41:01

使用篇丨鏈路追蹤（Tracing）很簡單：鏈路實時分析、監控與告警

作者：涯海前文回顧：基礎篇｜鏈路追蹤（Tracing）其實很簡單使用篇｜鏈路追蹤（Tracing）其實很簡單：請求軌跡回溯與多維鏈路篩選在前面文章裏面，我們介紹了單鏈路的篩選與軌跡回溯，是從單次請求的視角來分析問題，類似查詢某個快遞

2023-04-11 09:13:39

百度飛槳數據處理 API 數據格式 HWC CHW 和 PIL 圖像處理之間的關係

使用百度飛槳 API 例如：Resize Normalize，處理數據的時候。 Resize：如果輸入的圖像是 PIL 讀取的圖像這個數據格式是 HWC ，Resize 就需要 HWC 格式的數據。 Normalize：有 data_for

2022-04-30 10:53:32

OpenCV 中的圖像處理 005_形態變換

本文主要內容來自於 OpenCV-Python 教程的 OpenCV 中的圖像處理部分，這部分的全部主要內容如下：改變色彩空間學習在不同色彩空間之間改變圖像。另外學習跟蹤視頻中的彩色對象。圖像的幾何變換學習對圖像應用不同

2022-04-30 09:19:21

OpenCV 中的圖像處理 002_圖像的幾何變換

本文主要內容來自於 OpenCV-Python 教程的 OpenCV 中的圖像處理部分，這個部分的主要內容如下：改變色彩空間學習在不同色彩空間之間改變圖像。另外學習跟蹤視頻中的彩色對象。圖像的幾何變換學習對圖像應用不同的

2022-04-30 09:19:16

OpenCV 官方文檔的組織結構

OpenCV (開源計算機視覺庫：http://opencv.org) 是一個開源庫，它包含了幾百個計算機視覺算法。學習 OpenCV 庫最權威的資料無疑就是 OpenCV 的官方文檔了。 OpenCV 官方提供的文檔比較齊全，這些文檔主要

2022-04-30 09:19:06

24小時熱門文章

最新文章

最新評論文章