除了此處的分析,類似的分析可見小小糯米呀的博客
Clustered Object Detection in Aerial Images
來源:arXiv (2019)
- 數據庫
VisDrone 單目標跟蹤數據庫
UAVDT 無人機數據庫
DOTA 多角度標籤遙感數據庫 - 問題
行人等目標目標像素非常少,難以與周圍背景區分;
目標一般非常稀疏且分佈不均勻,使得檢測效率非常低。 - 方案
提出 ClusDet 集羣檢測網絡,包括
集羣提議子網絡(CPNet)——減少了最終目標檢測塊的數量,從而達到運行時間效率高
尺度估計子網絡(ScaleNet)——有效地提高了小目標檢測
檢測網絡(DetecNet)——集羣proposal隱式利用上下文信息,提高了檢測的準確性 - 評價:
思路清晰,創新點新穎,效果好。
DOTA: A Large-Scale Dataset for Object Detection in Aerial Images
來源:CVPR (2018)
- 數據庫:
DOTA - 問題:
缺乏好的遙感數據庫 - 方案:
提出了一種新的遙感目標檢測數據庫DOTA
標籤有兩種形式,矩形和多邊形(可以斜着) - 評價:
數據庫的創新很足,旋轉標註或多邊形標註對一些類別很有幫助(艦船)
Multi-Scale Image Block-Level F-CNN for Remote Sensing Images Object Detection
來源:IEEE Access (2019)
- 數據集
NWPU VHR-10
兩個Airports數據集 - 問題
複雜多變的外觀、昂貴的人工標註、大場景圖像的快速檢測 - 方案
多尺度圖像塊級全卷積神經網絡(MIF-CNN)
首先,只需要類標籤而不需要邊界框標籤的訓練數據集可以減少訓練過程中手工標註的開銷。
其次,MIF-CNN的設計目的是提取基於多尺度的高層特徵,能夠更好地表示各種類型的目標。
在測試階段,將大場景圖像直接輸入到MIF-CNN模型中,通過提出的邊界框修改策略和局部再識別策略對MIF-CNN輸出地圖進行改進,生成檢測結果。
評價:
較好地解決了所提出的問題,邏輯嚴密,創新性好。## Learning rotation-invariant and Fisher discriminative convolutional neural networks for object detection
來源:IEEE Transactions on Image Processing (2019)
- 數據庫
PASCAL VOC 2007
PASCAL VOC 2012
Aerial Car Detection Dataset - 問題
對象旋轉、類內多樣性和類間相似性 - 方案
提出了一種簡單有效的方法來訓練旋轉不變和Fisher判別CNN模型,這是通過優化一個新的目標函數來實現的,該函數顯式地在CNN特徵上添加了一個旋轉不變正則化器和一個Fisher判別正則化器。
第一個正則化器強制旋轉前後訓練樣本的CNN特徵表示相互緊密映射,以實現旋轉不變性。第二個正則化器將CNN的特徵限制爲類內離散小,類間分離大 - 評價:
提出的旋轉不變曾很好地解決了旋轉問題,Fisher判別約束了類內、類間距離,思路新穎、效果好。
Object Detection in Aerial Images Using Feature Fusion Deep Networks
來源:IEEE Access (2019)
- 問題
高密度,小尺寸的物體和複雜的背景 - 方案
特徵融合深度網絡(FFDN) - 數據庫
UAV123 跟蹤數據庫(汽車)
UAVDT benchmark 無人機數據庫 - 效果:
檢測小尺寸,部分遮擋和不在視野中以及在黑暗背景中出現的物體 - 評價:
多種傳統方法、多種深度方法的組合,效果好,創新點多,但較複雜,思路不清。
Detection of Multiclass Objects in Optical Remote Sensing Images
來源:IEEE Geoscience and Remote Sensing Letters
- 數據庫
DOTA - 問題
[7]中利用YOLOv2得到的模型,對小目標精度高,但大目標精度較低;
如何才能不降低小目標精度、提升大目標精度 - 方案
oriented response (OR) —— 讓空洞卷積的卷積核中各個位置處的權重,繞着中心轉圈跑
dilate convolution —— 空洞卷積提特徵,這是前人提出的工作 - 不足
OR正確運行的前提是,中心位置準確,不然還是起不到旋轉不變性的作用。
但是顯然,中心位置準確這一假設是比較難滿足的。 - 評價:
創新點比較好,一定程度上可以解決所提出的問題,但是仍然不夠完美。
Deep Adaptive Proposal Network for Object Detection in Optical Remote Sensing Images
來源:arXiv (2018)
- 數據庫
NWPU VHR-10 - 問題
遙感圖像中目標的稠密、稀疏情況是複雜的;
用相同的區域生成策略不合情理。 - 方案
以Faster R-CNN爲基礎,學習一種新的類別先驗網絡(CPN),
提出深度自適應建議網絡(DAPNet)
DAPNet不同於傳統的區域建議網絡(RPN)
實際上是以CPN生成一個類別數量,用於輸入RPN(即所謂的F_RPN),得到adaptive candiddate boxes,說白了就是用CPN給RPN一個當前圖像中有多少目標類別的先驗。 - 評價:
想法很好,這個先驗從主觀上就感覺很有用,看實驗結果mAP提升了4.4%。但是全文貢獻點只有這一點,略微不足。
Position Detection and Direction Prediction for Arbitrary-Oriented Ships via Multiscale Rotation Region Convolutional Neural Network
來源:IEEE Access (2018)
- 代碼
- 問題:
遙感圖像船隻檢測相對於其他類型目標的檢測(飛機、土地、水系、植被),目標更加小且密集,且船隻往往爲傾斜狀態。 - 解決方案
旋轉bounding box迴歸;旋轉NMS評價; - 框架
Dense FPN + ROI + 旋轉bounding box迴歸 + prow diraction prediction(船頭方向預測) + rotational NMS - 評價:
整體思想與武漢大學發表的數據庫DOTA的論文中的思路非常類似,只不過多加了一個穿透預測。創新性不是很大。但是效果顯著。
You Only Look Twice: Rapid Multi-Scale Object Detection In Satellite Imagery
來源:arXiv (2019)
- 代碼
- 問題:
衛星影像分析中的最大問題,就是大面積小物體的檢測
YOLO中有若干問題——1.目標形變大、2.成組出現的小目標難檢測、3.預測bbox的特徵經過下采樣後較爲粗放、4.圖像尺寸最大600X600 - 解決方案
1.數據增強(旋轉、縮放)
2.3.新的網絡結構採用更精細的特徵(更稠密的網格,可以理解爲較高空間分辨率)
2.3.上採樣以尋找小的、密集的目標
2.3.4.多個不同尺度的檢測器
4.對大圖智能劃分、重組
此外,採用滑窗方法提供proposal - 評價:
不同於其他方法,該文章以一幅大圖(如幾十萬像素長寬)作爲輸入;因此文中考慮的更多的是一個可以直接輸入大圖、輸出目標位置的成熟的檢測系統。可以看出,這篇文章更偏工程。 - 數據庫
SpaceNet
AWS上的開放數據
Reduced Focal Loss: 1st Place Solution to Xview Object Detection in Satellite Imagery
來源:arXiv (2019)
- 問題:
數據集樣本不均衡問題 - 方案:
Reduced Focal Loss函數 - 數據庫:
DIUx xView 2018 Detection Challenge
目前最大公開的遙感圖像目標檢測數據集,和ILSVRC的ImageNet數據庫有一拼(因爲圖像較大所以圖像少,但是目標數量更多)。
評價標準:
仍是mAP(31.74)、Recall(61.2%)、mRecall(77.5%)
評價:
看得出來是在Focal Loss基礎上改過來的,而且是針對數據庫的文章,創新性有,但是不高。
Object Detection in Very High-Resolution Aerial Images Using One-Stage Densely Connected Feature Pyramid Network
來源:Sensors (2018)
- 數據庫
NWPU VHR-10
RSOD 武大四類遙感數據庫 - 問題:
雖然兩階段方法優於傳統方法,但它們的優化並不容易,也不適合實時應用 - 方案:
提出了一種uniform one-stage模型
採用密集連接的FPN應對多尺度挑戰。 - 評價:
真正的創新點在於所提出的密集連接FPN,但是該方法並不是爲了解決文章提出的主要矛盾——兩階段方法不好優化,所以創新性上打折扣
A Sample Update-Based Convolutional Neural Network Framework for Object Detection in Large-Area Remote Sensing Images
來源:IEEE Geoscience and Remote Sensing Letters (2019)
-數據庫
自行標註的,500 images,500 pix,7561 airplanes,1312 ships, 2338 storage tanks
- 問題:
複雜的背景、不同的地表覆蓋類型
導致虛警、漏檢 - 方案:
基於樣本更新的SUCNN框架
1 訓練集上訓練一個single-shot multibox detector(SSD);
2 在人工合成樣本上fine-tune模型,合成規則——把漏檢的部分疊加到虛警的目標的圖上。 - 評價:
方法簡單,有效,精度提升高,提升穩定,但是與難樣本訓練區別不大,創新性略低
Rotation-insensitive and context augmented object detection in remote sensing images
來源:
- 數據庫
NWPU VHR-10 - 問題
旋轉變化、外觀模糊 - 方案
爲多尺度、多長寬比RPN增加了多角度anchor(實現上並不是真正意義上的多角度,仍然是一種多長寬比)
提出雙通道特徵融合網絡,分別學習局部和上下文特徵,最後進行融合 - 評價:
多角度的想法在當時比較新,但是本文實現的不是很好;局部、全局特徵融合這種思路當時也比較多了。所以創新點上不是特別新穎。但是文章思路非常清晰。
Object Detection in Satellite Imagery Using 2-Step Convolutional Neural Networks
來源:IGARSS (2019)
- 數據庫:
幾個景的遙感圖像,圖像比較大,類別是高爾夫球場。 - 問題:
遙感圖像太大,人眼檢測目標困難。 - 解決方案:
融合兩個CNN——高召回率CNN和高準確率CNN。 - 高召回率CNN:
別人文章裏提到降低訓練集中負樣本比例,可以提高召回率,因此本文降低了訓練集中的負樣本比例;另外從多個snapshot的模型中找召回率最高的。 - 高準確率CNN:
將高召回率CNN得到的結果裁剪,縮放到64X64,之後用8層CNN分類。 - 評價:
提出問題、給出解決方案的思路不明顯,看不到大的創新點。
來源:Remote Sensing (2019)
- 數據庫
DOTA - 問題
複雜的背景、垂直的視角以及遙感圖像中目標種類和大小的變化 - 方案
結合上下文檢測目標
提出場景-上下文特徵金字塔網絡(SCFPN)
總之,以FPN爲基礎提取一些ROI的特徵圖;然後將整幅圖的特徵圖和這些ROI的特徵圖融合,得到上下文信息,分別經過分類得到結果 - 評價:
創新點在於整幅圖特徵圖和ROI特徵圖融合,手法有些粗糙,只是簡單融合。
A Novel Multi-Model Decision Fusion Network for Object Detection in Remote Sensing Images
來源:Remote Sensing (2019)
- 數據庫
NWPU VHR-10-v2 - 問題
地理空間對象外觀的多樣性和複雜性以及對地理空間對象空間結構信息的認識不足 - 方案
1 針對地理空間對象外觀的多樣性和複雜性,設計了一種融合 局部上下文特徵 和object-object關係上下文特徵的上下文信息融合子網絡
2 構建基於局部的多區域融合子網絡,將目標的多個部分進行融合,獲取更多的目標空間結構信息,解決了對地理空間目標空間結構信息理解不足的問題
3 對所有子網絡進行決策融合,提高了模型的穩定性和魯棒性,達到了更好的檢測性能
看了網絡結構,發現上下文子網絡(用GRU檢測)、基於部分的多區域融合子網絡(concatenate多個部分的特徵)、基線子網絡是並行的, - 評價:
創新性一般,更像是對已有工作的堆砌
Hierarchical Region Based Convolution Neural Network for Multiscale Object Detection in Remote Sensing Images
來源:IEEE IGARSS (2018)
- 數據庫
自己的三個數據庫
所謂三個數據庫,其實是三個類別,建築、飛機、船,
應該是在每個類別上做了一個二分類 - 問題
遙感數據是多模態的
目標尺寸從幾十個像素到幾百萬像素 - 方案
利用多源數據進行標註
構建特徵金字塔,而不圖像金字塔 - 評價:
經典目標檢測框架,只是在RPN和ROI檢測階段分別使用了金字塔網絡。創新性不高,但邏輯沒問題。
A Training-free, One-shot Detection Framework For Geospatial Objects In Remote Sensing Images
來源:arXiv (2019)
- 問題
有監督學習方法具有data-hungry、time-consuming的特點
這使得他們不適用於數據有限任務、緊急任務,尤其是遙感任務 - 方案
提出一個 無須訓練、one-shot目標檢測框架,包含以下幾部分
1 包含遙感知識的特徵提取器
2 多級特徵融合方法
3 新的相似度度量方法
4 two-stage目標檢測pipeline - 評價:
作者自己說文章的效果還行,可以用作其他文章方法的baseline。實驗結果顯示,召回率和準確率度均不超過26%。在深度學習背景下,敢於嘗試這種無監督學習,有一定貢獻。
Multiscale Visual Attention Networks for Object Detection in VHR Remote Sensing Images
來源:IEEE Geoscience and Remote Sensing Letters (2019)
- 數據庫
DOTA
NWPU VHR-10 - 問題
目標旋轉、縮放,背景雜亂 - 方案
提出MS-VANs,包括以下幾個點——視覺注意力、多尺度特徵、損失函數、數據增強
首先提取多尺度特徵;
然後對每個尺度的特徵學習一個注意力網絡,從而高亮目標區域,抑制噪聲。
損失函數是 分類、迴歸、注意力 的加權和。
所謂注意力,是一個熱圖,gt就是真是框內部爲1,外部爲0。
之後注意力mask點乘特徵圖。 - 評價:
目標框外0內1注意力,多尺度,都是現成的,創新點不高