2.《Crowd Counting with Decomposed Uncertainty》

論文地址

論文翻譯

Abstract

      ~~~~~~在計算機視覺領域中對神經網絡的研究已取得了可觀的點估計精度。但是,估計中的不確定性很少得到解決。伴隨量化的不確定性量化可以導致更明智的決策,甚至可以提高預測質量。在這項工作中,我們專注於人羣計數領域的不確定性估計。我們提出了一種可擴展的神經網絡框架,該框架使用自舉系綜量化了分解的不確定性。我們證明了所提出的不確定性量化方法爲人羣計數問題提供了更多的見解,並且易於實現。我們還表明,在許多基準數據集中,我們提出的方法要優於當前的最新方法。據我們所知,我們擁有適用於ShanghaiTech A和B部分的最佳系統之一,UCF-CC 50,UCSD,以及適用於UCF-QNRF數據集的最佳系統。

1. Introduction

      ~~~~~~計數問題是靜止圖像或視頻幀中對象數量的估計。它出現在許多實際應用中,包括微觀圖像中的細胞計數,監視監視系統中的人羣以及對森林的空中圖像中的樹木數量進行計數。尤其是在現代城市環境中,隨着攝像機和監視系統的部署不斷增加,人們對計算模塊的需求日益增長,這些模塊可以使用來自監視攝像機的實時視頻來分析高密度人羣。人羣計數是這種自動化人羣分析系統的重要組成部分。這涉及估計人羣中的人數,以及人羣密度在聚會整個區域的分佈。這通常是在監督學習設置中完成的,其中提供了帶註釋的標籤。最近,卷積神經網絡(convolutional neural network, CNN)在計算機視覺的廣泛任務中,如目標檢測,圖像識別,人臉識別,圖像分割等方面都取得了成功。受這些成功的啓發,許多基於CNN的人羣計數方法被提出。與基於特徵度估計技術相比,基於CNN的特徵提取方法表現出了較好的性能。然而,現有的基於CNN的方法只提供計數的點估計(或密度圖),並不能解決預測中的不確定性,這些不確定性可能來自模型,也可能來自數據本身。通過不確定性量化對模型的輸出進行概率解釋非常重要。給定新的未標記人羣圖像時,如果模型的輸出僅提供點估計值,我們可以信任該模型的輸出嗎?不確定性量化和點估計可以導致更明智的決策,甚至可以提高預測質量。
      ~~~~~~對於這些人羣計數方法的實施者,不確定性量化也至關重要。通過量化預測置信度,可以明確處理不確定的輸入和特殊情況。例如,人羣計數模型可能會在給定場景的某些區域中以較低的置信度(較高的不確定性)返回密度圖(或計數)。在這種情況下,從業者可以決定將圖像或模型不確定的圖像特定部分傳遞給人類進行驗證。
      ~~~~~~儘管貝葉斯方法爲處理不確定性量化提供了數學上可行的框架,但這些方法通常伴隨着過高的計算成本。在這項工作中,我們提出了一個簡單且可擴展的神經網絡框架,該框架使用自舉集合來量化人羣計數的不確定性。我們工作的重點是:

  • 據我們所知,這項工作是第一個解決不確定性量化的神經網絡預測人羣計數。我們的方法可以產生精確的不確定度估計。
  • 我們提出的方法可在多個人羣計數基準數據集上實現最新水平的性能
  • 我們提出的框架是通用的,獨立於底層網絡的架構。結合其實現的簡單性,它可以很容易地適應其他體系結構。

2. Related Work

      ~~~~~~以往關於人羣計數問題的文獻主要分爲三類:基於檢測的方法、基於迴歸的方法和基於密度的方法。
      ~~~~~~基於檢測的人羣計數是一種直接檢測給定圖像中的每個目標對象的方法。一種典型的方法是經常使用移動窗口來做爲物體檢測器。然後,圖像中目標的數量會作爲檢測結果的副產品自動給出。這些方法通常需要訓練有素的分類器才能從整個人體中提取低級特徵。但是,在許多擁擠的場景中物體可能被高度遮擋,許多目標物體的比例可能截然不同,從而使檢測更具挑戰性。這些問題使基於檢測的方法在人羣密集的場景中不可行。
      ~~~~~~提出了基於迴歸的方法,以解決遮擋問題,而遮擋問題是基於檢測的方法的障礙。基於迴歸的方法直接將輸入的人羣圖像映射到計數的標量值,從而繞過顯式的檢測任務。特別地,學習了圖像特徵和人羣數量之間的映射。通常,提取的特徵用於生成低級信息,該信息由迴歸模型學習。因此,這些方法利用了更好的特徵提取(如果可用)和迴歸算法來對計數進行聚類。例如,一些利用空間或深度信息並利用分割方法來過濾背景區域並僅在圖像前景上進行迴歸計數。但是,這些基於迴歸的方法大多忽略了人羣圖像中的空間信息。
      ~~~~~~基於密度的人羣計數最初保留了人羣的計數和空間分佈,並已被證明在人羣場景中的計數是有效的。在對象密度圖中,所有子區域的積分是圖像中相應區域內的對象數。基於密度的方法通常更好地處理通過繞過每個對象的硬檢測而嚴重阻塞對象的情況,同時還保留有關人羣的一些空間信息。有人提出了一種學習圖像特徵和密度圖之間線性映射的方法。有人提出了使用隨機森林迴歸學習非線性映射的方法。但是,早期的方法仍取決於手工製作的功能。
      ~~~~~~基於密度的人羣計數使用CNN。在最近幾年中,具有密度目標的基於CNN的方法顯示出優於基於手工特徵的傳統方法的性能。爲了解決透視問題,利用多列網絡,在每列中使用具有不同大小的卷積濾波器來生成密度圖。作爲解決視角問題的另一種方法,有人建議將輸入補丁的金字塔帶入網絡。有人進行了改進,並使用交換層根據人羣密度將人羣分爲三類,並選擇3個迴歸網絡之一進行實際計數。納入了一個多任務目標,通過連接完全卷積網絡和遞歸網絡(LSTM)共同估計密度圖和總數。有人使用全局和局部上下文來生成高質量的密度圖。有人介紹了膨脹卷積以聚合多尺度上下文信息,並使用了VGG-16中更深的架構。有人提出了一種編碼器-解碼器網絡,其中編碼器利用尺度聚合模塊提取多尺度特徵,並且解碼器通過使用一組轉置卷積生成密度圖。
      ~~~~~~當前技術狀態的限制。儘管密度估計和基於CNN的方法在人羣計數問題上表現出了傑出的表現,但人們很少注意評估預測性輸出中的不確定性。通過不確定性量化進行概率解釋非常重要,因爲(1)對模型輸出的理解不足可能會提供次優的結果,並且(2)神經網絡可能過度擬合,因此僅基於點預測進行決策可能會提供不正確的預測, 虛假的高可信度。

3. Uncertainty in Neural Networks

      ~~~~~~關於貝葉斯神經網絡的許多先前工作研究了基於參數貝葉斯推理的不確定性量化(我們將對貝葉斯神經網絡的詳細討論推遲到附錄中)。

3.1. Bootstrap ensemble

      ~~~~~~Bootstrap是在理論上保證情況下生成函數分佈的一種簡單技術。就我們可以適應的模型類別而言,它也是通用的。引導程序以其最常見的形式將數據集 DD 和函數 $f_…

θ$ 作爲輸入。
      ~~~~~~
      ~~~~~~
      ~~~~~~
      ~~~~~~
      ~~~~~~
      ~~~~~~
      ~~~~~~
      ~~~~~~
      ~~~~~~
      ~~~~~~
      ~~~~~~
      ~~~~~~
      ~~~~~~
      ~~~~~~
      ~~~~~~
      ~~~~~~
      ~~~~~~
      ~~~~~~
      ~~~~~~
      ~~~~~~
      ~~~~~~
      ~~~~~~
      ~~~~~~
      ~~~~~~
      ~~~~~~
      ~~~~~~
      ~~~~~~
      ~~~~~~
      ~~~~~~
      ~~~~~~
      ~~~~~~
      ~~~~~~
      ~~~~~~
      ~~~~~~
      ~~~~~~
      ~~~~~~
      ~~~~~~
      ~~~~~~
      ~~~~~~
      ~~~~~~
      ~~~~~~
      ~~~~~~
      ~~~~~~
      ~~~~~~
      ~~~~~~
      ~~~~~~
      ~~~~~~
      ~~~~~~
      ~~~~~~
      ~~~~~~
      ~~~~~~
      ~~~~~~
      ~~~~~~
      ~~~~~~
      ~~~~~~
      ~~~~~~
      ~~~~~~
      ~~~~~~
      ~~~~~~
      ~~~~~~
      ~~~~~~
      ~~~~~~
      ~~~~~~
      ~~~~~~
      ~~~~~~
      ~~~~~~
      ~~~~~~
      ~~~~~~
      ~~~~~~
      ~~~~~~
      ~~~~~~
      ~~~~~~
      ~~~~~~
      ~~~~~~
      ~~~~~~
      ~~~~~~
      ~~~~~~
      ~~~~~~
      ~~~~~~
      ~~~~~~

發佈了26 篇原創文章 · 獲贊 6 · 訪問量 6484
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章