[計算機視覺論文速遞] 2018-04-03

通知:這篇文章有9篇論文速遞信息,涉及人臉、目標檢測、顯著性目標檢測和圖像分割等方向

往期回顧

TensorFlow.js人臉識別—玩轉喫豆豆小遊戲

[計算機視覺論文速遞] 2018-03-31

YOLOv3:你一定不能錯過

Face

[1]《Learning to Anonymize Faces for Privacy Preserving Action Detection》

Abstract:人們越來越擔心計算機視覺設備通過錄制不需要的視頻會侵犯用戶的隱私。一方面,我們希望相機系統/機器人能夠通過了解其視頻來識別重要事件並幫助人類日常生活,但另一方面,我們也希望確保它們不會侵犯人們的隱私。在本文中,我們提出了一種新的原理方法來學習視頻面部匿名者。(1)視頻匿名處理器修改原始視頻以移除隱私敏感信息(即人臉),同時仍嘗試最大化空間動作檢測性能,(2)試圖從這種匿名視頻中提取隱私敏感信息的鑑別器。最終的結果是一個視頻匿名器,它執行像素級修改以匿名每個人的臉部,而對動作檢測性能的影響最小。與傳統人工製作的視頻/臉部匿名化方法相比,我們通過實驗證實了我們方法的優勢,這些方法包括掩蔽,模糊和噪聲添加。打開下述github鏈接,可以查看演示視頻的項目頁面以及更多結果。

arXiv:https://arxiv.org/abs/1803.11556

github:https://jason718.github.io/project/privacy/main.html

[計算機視覺論文速遞] 2018-04-03

[2]《Disentangling Features in 3D Face Shapes for Joint Face Reconstruction and Recognition》

CVPR 2018

Abstract:本文提出了一種編碼器 - 解碼器網絡,用於從單個二維圖像中分離三維人臉重建過程中的形狀特徵,從而可以同時完成重建精確的三維人臉形狀和學習識別形狀特徵的任務。與現有的三維人臉重建方法不同,我們提出的方法直接從單個二維圖像中迴歸密集的三維人臉形狀,並基於複合三維人臉形狀模型明確地分別處理三維人臉形狀中的身份和殘差(即非同一性)潛在的表示。我們針對所提出的網絡設計了訓練過程,其具有測量臉部識別誤差和3D臉部形狀重建誤差的聯合損失。爲了構建訓練數據,我們開發了一種將3D形變模型(3DMM)擬合到對象的多個2D圖像的方法。 MICC,BU3DFE,LFW和YTF數據庫已經完成了全面的實驗。結果表明,我們的方法擴展了3DMM的能力,以捕捉判別形狀特徵和麪部細節,因此在3D人臉重建精度和人臉識別精度方面都優於現有方法。

arXiv:https://arxiv.org/abs/1803.11366

[3]《Two-Stream Neural Networks for Tampered Face Detection》

Abstract:我們提出了一個人臉篡改檢測的雙流網絡。 我們訓練GoogLeNet以檢測人臉分類流中的篡改僞影,並訓練基於補丁的三重網絡,以利用捕獲本地噪聲殘留和相機特性的特徵作爲第二流。 此外,我們使用兩個不同的在線人臉交換應用程序來創建一個由2010年篡改圖像組成的新數據集,每個圖像包含一個篡改的臉部。 我們在新收集的數據集上評估擬議的雙流網絡。 實驗結果證明了我們方法的有效性。

arXiv:https://arxiv.org/abs/1803.11276

目標檢測

[4]《Scalable Deep Learning Logo Detection》

Abstract:現有的標識檢測方法通常會考慮少量的標識類和每個類的有限圖像,而且需要單調乏味的對象邊界框註釋,因此無法擴展到真實世界的動態應用程序。在這項工作中,我們通過探索網絡數據學習原理來解決這些挑戰,而無需詳盡的手動標記。具體來說,我們提出了一種新穎的增量學習方法,稱爲可擴展標識自我協同學習(SL-2),能夠自動自發現噪聲網絡數據中的信息量訓練圖像,以逐步提高跨模型協同學習的模型能力方式。此外,我們通過自動網絡數據收集和處理方法引入非常大的(2,190,757幅194個徽標類的圖像)徽標數據集“WebLogo-2M”。廣泛的比較評估證明了所提出的SL ^ 2方法優於最先進的強和弱監督檢測模型和當代網絡數據學習方法的優越性。

arXiv:https://arxiv.org/abs/1803.11417

[5]《Cross-Domain Weakly-Supervised Object Detection through Progressive Domain Adaptation》

CVPR 2018

Abstract:我們可以在沒有實例級註釋的情況下檢測各種圖像域中的公共對象嗎?在本文中,我們提出了一個新的任務框架,跨域弱監督對象檢測,解決了這個問題。對於本文,我們可以訪問源域(例如自然圖像)中具有實例級註釋的圖像以及目標域(例如水彩)中具有圖像級註釋的圖像。另外,目標域中要檢測的類是源域中的所有類或其子集。從源域上預先訓練好的完全監督對象檢測器開始,我們通過在兩種人工和自動生成的樣本上微調檢測器來提出兩步漸進域自適應技術。我們在新收集的包含三個圖像域的數據集上測試了我們的方法,與最佳性能基線相比,平均平均精度(mAP)方面提高了約5至20個百分點。

arXiv:https://arxiv.org/abs/1803.11365

github:https://naoto0804.github.io/cross_domain_detection/

[6]《Task-Driven Super Resolution: Object Detection in Low-resolution Images》

Abstract:我們考慮圖像超分辨率(SR)如何在低分辨率圖像中爲物體檢測任務做出貢獻。 直觀上,SR對物體檢測任務產生積極影響。 雖然以前的一些作品表明這種直覺是正確的,但SR和探測器在這些作品中都是獨立優化的。 本文提出了一種新的框架來訓練深度神經網絡,其中SR子網絡通過與傳統檢測損失的折衷明確地將檢測損失納入其訓練目標中。 這種端到端的培訓程序使我們能夠訓練用於任何可微分探測器的SR預處理。 我們證明,我們的任務驅動SR能夠持續顯着提高低分辨率圖像上物體檢測器對各種條件和縮放因子的準確性。

arXiv:https://arxiv.org/abs/1803.11316

顯著目標檢測

[7]《Contrast-Oriented Deep Neural Networks for Salient Object Detection》

Abstract:深卷積神經網絡已成爲最近突破顯著物體檢測的關鍵因素。然而,現有的基於CNN的方法基於patch方式(區域方式)訓練和推理或完全卷積網絡。由於嚴重的存儲和重疊補丁之間的計算冗餘,前一類中的方法通常是耗時的。爲了克服這個缺陷,第二類中的方法試圖將原始輸入圖像直接映射到單個網絡正向通道中的預測密集顯著圖。雖然效率很高,但是這些方法檢測不同尺度的顯著對象或弱語義信息的顯著區域是非常困難的。在本文中,我們開發了混合對比度導向的深度神經網絡來克服上述限制。我們每個深層網絡都由兩個互補的組件組成,包括用於密集預測的完全卷積流和用於稀疏顯著性推斷的段級空間池流。我們進一步提出了一個注意模塊,該模塊可以學習用於融合來自這兩個流的兩個顯著性預測的權重圖。定製的替代方案旨在通過對預先訓練的基線模型進行微調來訓練這些深度網絡。最後,一個定製的完全連接的CRF模型包含了一個顯著的輪廓特徵嵌入,可以作爲後處理步驟選擇性地應用於改善這兩個流的融合結果中的空間相干性和輪廓定位。在六個基準數據集上的大量實驗表明,我們提出的模型在所有流行的評估指標方面都可以顯著優於現有技術水平。

arXiv:https://arxiv.org/abs/1803.11395

圖像分割

[8]《Predicting Future Instance Segmentations by Forecasting Convolutional Features》

Abstract:預測未來事件是實現智能行爲的重要先決條件。 視頻預測已被研究作爲實現這一目標的代理任務。 最近的研究表明,爲了預測未來幀的語義分割,預測語義層面比預測RGB幀更有效,然後對這些幀進行分段。 在本文中,我們考慮未來實例分割中更具挑戰性的問題,它將細分出單獨的對象。 爲了處理每個圖像的不同數量的輸出標籤,我們在Mask R-CNN實例分割模型的固定大小的卷積特徵的空間中開發了預測模型。 我們將Mask R-CNN的“檢測頭”應用於預測特徵,以產生未來幀的實例分割。 實驗表明,這種方法明顯改善了基於光流的基線。

arXiv:https://arxiv.org/abs/1803.11496

[9]《Joint Person Segmentation and Identification in Synchronized First- and Third-person Videos》

Abstract:在攝像機變得越來越普遍的世界中,公共場所中的場景通常由多種類型的攝像機(包括監控攝像機和可穿戴攝像機)從多個角度捕獲。一個重要的問題是如何通過查找它們之間的連接來組織這些異構的視頻集合,例如識別出現在視頻中的人們之間的通用對應關係以及佩戴相機。在本文中,我們考慮了不同類型的多個攝像機觀察涉及多個人的場景的場景,並且我們希望解決兩個具體的相關問題:(1)給定場景的兩個或更多個同步的第三人視頻,產生(2)給定一個或多個同步的第三人稱視頻以及第一人稱視頻的第一人視頻由可穿戴相機拍攝的人員視頻,細分並識別第三方視頻中的相機佩戴者。與以往需要地面真實邊界框估計對應關係的工作不同,我們共同執行人員分割和識別。我們發現同時解決這兩個問題是互惠的,因爲更好的細粒度分割使我們能夠更好地執行視圖間的匹配,並且使用來自多個視圖的信息有助於我們執行更精確的分割。我們評估了我們在從多個可穿戴相機捕獲的具有挑戰性的數據集上評估我們的方法,並且表明我們提出的方法在人物分割和識別方面的表現明顯優於現有技術。

arXiv:https://arxiv.org/abs/1803.11217

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章