論文 1 Dynamic Feature Learning for Partial Face Recognition

（提出滑動損失）

Lingxiao He, Haiqing Li, Qi Zhang, Zhenan Sun

在視頻監控，移動手機等場景中，部分人臉識別是一個非常重要的任務。然而，很少有方法研究部分人臉塊識別。我們提出一種動態特徵匹配方法來解決部分人臉識別問題，它結合全卷積網絡和稀疏表達分類。首先，利用全卷積網絡提取 Gallery 和 Probe 的特徵圖；其次，利用一個大小滑動窗口把 Gallery 的特徵圖分解爲與 Probe 特徵圖大小相同的子特徵圖，進而動態特徵字典；最後，利用稀疏表達分類來匹配 Probe 特徵圖與動態特徵字典的相似度。基於動態特徵匹配方法，我們提出了滑動損失來優化全卷積網絡。該損失減小類內變化，增加了類間變化，從而提高動態特徵匹配的性能。相比於其他部分人臉識別方法，我們提出的動態匹配方法取得很好的性能。

動態特徵匹配的部分人臉識別框架

論文 2 Deep Spatial Feature Reconstruction for Partial Person Re-identification: Freestyle Approach

Lingxiao He, Jian Liang, Haiqing Li, Zhenan Sun

部分行人再識別是一個非常重要並且具有挑戰性的問題。在無約束環境中，行人容易被遮擋，有姿態和視角變化，所以有時候只有部分可見的行人圖像可用於識別。然而，很少有研究提出一種可以識別部分行人的方法。我們提出了一種快速且精確的方法來處理部分行人再識別的問題。提出的方法利用全卷積網絡抽取與輸入圖像尺寸相對應的空域特徵圖，這樣輸入的圖像沒有尺寸約束。爲了匹配一對不同尺寸大小的行人圖像，我們提出了一種不需要行人對齊的方法：深度空域特徵重建。特別地，我們借鑑字典學習中重建誤差來計算不同的空域特徵圖的相似度。按照這種匹配方式，我們利用端到端學習方法增大來自於同一個人的圖像對的相似度，反之亦然。由此可見，我們方法不需要對齊，對輸入圖像尺寸沒有限制。我們在 Partial REID，Partial iLIDS 和 Market1501 上取得很好的效果。

深度空域特徵重建

論文 3 Adversarially Occluded Samples For Improving Generalization of Person Re-identification Models

Houjing Huang, Dangwei Li, ZhangZhang, Kaiqi Huang

行人再識別（ReID）是跨攝像機行人檢索任務，由於存在光照變化、視角變化、遮擋等複雜因素，目前的模型往往在訓練階段達到了很高的準確率，但是測試階段的性能卻不盡人意。爲了提高模型的泛化性能，我們提出了一種特殊的樣本來擴充數據集：對抗式遮擋樣本。

整個方法流程如下：（1）按照常用的方法訓練一個 ReID 模型；（2）通過網絡可視化的方法找出模型在識別訓練樣本時所關注的區域，對這些區域進行（部分）遮擋就可以產生新的樣本，同時我們保持這些樣本原有的類別標籤；（3）最後，把新的樣本加入到原始數據集中，按照之前的方法訓練一個新的模型。這種樣本不僅模擬了現實中的遮擋情況，而且對於模型來說是困難樣本，可以給模型的訓練提供動量，從而跳出局部極小點，減少模型的過擬合。實驗發現，原始的 ReID 模型識別訓練樣本時只關注一些局部的身體區域，加入新樣本訓練後的模型則可以同時關注到一些之前沒關注的身體區域，從而提高了模型在測試階段的魯棒性。下圖是該方法的一個具體實現，其中 ReID 採用 ID 多分類模型，模型可視化方法採用滑動窗口遮擋的方法。

基於對抗式遮擋的數據擴增算法流程圖

論文 4 Learning Semantic Concepts and Order for Image and Sentence Matching

聯合圖像語義概念和語義順序學習框架

論文 5 A2-RL: Aesthetics Aware Reinforcement Learning for Image Cropping

Debang Li，Huikai Wu，Junge Zhang，Kaiqi Huang

隨着當前圖像數據量的不斷增長，對圖像進行自動處理的需求也逐漸變大，而圖像裁剪是圖像處理中的一個十分重要的步驟。圖像自動裁剪技術不僅能夠快速的完成對大多數圖片的處理，同時還能夠輔助專業攝像師找到更好的視角來提升圖像的構圖質量，其具有十分大的應用價值。由於圖像裁剪的數據標註較難獲得，而且一般數據量較少，我們提出了一種基於強化學習的弱監督（不需要裁剪框標註）圖像自動裁剪算法 A2-RL。之前的弱監督自動裁剪算法大部分使用滑動窗口來獲取候選區域，其需要耗費較大的計算資源和時間，爲了解決上述問題，我們將強化學習引入到自動裁剪中，使用一個智能體（agent）在輸入圖像上自適應的調整候選區域的位置和大小。該智能體以圖像的全局特徵和局部特徵作爲觀測信息，並且根據當前和歷史的觀測作爲依據來決定下一步的動作。在訓練過程中，該智能體根據圖像質量的評分計算獎勵，並使用 A3C 算法進行訓練，最終學到較好的候選區域調整策略。在實驗過程中，我們的方法在多個標準的裁剪數據集上進行了測試，其不僅在速度上取得了較大的提升，同時在精度上也有明顯的提高。我們方法的整體框架圖爲：

基於強化學習的圖像自動裁剪模型架構

論文 6 Discriminative Learning of Latent Features for Zero-Shot Recognition

Yan Li, Junge Zhang, Kaiqi Huang, Jianguo Zhang

零樣本學習（Zero-Shot Learning）通過在視覺和語義兩個空間之間學習一個共同的嵌入式空間，能夠實現對測試集中的未知類別進行測試。以往的零樣本工作，主要集中在嵌入式空間學習過程中，忽略了視覺特徵、語義特徵在零樣本學習中的作用。我們針對傳統的零樣本學習過程中，特徵表達區分度不足的問題，從視覺空間和語義空間兩個方面提出了改進方法，在兩個空間同時學習到區分度更強的特徵表達，進而極大地提升了零樣本學習的識別性能。具體來說，1）在視覺空間，我們提出了 zoom net，從原始的圖片中，自動挖掘具有區分度的圖片區域。2）在語義空間，除了用戶定義的屬性之外，我們利用 triplet loss，自動地學習具有區分度的「隱式屬性」。3）最終，圖片空間中的區分性區域挖掘，以及語義空間中的區分性隱屬性學習兩個模塊在一個端到端框架中聯合學習，共同促進。

用於零樣本學習的隱式判別性特徵挖掘框架

論文 7 Pose-Guided Photorealistic Face Rotation

Yibo Hu, Xiang Wu, Bin Yu, Ran He, Zhenan Sun

隨着深度學習的發展，人臉識別算法的性能得到了廣泛提升，然而大姿態人臉識別問題依然亟待解決。人臉旋轉爲人臉識別中的大姿態問題提供了一種有效的解決方式。我們提出了一種任意角度的人臉旋轉算法 Couple-Agent Pose-Guided Generative Adversarial Network (CAPG-GAN)。CAPG-GAN 通過人臉關鍵點編碼姿態信息指導對抗生成網絡進行人臉生成任務。同時使用身份保持損失函數和全變分正則項約束人臉的身份信息和局部紋理信息。最終我們的算法在 Multil-PIE 和 LFW 上均取得了不錯的識別率，同時如圖所示，CAPG-GAN 可以根據人臉關鍵編碼信息生成任意角度人臉。

不同姿態人臉圖像生成結果

論文 8 Multistage Adversarial Losses for Pose-Based Human Image Synthesis

Chenyang Si, Wei Wang, Liang Wang, Tieniu Tan

單張圖片的多視角圖像合成在計算機視覺中是一個非常重要並且具有挑戰性的問題，而且對於人的多視角圖像合成在對人體行爲理解中具有很重要的應用價值。利用人的多視角合成可以有效地解決在計算機視覺中存在的跨視角問題，例如跨視角行爲識別、跨視角行人再識別等等。由於人姿態的多變性，人的多視角圖像合成比剛性物體（如車、椅子等等）的多視角合成更具有挑戰性。我們提出了多階段對抗損失函數在基於人體關鍵點的多視角人體圖像合成算法，該算法可以生成高質量多視角人體圖像，而且可以保持合成人的姿態在三維空間中保持一致。爲了可以生成高質量圖像，我們提出從低維度人體結構到圖像前景，最後合成背景的多階段圖像生成模型，爲了解決均方誤差損失函數引起的圖像模糊的問題，我們在多階段使用對抗損失函數。我們的算法如圖所示：

基於pose的多階段對抗學習的人體圖像合成網絡框架

論文 9 Mask-guided Contrastive Attention Model for Person Re-Identification

Chunfeng Song, Yan Huang, Wanli Ouyang, and Liang Wang

行人再識別問題是一個重要且具有挑戰性的經典計算機視覺任務。通常攝像頭採集到的行人圖像中含有雜亂的背景，並且圖像中的行人通常有多種多樣的姿態和視角，這些多樣性造成的困難在之前的研究中都尚未得到很好的解決。爲了解決上述問題，我們引進了二值化的行人分割輪廓圖作爲額外輸入，並與彩色圖像合成爲四通道的新輸入，然後設計了一種基於分割輪廓圖的對比注意模型來學習背景無關的行人特徵。在此基礎上，我們提出了一種區域級別的三元組損失函數，分別來約束來自全圖區域、行人身體區域、背景區域的特徵，提出的損失函數可以讓來自全圖區域和行人身體區域的特徵在特徵空間靠近，並遠離背景區域，最終達到去除背景的作用。所提出的方法在三個行人再識別數據集上驗證了有效性，取得了當前最好的性能。

二值化分割輪廓與區域級別三元組約束示意圖

論文 10 M^3: Multimodal Memory Modelling for Video Captioning

Junbo Wang, Wei Wang, Yan Huang, Liang Wang, Tieniu Tan

視頻描述對於理解視覺與語言是十分重要的一環，同時也是很有挑戰性的任務。它有很多的實際應用價值，包括人機交互、視頻檢索、爲盲人轉述視頻等。針對這一問題，我們提出了一個多模態記憶模型用於視頻描述，這一模型建立了視覺與文本共享的記憶存儲器用來模擬長範圍視覺文本依賴性並且進一步指導視頻描述中的全局視覺目標的關注。借鑑神經圖靈機模型的原理，該模型通過多次讀寫操作與視頻和句子進行交互並附加了一個外部記憶存儲器用來存儲來自視覺與語言模態的信息。下圖展示了用於視頻描述的多模態記憶建模的整體框架。

這一框架包含三個關鍵模塊：基於卷積網絡的視頻編碼器，多模態記憶存儲器，基於 LSTM 的文本解碼器。（1）基於卷積網絡的視頻編碼器首先利用預訓練的 2D 或者 3D 卷積網絡模型提取關鍵幀或段的特徵，再利用時序注意模型選擇與當前單詞最相關的視覺表示，並寫入到記憶存儲器中；（2）基於 LSTM 的文本解碼器利用 LSTM 模型對句子的產生進行建模，它預測當前的單詞不僅依賴於之前時刻的隱藏表示，而且還有從記憶存儲器中讀取的信息，同樣地，它會向記憶存儲器中寫入更新的表示。（3）多模態記憶存儲器包含一個記憶存儲矩陣用來與視頻編碼器和文本解碼器進行交互，例如，從 LSTM 解碼器中寫入隱藏表示和讀取記憶內容用於解碼器。每一步寫入操作都會更新多模態記憶存儲器。最後，我們在兩個公開的數據集（MSVD 和 MSR-VTT）上對提出的模型進行了評價。實驗結果表明提出的模型在 BLEU 和 METEOR 兩個指標上都超過了許多當前最好的結果。

用於視頻描述的多模態記憶模型架構

論文 11 Fast End-to-End Trainable Guided Filter

Huikai Wu, Shuai Zheng, Junge Zhang, Kaiqi Huang

我們提出了一個全新的用於聯合超分 (Joint Upsampling) 的深度學習模塊---引導濾波單元 (Guided Filtering Layer)。此模塊將傳統的引導濾波 (Image Guided Filtering) 算法建模爲一個可以反向傳播、與其他模塊聯合訓練的深度學習單元，同時還引入可以自適應學習的引導圖 (Guidance Map) 來提高靈活性。通過與原有的卷積神經網絡結合，引導濾波單元可以廣泛地應用於稠密預測任務 (Dense Prediction Task)，並獲得更快的速度、更高的精度和更少的內存佔用量。試驗證明，引導濾波單元可以在衆多圖像處理任務中取得最好的性能並獲得 10 至 100 倍的速度提升。在計算機視覺中的衆多稠密匹配任務中，此模塊同樣可以取得顯著的性能提升。代碼和論文將公佈在 htt

ps://github.com/wuhuikai/DeepGuidedFilter。

使用卷積神經網絡和提出的引導濾波單元進行圖像到圖像變換的結果展示

2018-CVPR-自動化所-Paper

論文 1 Dynamic Feature Learning for Partial Face Recognition

（提出滑動損失）

論文 2 Deep Spatial Feature Reconstruction for Partial Person Re-identification: Freestyle Approach

論文 3 Adversarially Occluded Samples For Improving Generalization of Person Re-identification Models

論文 4 Learning Semantic Concepts and Order for Image and Sentence Matching

論文 5 A2-RL: Aesthetics Aware Reinforcement Learning for Image Cropping

論文 6 Discriminative Learning of Latent Features for Zero-Shot Recognition

論文 7 Pose-Guided Photorealistic Face Rotation

論文 8 Multistage Adversarial Losses for Pose-Based Human Image Synthesis

論文 9 Mask-guided Contrastive Attention Model for Person Re-Identification

論文 10 M^3: Multimodal Memory Modelling for Video Captioning

論文 11 Fast End-to-End Trainable Guided Filter

Python 潮流週刊#52：Python 處理 Excel 的資源

【KD】基礎知識

Knowledge Distillation總目錄

【KD】Correlation Congruence for Knowledge Distillation

【KD】、【reid】Distilled Person Re-identification: Towards a More Scalable System

【person search】Re-ID Driven Localization Refinement for Person Search

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結