論文:“Occlusion Robust Face Recognition Based on Mask Learning with Pairwise Differential Siamese Network”
一般的想法是:
先把圖像大致分塊,再比較圖像中的未遮擋部分。
論文中的思路:
圖像被遮擋後,backbone最後的卷積層(大小爲C/H/W)的不同通道對遮擋的響應不一致,這樣對不同的通道可以建立不同的掩碼,即FDM(feature discard mask)。如果把圖像分塊成若干個格子,每個格子被遮擋時產生一個FDM,每個FDM大小是C*H*W的矩陣,元素是0或1。若干個FDM共同組成一個字典。實際使用時,掩碼等於被遮擋塊FDM的交集。
訓練時:
1、字典的生成。對每一個格子的遮擋,輸入大量的圖像對,經過backbone網絡,計算最後卷積層的差,經過 FDM 的創建器 (一個很簡單的網絡,比如conv+bn+relu+sigmoid),生成浮點數的 C*H*W 的矩陣,取均值,再二值化成最終的FDM(把最小的t個值設置成0,其他爲1)。
2、FDM 的創建器 通過 PDSN 訓練。訓練過程是:給定圖像對,利用backbone最後卷積層的差作爲輸入,經過 FDM的創建器, 把掩碼按元素乘到最後的卷積層上,損失就是卷積層差的L1範數 加上 遮擋圖像的分類損失。
實際使用中:
比較兩張圖片的相似度,一張遮擋,一張未遮擋。對遮擋圖片,先用FCN-8s ("Fully convolutional networks for semantic segmentation")做遮擋檢測,量化遮擋區域成若干個格子,掩碼等於格子對應FDM的交集。把掩碼分別作用於兩張圖片backbone最後的卷積層,再提取fc層特徵,計算相似度。
疑問是:
1、特徵佔用空間較大。
由於掩碼未知,只能保存最後的卷積層特徵,對於大批量圖像,空間要求較高。
2、比對速度較慢。
比對不是純粹的計算相似度,而是包含了一些特徵提取過程。