目錄
(1)Group consistent similarity learning via deep CRFs for person re-identification (oral)
(2)Eliminating Background-bias for Robust Person Re-identification (parsing 方法的一篇)
(3)High performance visual tracking with Siamese region proposal network(spotlight)
商湯今年發的論文:
相關工作:
(1)Group consistent similarity learning via deep CRFs for person re-identification (oral)
Loss: pairwise loss 就判斷yes or not
目標:判斷圖像羣是否相似 而不像傳統工作只判斷兩張圖是否相似
本文使用pairwise loss
決定兩張圖片是否相似的估計:
Joint similarity:若探針和一張圖相似,這張圖和另一張相似。則認爲探針圖和另一張也相似
Joint dissimilarity: 若探針和一張圖不相似,這張圖和另一張相似,則探針和他不相似
(我覺得這地方不是很有道理 引入噪聲 麻煩很大)
Group somilarity應該和圖片對的估計相接近
(emm 用group難道不是爲了超越單張圖的性能嗎 像它靠近的話怎麼談超過??)
Pariwise期決定兩張圖相似還是不相似
結果挺好的
(2)Eliminating Background-bias for Robust Person Re-identification (parsing 方法的一篇)
實驗證明 re-id太依賴背景信息了:
實驗還證明只用背景信息,重識別成功率更高,這也就是說背景有很多欺騙的信息。
隨機替換原始背景
一些結果:
結果不是很高,但是很有價值。
一些解釋:
CRF用來傳遞正、側、背面相似的置信度。中間傳遞不準確的話也會有影響(所以CRF的方法使用可能不是很有用)
(3)High performance visual tracking with Siamese region proposal network(spotlight)
(還是商湯的 安防 新零售落地)
現實項目問題:視頻流過來,不能每一幀都做tracking。不能佔用太多資源。一臺機子希望可以跑好幾個tracking。
和detection的區別:
1沒有語義特徵。
2Tracking 沒有預定義的類。
3只有第一幀被annotations。
傳統方法:濾波器不適合實時。
他認爲是One-shot local detection 問題。
相關工作有:RPN in detection. Siamese trackers
算餘弦相似度。速度快。80多FPS 較輕量級網絡可實現
問題:框不準確。Multi scale耗時。
基於RPN的框架來解決:
本文貢獻:
上面在做分類,下面做迴歸。
關鍵:要把第一幀的信息包含進這個網絡中。
只計算第一幀的一隻,然後forward。
在GPU 可達500-800FPS. 低幀魯班也不錯(5張)
作者認爲Meanshit 的方法先驗信息給了要給core window, 要跟住中間點,有點作弊。他們就沒給這個中心化的約束。
在小的數據集的確需要約束,數據集足夠大的話其實不需要這種約束。
測試數據多了效果會不會好
探究數據驅動和加中心點tracking的方法
其他兩個工作:
End-to-end flow correlation tracking with spatial-temporal attention
Practical block-wise neural network architecture generation
直接搜索出更好的網絡