2018-CVPR-sensetime-Paper

目錄

(1)Group consistent similarity learning via deep CRFs for person re-identification (oral)

(2)Eliminating Background-bias for Robust Person Re-identification (parsing 方法的一篇)

(3)High performance visual tracking with Siamese region proposal network(spotlight)


商湯今年發的論文:

相關工作:

 

(1)Group consistent similarity learning via deep CRFs for person re-identification (oral)

 

Loss: pairwise loss 就判斷yes or not

目標:判斷圖像羣是否相似 而不像傳統工作只判斷兩張圖是否相似

 

本文使用pairwise loss

 

決定兩張圖片是否相似的估計:

Joint similarity:若探針和一張圖相似,這張圖和另一張相似。則認爲探針圖和另一張也相似

Joint dissimilarity: 若探針和一張圖不相似,這張圖和另一張相似,則探針和他不相似

(我覺得這地方不是很有道理 引入噪聲 麻煩很大)

Group somilarity應該和圖片對的估計相接近

(emm 用group難道不是爲了超越單張圖的性能嗎 像它靠近的話怎麼談超過??)

Pariwise期決定兩張圖相似還是不相似

結果挺好的

 

 

(2)Eliminating Background-bias for Robust Person Re-identification parsing 方法的一篇)

 

 

實驗證明 re-id太依賴背景信息了:

實驗還證明只用背景信息,重識別成功率更高,這也就是說背景有很多欺騙的信息。

 

隨機替換原始背景

一些結果:

結果不是很高,但是很有價值。

一些解釋:

CRF用來傳遞正、側、背面相似的置信度。中間傳遞不準確的話也會有影響(所以CRF的方法使用可能不是很有用)

 

 

(3)High performance visual tracking with Siamese region proposal network(spotlight)

(還是商湯的 安防 新零售落地)

現實項目問題:視頻流過來,不能每一幀都做tracking。不能佔用太多資源。一臺機子希望可以跑好幾個tracking。

 

和detection的區別:

1沒有語義特徵。

2Tracking 沒有預定義的類。

3只有第一幀被annotations。

 

傳統方法:濾波器不適合實時。

他認爲是One-shot local detection 問題。

相關工作有:RPN in detection. Siamese trackers

 

算餘弦相似度。速度快。80多FPS 較輕量級網絡可實現

問題:框不準確。Multi scale耗時。

 

基於RPN的框架來解決:

 

 

 

 

本文貢獻:

 

上面在做分類,下面做迴歸。

關鍵:要把第一幀的信息包含進這個網絡中。

 

只計算第一幀的一隻,然後forward。

在GPU 可達500-800FPS. 低幀魯班也不錯(5張)

 

作者認爲Meanshit 的方法先驗信息給了要給core window, 要跟住中間點,有點作弊。他們就沒給這個中心化的約束。

在小的數據集的確需要約束,數據集足夠大的話其實不需要這種約束。

測試數據多了效果會不會好

 

探究數據驅動和加中心點tracking的方法

 

其他兩個工作:

End-to-end flow correlation tracking with spatial-temporal attention

Practical block-wise neural network architecture generation

 

直接搜索出更好的網絡

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章