關於video content-based copy detection近些年的研究進展

這幾天整理了最近10年video copy detection領域發表在各種會議、期刊上面的主要文章,大略的讀了一遍,下面是主要脈絡的梳理。

        首先是1999年Stanford的一篇report P.Indyk, G. Iyengar, and N. Shivakumar. Finding pirated video sequences onthe internet. Technical report, Stanford University, 1999.  這篇文章使用基於shot邊界的時序指紋爲特徵,結合LSH技術進行檢索,由於提取特徵過於簡單沒有考慮到視頻幀本身的圖像信息,故對於整段視頻具有良好的效果,但是對於比較短的視頻片段或者僅有少量shot的檢索效果較差。另外,這篇文章指明瞭copy detectionCBCD)系統的基本構架,商業應用前景等等,算是該領域早期的文章了。

         2002年IBM Watson實驗室採用全局特徵進行拷貝檢測。A. Hampapur and R. Bolle. Comparison ofsequence matching techniques for video copy detection. In Conferenceon Storage and Retrieval for Media Databases, pages 194–201, 2002. 

該文章基於視頻的motion,Ordinal,color等特徵,對於small tranformation如:分辨率、illumination shifts、display formats的變化,具有良好的魯棒性,而且算法非常高效。但是對於如zooming, cropping, picture in picture則效果不佳。

         2003年,法國INA與INAIR發表了一篇基於局部描述符的文章。A.Joly, C. Frélicot, and O. Buisson, “Robust content-based videocopy identification in a large reference database,” in Proc.Int. Conf. Image and Video Retrieval, 2003, pp. 414–424該方法提取Harris interest points detector作爲特徵,此後的copy detection文章大多使用該局部特徵。雖然sift在object recognition上具有最佳的表現,但是該方法並不適用於視頻,首先128維的特徵向量開銷過大,而且sift對於圖像的變化並不穩定,這樣對於位移不明顯的tracking來說效果不佳。

2006年同樣是法國的INA以及INAIR學者採用局部特徵做爲指紋,開發出ViCopT系統,在各項評測中該系統的表現非常好,所以很值得我們學習。 J.Law-To, O. Buisson, V. Gouet-Brunet, and N. Boujemaa. Robust votingalgorithm based on labels of behavior for video copy detection. InACM Multimedia, MM’06, 2006  此該文章首次採用interest points 來估計trajectory,並以此作爲特徵,這樣就考慮了視頻的時間因素。另外,文章還對於points的behavior進行label,將其劃分爲background 以及motion, 這樣可以結合起來更加精準的確定視頻的拷貝邊界。在檢索方面,該方法採用了probabilistic filtering rules,而不是其它文章常用的KNN,作者聲稱該方法可以最大限度的保證召回率。系統採用asymmetric technique, 對於query可以任意的選擇frame的採樣週期以及興趣點數量,這樣提高了系統的靈活性。 在voting階段,通過trajectory特徵,採用基於幾何模型的配準方法,得到最後精確的結果。採用上述這些複雜的方法,該算法聲稱可以得到real-time的效果(時間開銷大約是實時視頻時長的1.5倍),這不得不令人驚歎。而且在算法準確率召回率評測中,在保證95%準確率的情況下,召回率可以達到82%。

         最後是2010年法國INAIR在ECCV上的文章 Compact videodescription for copy detection with precise temporal alignment 文章的亮點在於索引的組織形式以及對於視頻按照結構層級進行compact coding。檢索過程同樣採用常規的KNN方法,voting階段採用Hough transform進行temporal alignment。在Trecvid 08上測試的結果得分爲0.973,而當年的前三名得分分別爲0.952,0.858,0.846. 在進行大規模檢索實驗時發現,在數據庫視頻時長達到1000小時後AP曲線產生了顯著的下滑結果不到60%。AP=0.53 for 2316 hours video, 4.6G RAM for index 208 million frames.

從發展上看,copy detection研究的主力機構是法國的INA與INAIR。CBCD系統基本遵循這樣的框架:

1.       Extract frame low-level feature

2.       Define the final description

3.       Retrieval based on KNN, Hash, or the other index tech

4.       Voting based on geometry model

5.       Post processing

對於非常簡單的拷貝情況,幾乎最簡單的拷貝檢測方法就可以取得非常好的效果,並且效率也很高。該技術可以用於商業廣告的檢測中。用於長度的因素,如Temporal ordinal measurement所使用的全局特徵要比局部特徵速度快,但是其對於zooming, cropping, 以及picture in picture的魯棒性較差。在大規模的檢索拷貝中,可以適當的考慮全局特徵,但是使用ViCop之類的方法將肯定會使算法的效果得到很大的提升。

大多數的文章在檢索中都是用線性方法KNN而沒有采用更加高效的hash算法,我沒有進行更加深入的分析,所以尚不清楚採用hash算法的問題在哪裏。這裏猜測KNN似乎更加有利於提升系統的召回率。

鑑於不同的方法在不同的情形下的表現不同,所以拷貝檢測系統應該充分的考慮到使用的環境。故建立一個貼近實際應用的benchmark還是非常有意義的。對於Internet上面的視頻具有如下特點:變換的種類較多,拷貝片段的長短不一,數據量極大,更新速度快。所以,理想的檢測系統應該能夠快速的更新索引,產生儘量少的索引數據,有高效快速的檢索算法,能夠容忍各種複雜的變換,能夠精確的確定拷貝的邊界,在保證極高準確率的情況下努力提升召回率。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章