關於video content-based copy detection近些年的研究進展

這幾天整理了最近10年video copy detection領域發表在各種會議、期刊上面的主要文章，大略的讀了一遍，下面是主要脈絡的梳理。

首先是1999年Stanford的一篇report P.Indyk, G. Iyengar, and N. Shivakumar. Finding pirated video sequences onthe internet. Technical report, Stanford University, 1999. 這篇文章使用基於shot邊界的時序指紋爲特徵，結合LSH技術進行檢索，由於提取特徵過於簡單沒有考慮到視頻幀本身的圖像信息，故對於整段視頻具有良好的效果，但是對於比較短的視頻片段或者僅有少量shot的檢索效果較差。另外，這篇文章指明瞭copy detection（CBCD）系統的基本構架，商業應用前景等等，算是該領域早期的文章了。

2002年IBM Watson實驗室採用全局特徵進行拷貝檢測。A. Hampapur and R. Bolle. Comparison ofsequence matching techniques for video copy detection. In Conferenceon Storage and Retrieval for Media Databases, pages 194–201, 2002.

該文章基於視頻的motion，Ordinal，color等特徵，對於small tranformation如：分辨率、illumination shifts、display formats的變化，具有良好的魯棒性，而且算法非常高效。但是對於如zooming, cropping, picture in picture則效果不佳。

2003年，法國INA與INAIR發表了一篇基於局部描述符的文章。A.Joly, C. Frélicot, and O. Buisson, “Robust content-based videocopy identification in a large reference database,” in Proc.Int. Conf. Image and Video Retrieval, 2003, pp. 414–424該方法提取Harris interest points detector作爲特徵，此後的copy detection文章大多使用該局部特徵。雖然sift在object recognition上具有最佳的表現，但是該方法並不適用於視頻，首先128維的特徵向量開銷過大，而且sift對於圖像的變化並不穩定，這樣對於位移不明顯的tracking來說效果不佳。

2006年同樣是法國的INA以及INAIR學者採用局部特徵做爲指紋，開發出ViCopT系統，在各項評測中該系統的表現非常好，所以很值得我們學習。 J.Law-To, O. Buisson, V. Gouet-Brunet, and N. Boujemaa. Robust votingalgorithm based on labels of behavior for video copy detection. InACM Multimedia, MM’06, 2006 此該文章首次採用interest points 來估計trajectory，並以此作爲特徵，這樣就考慮了視頻的時間因素。另外，文章還對於points的behavior進行label，將其劃分爲background 以及motion，這樣可以結合起來更加精準的確定視頻的拷貝邊界。在檢索方面，該方法採用了probabilistic filtering rules,而不是其它文章常用的KNN，作者聲稱該方法可以最大限度的保證召回率。系統採用asymmetric technique, 對於query可以任意的選擇frame的採樣週期以及興趣點數量，這樣提高了系統的靈活性。在voting階段，通過trajectory特徵，採用基於幾何模型的配準方法，得到最後精確的結果。採用上述這些複雜的方法，該算法聲稱可以得到real-time的效果（時間開銷大約是實時視頻時長的1.5倍），這不得不令人驚歎。而且在算法準確率召回率評測中，在保證95%準確率的情況下，召回率可以達到82%。

最後是2010年法國INAIR在ECCV上的文章 Compact videodescription for copy detection with precise temporal alignment 文章的亮點在於索引的組織形式以及對於視頻按照結構層級進行compact coding。檢索過程同樣採用常規的KNN方法，voting階段採用Hough transform進行temporal alignment。在Trecvid 08上測試的結果得分爲0.973，而當年的前三名得分分別爲0.952，0.858，0.846. 在進行大規模檢索實驗時發現，在數據庫視頻時長達到1000小時後AP曲線產生了顯著的下滑結果不到60%。AP=0.53 for 2316 hours video, 4.6G RAM for index 208 million frames.

從發展上看，copy detection研究的主力機構是法國的INA與INAIR。CBCD系統基本遵循這樣的框架：

1. Extract frame low-level feature

2. Define the final description

3. Retrieval based on KNN, Hash, or the other index tech

4. Voting based on geometry model

5. Post processing

對於非常簡單的拷貝情況，幾乎最簡單的拷貝檢測方法就可以取得非常好的效果，並且效率也很高。該技術可以用於商業廣告的檢測中。用於長度的因素，如Temporal ordinal measurement所使用的全局特徵要比局部特徵速度快，但是其對於zooming, cropping, 以及picture in picture的魯棒性較差。在大規模的檢索拷貝中，可以適當的考慮全局特徵，但是使用ViCop之類的方法將肯定會使算法的效果得到很大的提升。

大多數的文章在檢索中都是用線性方法KNN而沒有采用更加高效的hash算法，我沒有進行更加深入的分析，所以尚不清楚採用hash算法的問題在哪裏。這裏猜測KNN似乎更加有利於提升系統的召回率。

鑑於不同的方法在不同的情形下的表現不同，所以拷貝檢測系統應該充分的考慮到使用的環境。故建立一個貼近實際應用的benchmark還是非常有意義的。對於Internet上面的視頻具有如下特點：變換的種類較多，拷貝片段的長短不一，數據量極大，更新速度快。所以，理想的檢測系統應該能夠快速的更新索引，產生儘量少的索引數據，有高效快速的檢索算法，能夠容忍各種複雜的變換，能夠精確的確定拷貝的邊界，在保證極高準確率的情況下努力提升召回率。

關於video content-based copy detection近些年的研究進展

python gdal 安裝使用（Windows， python 3.6.8）

其實一切與遊戲無關--yy筆錄+轉載網絡遊戲服務器設計

C++掃盲系列--第一個服務器程序

關於Lemur(1)

千度檢索與語言處理實驗平臺--開幕片

用python寫了個AVL

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結