導讀： 在線社交媒體平臺的發展，帶來了細粒度檢索、視頻語義摘要等媒體智能服務的巨大需求。現有的視頻理解技術缺乏深入的語義線索，結合視頻中人物的社交關係才能更完整、準確地理解劇情，從而提升用戶體驗，支撐智能應用。這裏主要介紹我們將動態分析和圖機器學習相結合，圍繞視頻中的人物社交關係網絡所開展的兩個最新的工作。主要內容包括：

問題背景
關係圖生成
關係圖應用
未來展望

01 問題背景

1. 現有視頻理解技術缺乏深入語義線索

現有的視頻理解技術更多地着眼於描述畫面里人物的行爲、動作、身份，很少關注更深層的語義信息。例如上圖中讓子彈飛的例子，現有算法理解的是“兩個人坐在一起，一個人表情憤怒，另一個人表情開心”，但由於缺乏深入的語義線索，不能解釋這兩個人爲什麼表情各異地坐在一起，對劇情的理解其實就不完整，不準確。在視頻理解當中，除了淺層的“所得即所見”之外，還需要更多深層的“所得不可見”的語義挖掘。在多種多樣的語義線索中間，人物社交關係是最核心的線索。

2. 視頻人物社交關係相關研究

在2015年前後就已經有了圖像社交關係識別的研究，其中經典的工作包括PIPA（Zhang et al. 2015）、PISC（Li et al. 2017），主要解決的問題是在靜態圖片上理解圖片中兩個人物之間的關係。但由於靜態圖片本身包含的信息量較少，無法描繪完整的動作和互動行爲。到2018年-2019年，社交關係識別任務逐漸推廣到了視頻，產生了MovieGraphs、ViSR等廣爲人知的數據集。相比於圖片來說，視頻包含時序信息、人物完整的動作等，信息更加豐富，建模工作相對來說也更加充實。接下來介紹兩篇相關的工作。

CVPR 2019的一個工作提出了MSTR框架，通過整合視頻中的時間域和空間域的信息，來幫助我們理解人物之間的關係。具體來說，如模型框架圖中間部分所示，MSTR採用了三個圖結構，分別是針對同一個人的 Intra Graph、人物之間的Inter Graph、描述人和物之間交互的 Triple Graph。在這三張圖的基礎上，分別採用了TSN和GCN來描述時間和空間上的信息，最後把時間域和空間域兩個向量拼接起來，作爲關係分類的一個特徵。

MSTR在一些數據集上取得了很好的效果，但這個框架重點是描述人物之間的互動行爲，與社交關係存在一定的差異。例如對視，微笑到擁抱這樣一組互動行爲，既可能發生在情侶之間，也可能發生在好朋友之間。這時互動行爲會對人物關係產生一些干擾。

針對上面的問題，我們在去年有一個相關工作，嘗試增加視頻中的文本信息，包括臺詞、實時彈幕，強化對人物關係的判斷。文中採用多通道特徵提取網絡的框架，融合某一幀畫面以及對應的文本信息，得到融合後的向量表徵，實現關係分類任務。

通過多模態的信息引入，相比於單模態的方法，效果有明顯提升。另外，在之前MSTR的工作中，要預測兩個人物之間的關係，要求這兩個人必須同時出現，才能得到他們之間的互動行爲。但在我們的工作中，即使兩個人沒有同時出現，通過人物對話中對關係的描述，可以間接得到人物關係。

上面工作的侷限性在於，沒有充分利用人物之間社交關係的傳遞性。如果站在全局視角，獲得完整的社交關係圖，能更充分地發揮社交關係相互佐證的作用。下面重點分享下如何生成社交關係圖。

02 關係圖生成

我們提出了層次累積的圖卷積網絡，一方面整合了短期的視覺、文本、聽覺等線索，另一方面，通過兩個層次的圖卷積網絡，生成全局的社交關係圖。其中包含三個模塊：

**幀級別圖卷積網絡
多通道時序累積
片段級圖卷積網絡**

1. 幀級別圖卷積網絡

幀級別圖卷積網絡模塊的核心目的是生成幀級別的關係子圖，描述當前幀中人物社交關係。爲了解決單幀信息量較少的問題，除了融合多模態信息之外，這裏還加入了特殊類型的節點。例如上圖紅框中標出來的部分，每一張graph對應一個幀級別的子圖。C開頭的是單個人物的節點，基於人物檢測或人物重識別的技術來識別。P節點是表示人物pair對的節點，G節點描述背景信息，T節點表示當前幀前後幾十秒的文本信息。利用圖卷積網絡信息傳遞的特點整合這些信息，強化人物節點的表徵。

2. 多通道時序累積

多通道時序累積模塊的目的是表達幀和幀之間人物關係的動態變化。這裏使用了兩個LSTM，第一個LSTM用在C類型節點（人物外觀姿態的變化），第二個LSTM用於P類型節點（人物之間交互行爲的變化），用於捕捉單個人物以及人物之間交互的變化。

3. 片段級圖卷積網絡

片段集圖卷積網絡模塊的目的是整合幀級別的子圖，得到片段級的人物關係圖。片段級別中包含的信息量比較豐富。有人物、人物之間完整的動作行爲、一個完整的小情節，有相對完整的對話信息，不需要太多的輔助信息。因此在上圖紅框中標出來的子圖裏，只包含了C和P兩個類型的節點。另外，這裏額外把片段中的對話音頻信息也加入進來，對應圖中最右的藍色框，此時特徵向量中已經包含了視頻、音頻、文本的信息。

4. 模型訓練方式

整個模型的訓練基於弱監督學習的方式來實現。對標註者而言，逐幀標註人物之間的關係是幾乎不可能完成的任務。這裏能夠獲得的label只有片段級的人物關係，直接用於訓練幀級別的網絡存在一定的噪聲，這裏通過設計弱監督的損失函數來解決這個問題，只圍繞片段級的圖卷積網絡來做訓練。

5. 實驗結果

我們在兩個數據集上進行了驗證：公開數據集ViSR，還有自己構造的bilibili數據集。在兩個數據集上都取得了不錯的效果，由於bilibili數據包含了彈幕，文本信息更加豐富，效果也更加優越。模型中有兩個有趣的發現：

敵對關係比友好關係更難識別。由於敵對關係之間的互動較少，能夠捕捉到的線索較少。
部分友好關係存在混淆。例如親屬、朋友之間體現的互動和傳遞作用中較爲類似。

第一個片段例子表明，片段中涉及的人物越多，我們的模型優勢越大。因爲此時片段子圖規模更大，更稠密，社交關係相互印證的作用更明顯。

第三個片段例子中，從視覺上看是敵對關係，但在故事後期兩人發展成了情侶。也就是說隨着劇情發展，人物之間的關係是不斷變化的，這也啓發了我們對於後續工作的靈感。

03 關係圖應用

1. 視頻人物社交關係圖應用概覽

人物社交關係圖可以有效提升用戶體驗，支撐語義的智能應用。

社交關係圖本身可以幫助觀衆更好地理解劇情。
智能應用：劇情片段描述、劇情因果串聯。例如在哈利波特第一部，斯內普對哈利看似十分不滿，但在關鍵時刻又總是幫助他，令人費解。有了完整的人物關係圖之後，就能更好地解釋這些劇情。

2. 基於社交關係的視頻人物檢索

基於社交關係圖的視頻人物檢索，即把視頻中某一個人物出現的片段全部挖掘出來。區別於傳統的人物檢索任務，視頻人物出現的場景沒有特定場景限制，角度、衣着、行爲一直在變化，傳統檢索任務中常用的重識別類方法很難獲得好的效果。此時可以利用社交關係對候選集進行篩選，實現更準確的人物識別。

基於上述思路，我們提出了一種基於社交感知的多模態人物檢索方法。模型的主要目的是爲了對社交關係的作用進行一個初步驗證，因此沒有用複雜的結構，只用了基礎的矩陣運算和SVM，後續也會考慮如何把GCN融入進來。

視頻片段中間的人物框視作節點，節點之間的關係通過視覺信息+概率校準的SVM來做分類，得到類別標籤及概率。

人物關係圖作爲先驗知識融合到網絡中，完善視覺相似度的侷限性。

當兩個人物沒有正臉時，靠視覺信息很難分辨。通過社交關係，這兩個人產生交互的對象完全不同，這時可以認爲這兩個人不是同一個人。
有時由於姿態、光線的變化，同一個人的兩張圖片視覺相似度較低，這時也可以通過社交關係加以強化。

實驗結果表明，基於社交關係，通過簡單的預訓練+SVM-based關係判別就可以超過當下SOTA的純視覺人物識別效果，證明了這個思路的可行性。尤其是在一些有大量遮擋的極端情況下，純視覺的方法失效了，但通過社交好友關係可以幫助我們做判斷。

04 未來展望

“萬物皆可圖”，多模態內容概莫能外。動態化、語義化，是多模態+圖的未來方向。

多模態與圖相關技術的融合，例如視覺的分割與關聯，把左邊的圖片轉成右邊這樣的場景圖結構。但這裏主要描述的還是“所得及所見”的直接視覺關係，例如物體的位置關係、包含關係，以及人物的衣着行爲等。

在上述描述關係的場景圖的基礎之上，目前已經可以實現對實體的關聯，支撐更細粒度的理解和任務。如圖所示，輸入查詢query “某一個人在打籃球的地方”。如果只使用實體匹配的技術，這裏認爲需要找的是人和籃球，會把“人抱着籃球在場邊談話”的場景也檢索出來，如圖中最下面的一個場景所示。如果用關係圖來描述，前三個場景與最後一個場景得到的關係圖會有很大差異，兩個實體間的邊類型不同。此時可以把檢索問題轉換成子圖相似度匹配的任務，從而獲得更加準確的檢索結果。

目前的場景圖中包含的主要是物體的位置關係、包含關係，以及人物的衣着行爲等在畫面中顯而易見的關係。在未來，可以對場景圖增加更多動態化、語義化的線索，支撐更豐富的下游應用。
本文首發於微信公衆號“DataFunTalk”。

徐童：視頻人物社交關係圖生成與應用

01 問題背景

1. 現有視頻理解技術缺乏深入語義線索

2. 視頻人物社交關係相關研究

02 關係圖生成

1. 幀級別圖卷積網絡

2. 多通道時序累積

3. 片段級圖卷積網絡

4. 模型訓練方式

5. 實驗結果

03 關係圖應用

1. 視頻人物社交關係圖應用概覽

2. 基於社交關係的視頻人物檢索

04 未來展望

公司新來一個幹練小夥，把 MyBatis 替換成 MyBatis-Plus，上線後哭暈在廁所。。。

Testin雲測上線華爲Pura 70系列真機測試服務！

5款開源、美觀、強大的WPF UI組件庫

10分鐘本地運行llama3及初體驗

golang 表格

基於vllm，探索產業級llm的部署

手寫協議報文 c語言手法

甲骨文(Oracle)宣佈將以74億美元收購Sun公司

數據治理與大模型一體化實踐

降本不增“笑”的正確打開方式

基於知識圖譜的多模內容創作技術

京東零售大數據雲原生平臺化實踐

未來數據庫需要關心的硬核創新

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結

徐童：視頻人物社交關係圖生成與應用

01 問題背景

** 1. 現有視頻理解技術缺乏深入語義線索**

2. 視頻人物社交關係相關研究

02 關係圖生成

1. 幀級別圖卷積網絡

** 2. 多通道時序累積**

3. 片段級圖卷積網絡

4. 模型訓練方式

5. 實驗結果

03 關係圖應用

1. 視頻人物社交關係圖應用概覽

2. 基於社交關係的視頻人物檢索

04 未來展望

1. 現有視頻理解技術缺乏深入語義線索

2. 多通道時序累積