李飛飛團隊新作:一種補全視覺信息庫的半監督方法

視覺信息庫,例如Visual Genome數據庫,在計算機視覺方面驅動了着大量的應用發展,包括視覺問答和圖像標註等。但同時,視覺知識庫也具有稀疏、欠完備等缺點。使用人工標註是非常昂貴的,而基於紋理知識的補全方法則無法與視覺數據兼容。斯坦福大學李飛飛團隊提出了一種半監督方法,使用少量標註樣本預測無標註樣本概率學標籤的方法。基於對視覺關係的分析,該方法啓發式地將兩種圖像無關特徵進行使用基於圖的生成模型進行累計。在使用了少量標註樣本的關係樣本情況下,生成數據可以用於訓練現有的最好的場景圖模型。作者認爲本文的方法是一種具有實際意義的使用有限的標籤進行訓練的方法(the de-facto approach)。實驗結果表明,該方法在解決場景圖預測數據標籤缺失方面具有優越的性能。本文是AI前線第78篇論文導讀。

1 什麼是場景圖預測?

爲了使圖像表徵形式化,Visual Genome定義了場景圖(Scene Graph)。場景圖是一種結構化的形式,它與廣泛用於知識庫的表示方法具有相似的形式。場景圖將多個目標(例如:狗,飛盤)編碼爲節點,這些節點之間通過成對的關係作爲邊相連接(例如:在玩)。這種形式化的表達促進了圖像標註、圖像檢索、視覺問答、關係模型和圖像生成等方面的發展。然而,對於沒有充分標註的實例,目前爲止所有的場景圖模型都忽略了超過98%的關係類別(圖1),這些模型主要側重於解決具有上千個標註信息的實例的關係。


圖1:視覺關係的統計表示,目前大多數模型主要集中於解決Visual Genome數據集中的前五十種關係,這些關係包含上千個已標記的實例。這導致超98%種僅包含少量標註實例的視覺關係被忽略了。

爲了對人工標註進行補充,通過使用半監督學習或弱監督(遠監督)學習方法,許多基於文本知識補全的算法應運而生。但這類方法對於視覺關係不具有良好的泛化能力,這使得針對視覺知識的特殊方法成爲急需解決的問題。

本文提出了一種自動化生成缺失關係類標的方法,該方法使用少量的標註數據集自動化地生成類標用來訓練下游的場景圖模型(圖2)


圖2:本文提出的半監督方法可以生成無標籤數據的概率標籤然後用於訓練下游的場景圖模型

本文的作者首先從如何定義圖像無關特徵(2.2部分)對圖像中的實例關係展開探索。例如,“吃”這一行爲通常由一個正在吃東西的目標和另一個比前者小的被吃的物體組成。再比如說這個動作,該實例關係中通常包含手機、筆記本和窗口(圖3)。在視覺關係中,這些規則不需要原始的像素值並且可由圖像無關特徵推斷而來,如物體類別、空間關係。儘管這些規則簡單明確,但它們對於尋找丟失的視覺關係中的潛力尚未被挖掘


圖3:視覺關係,如“飛”、“吃”和“坐”可以有效地被形象化表示爲他們的類別(圖中s和o分別表示主體和客體)或空間特徵。改圖表示這些空間和類別特徵對某一視覺關係的重要性。

從上圖中可以看出,圖像無關特徵可以在一些複雜視覺關係中捕獲變化,這些視覺關係由於實例間的相互差異很難直接被刻畫爲某種表示。因此,爲了量化我們的圖像無關特徵的重要性,本文的作者定義了“子類型”用來測量空間和類別的變化。

2 視覺關係分析

2.1 相關術語

2.2 圖像無關特徵

爲了說明空間和類別特徵可以很好的描述不同的視覺關係,作者對於每一種視覺關係都訓練了一個決策樹模型。在圖3中畫出了4中視覺關係中最重要的幾個空間和類別特徵,例如,“飛”跟主體還有客體的y-軸左邊有很大的關係,“看”主要取決於物體類別(例如,手機、筆記本、窗戶)而不依賴於任何空間方向。

2.3 視覺關係的變化

爲了系統的研究視覺關係的變化,作者將每個視覺關係定義爲具有一定數量子類型的組合。例如,在圖4中,“騎”包含了一個類別子類型<人-騎-自行車>和另一個類別子類型<狗-騎-衝浪板>。類似的,一個人可能會以多種不同的空間方式“拿”一個物體(例如,在頭上,在身側)。爲了找到所有的空間子類,作者使用均值漂移聚類對Visual Genome中的所有視覺關係提取空間特徵。爲了找到類別子類,作者對一個視覺關係中的所有物體類別進行了數量統計。


圖4:同一視覺關係的不同子類,上半部分均爲“騎”,下半部分均爲“拿”。

3 方法

對於無標註的數據集Du,作者使用了三步來獲得其概率標籤:(1)作者提取了已標註數據集Dp的圖像不變特徵,同時結合目標檢測算法提取Du中候選物體的圖像不變特徵;(2)對圖像不變特徵使用啓發式生成算法;(3)使用基於因子圖的生成模型對概率標籤進行聚合並賦給Du中的未標註物體對。具體算法在論文原文的Algorithm1中有詳細敘述,整個系統的端到端框架如圖5所示。


圖5:本文提出算法的整體框架圖,圖中以“拿”這一關係作爲示例進行展示。

3.1 特徵提取

提取圖像無關特徵需要用到現有的目標檢測算法,這裏作者使用了Mask-RCNN來生成無標籤數據物體候選框,然後使用使用第三部分所述的圖像無關特徵的定義計算無標註數據的圖像無關特徵。對於已標註的數據,則直接利用其標註的候選框計算圖像無關特徵。

3.2 啓發式生成

作者使用已標註的視覺關係中的空間和類別特徵訓練了一個決策樹。同時,作者對這些啓發式算法的複雜度進行了約束以防止模型過擬合。這裏作者使用了淺層的決策樹網絡,對於每一個特徵集使用不同的深度約束,這樣就產生了J個不同的決策樹。隨後作者使用了這些啓發式算法預測無標籤數據集的標籤,得到所有無標籤關係的預測矩陣


圖6:視覺關係的一個子集,空間和類別子類決定了不同程度的複雜度。

爲了更進一步的防止過擬合,作者通過設置一個置信度閾值對Λ進行調整。最終的啓發式算法如圖5中的示例所示,當一個主體在客體上方時候,則會對謂語部分的這一動作的類標賦予正值。

3.3 生成模型

3.4 訓練場景圖模型

最終,這些概率類標被用於訓練任何一種場景圖模型。場景圖模型通常使用交叉熵損失進行訓練,作者對該函數進行了調整,這是爲了將生成模型的標註錯誤也考慮進去。最終,作者使用了一種噪聲感知經驗誤差函數來優化場景圖模型:

其中θ是需要學習的參數,Π表示使用生成模型學到的分佈,Y是真實類標,V是使用任意場景圖預測模型提取的視覺相關特徵。

4 實驗

作者首先在VRD 數據集上對生成模型的標註能力進行了測試,以驗證生成模型是否具有尋找丟失的視覺關係的能力。然後,作者使用生成的類標訓練了目前最好的場景圖模型。作者將生成的標籤與Visual Genome數據集的類標進行了比較。最後,作者將本文的方法與遷移學習方法進行了對比。VRD和Visual Genome模型都是視覺關係預測和場景圖識別方向的兩個標準數據集。由於Visual Genome數據庫規模太大(108K張圖像),每個場景圖的標籤都不完整,因此作者僅在VRD數據集上對半監督算法的進行了驗證。

作者爲了驗證他們提出的半監督方法能夠很好地標註丟失的視覺關係,作者在VRD數據集的測試集上計算了精確度和召回率。實驗結果如下表所示:

爲了展示概率標籤的效果,作調整了現有的場景圖模型並使用了三種標準評價模式:1)場景圖檢測(SGDET),該模式輸入圖像,預測出其邊界框、物體類別和謂語類標。2)場景圖分類(SGCLS),該模式輸入真實邊界框,預測出圖像的物體類別和謂語類標。3)謂語分類(PREDCLS),該模式輸入邊界框的真實集合和物體類別,預測圖像的謂語類標。關於這三種任務的詳細介紹作者推薦了文章[1]供讀者們參考。本文的方法在這三個任務上的實驗結果如下表所示:

該表中,作者採用ORACLE作爲模型性能的上邊界,因爲這個方法的實驗結果是在整個VIsual Genome上訓練得到的,作者希望提出的方法能夠儘量與ORACLE達到相同的效果。表格的上半部分是一些基線方法,其中DECISION TREE是一種提取圖像無關特徵的單決策樹方法,LABEL PROPAGATION是一種應用廣泛的半監督方法,TRANFER LEARNING則使用了一種通用的遷移學習方法進行訓練。

表格的下半部分是消融實驗結果,即對作者提出方法的每個部分進行有效性驗證。(CATEG.)表示僅使用類別特徵,(SPAT.)表示僅使用空間特徵,(DEEP)表示僅使用ResNet50提取的深度特徵,(CATEG.+SPAT.)表示使用級聯的類別和空間特徵,(CATEG.+SPAT.+DEEP)表示三者結合。(MAJORITY VOTE)則是使用類別和空間特徵,同時使用簡單的多數投票方法而不是使用生成模型來聚合啓發式函數的輸出的方法。可以看出本文提出的方法在多個模式下都體現出卓越的效果。

作者繪製了本文提出方法的類標賦值情況,與圖3中相關的圖像無關特徵進行了比較,類標可視化結果如下圖:

在(a)中,本文的模型預測出了“飛”這個位於,因爲它學習到了“飛”這個動作表示兩個物體在y軸上的存在巨大差異。在(c)中,本文提出的模型則做出了錯誤的預測,將“掛”理解爲了“坐”,這是因爲模型過度的依賴於類別特徵中“椅子”和“坐”密不可分的關係。

5 結論

本文的作者首次提出了一種補全視覺信息庫的半監督方法,該方法利用圖像無關特徵儘可能地用少於10個標註實例來刻畫每一種視覺關係。然後通過對這些特徵進行啓發式學習訓練,最後使用生成模型爲無標註圖像分配概率標籤。作者在VRD數據集上進行了測試,實驗結果表明本文提出的模型性能在標註方面比標準的半監督方法(例如標籤傳播)高出了11.84點,F1分數達到了57.66。

爲了進一步驗證生成類標的作用,作者對目前最好的場景圖模型進行微調從而使其可以使用生成的概率標籤進行訓練。使用概率標籤訓練後的模型在Visual Genome數據庫上達到了46.53recall@100(召回率100時的識別準確率),與僅使用有標註實例訓練後的模型相比提升了40.97個點。同時,作者還與其他遷移學習方法進行了對比。在召回率爲100時,本文提出的方法比其他遷移學習方法高出5.16個百分點,這是因爲對於未標註的子類本文提出的方法具有更好的泛化能力,尤其是具有高複雜度的視覺關係。

英文論文原文:https://arxiv.org/abs/1904.11622

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章