Visual Genome 數據集標註內容

2、Visual Genome 的數據表現

Visual Genome 數據集包括 7 個主要部分:區域描述、對象、屬性、關係、區域圖、場景圖和問答對。圖 4 展示了一幅畫的每一個部分的例子。要對圖像進行理解的研究,我們從收集描述和問答對開始。這些是原始的文本,沒有任何長度和詞彙的限制。下一步,我們從描述中提取對象、屬性和關係。這些對象、屬性和關係一起構造了我們的場景圖,這代表了一般的圖像。在這個章節中,我們分解了圖像 4,也對裏面的 7 個部分分別進行了解釋。在章節 4 中,我們會對此進行更詳盡的描述,來自各個部分的數據,是如何通過衆包平臺收集的。
2.1 多區域和對它們的描述
在真實世界中,一個簡單的總結,往往不足以描述圖片的所有內容和交互。相反,一個自然的擴展方法是,對圖像的不同區域進行分別描述。在 Visual Genome 中,我們收集了人們對圖像不同區域的描述,每一個區域都由邊框進行座標限定。在圖像 5 中,我們展示了按區域描述的 3 個案例。不同的區域之間被允許有高度的重複,而描述會有所不同。例如說,“黃色消防栓”和“穿短褲的姑娘正站在男人的背後”的重疊部分非常少,但“男人跳過消防栓”和其他兩個區域有着很高的重疊。我們的數據對每一張圖片平局有着 42 種區域描述。每一個描述都是一個短語包含着從 1 到 16 個字母長度,以描述這個區域。
2.2 多個物體與它們的邊框
在我們的數據集中,平均每張圖片包含21個物體,每個物體周圍有一個邊框(見圖6)。不僅如此,每個物體在WordNet中都有一個規範化的ID。比如,man和person會被映射到man.n.03|(the generic use of the word to refer to any human being)。相似的,person被映射到person.n.01 (a human being)。隨後,由於存在上位詞man.n.03,這兩個概念就可以加入person.n.01中了。這是一個重要的標準化步驟,以此避免同一個物體有多個名字(比如,man,person,human),也能在不同圖片間實現信息互聯。

在這裏插入圖片描述

圖5:爲了描述圖片中所有的內容物和相互之間的關係,Visual Genome數據集中包括了數條人類標註的區域描述,每個區域周圍都有一個邊框。在這裏,我們展示了3條區域描述:“man jumping over a fire hydrant”,“yellow fire hydrant”,以及“woman in shorts is standing behind the man”。

2.3 一組屬性
Visual Genome中,平均每張圖片有16個屬性。一個物體可以有0個或是更多的屬性。屬性可以是顏色(比如yellow),狀態(比如standing),等等(見圖7)。就像我們從區域描述中提取物體一樣,我們也能提取出這些物體自身的屬性。在圖7中,從短語“yellow fire hydrant”裏,我們提取到了“fire hydrant”有“yellow”屬性。和物體一樣,我們也把屬性在WordNet中規範化;比如,yellow被映射到yellow.s.01 (of the color intermediate between green and orange in the color spectrum; of something resembling the color of an egg yolk)。
2.4 一組關係
“關係”將兩個物體關聯到一起,可以是動作(比如jumping over),空間位置(比如is behind),動詞(比如wear),介詞(比如with),比較詞(比如taller than),或者是介詞短語(比如drive on)。例如,從區域描述“man jumping over fire hydrant”中,我們提取到物體man和物體fire hydrant之間的關係是jumping over(見圖8)。這些關係是從一個物體(也叫主體)指向另一個物體(也叫客體)的。在這個例子裏,主體是man,他正在對客體fire hydrant表現出jumping over的關係。每個關係也在WordNet中有規範化的synset ID:jumping被映射到jump.a.1 (move forward by leaps and bounds)。平均而言,我們數據集中的每張圖片包含18個關係。

在這裏插入圖片描述

圖6:從所有的區域描述中,我們提取了涉及到物體的描述。例如,從“man jumping over a fire hydrant”中,我們提取了“man”和“fire hydrant”。

在這裏插入圖片描述

圖7:一些描述也提供了物體的屬性信息。例如,區域描述“yellow fire hydrant”中意味着fire hydrant的顏色是yellow。在這裏,我們展示了2種屬性:yellow和standing。

在這裏插入圖片描述

圖8:我們的數據集也捕捉了圖片中物體與物體之間的關係和交互。在這個例子裏,我們展示了發生在物體man和物體fire hydrant之間的jumping over關係。

2.5 一組區域圖
我們將從區域描述中提取的物體、屬性、以及關係結合在一起,每42個區域創造一幅有向圖表徵。區域圖的樣子見圖4。每幅區域圖都是對於圖片的一部分所做的結構化表徵。區域圖中的節點代表物體、屬性、以及關係。物體與它們各自的屬性相連,而關係則從一個物體指向另一個物體。圖4中連接兩個物體的箭頭,從主體物體指向關係,再從關係指向其他物體。
在這裏插入圖片描述
2.6 全景圖
區域圖是一張圖片某一區域的表徵,我們也將它們融合在一起成爲一幅能表徵整張圖片的全景圖。全景圖是所有區域圖的拼合,包括每個區域描述中所有的物體、屬性、以及關係。通過這個方式,我們能夠以更連貫的方式結合多個層次的全景信息。例如,在圖4中,最左邊的區域描述告訴我們“fire hydrant is yellow”,而中間的區域描述告訴我們“man is jumping over the fire hydrant”。將它們拼合在一起以後,這兩個描述告訴我們的是“man is jumping over a yellow fire hydrant”。
2.7 一組問答
我們的數據集中,每張圖片都有兩類問答:基於整張圖片的隨意問答(freeform QAs),以及基於選定區域的區域問答(region-based QAs)。我們爲每張圖片收集了6個不同類型的問題:what,where,how,when,who,以及why。在圖4中,“問:女人站在什麼的邊上?;答:她的行李”就是一個隨意問答。每張圖片的問題都包含了這6個類型,每個類型至少有1個問題。區域問答是通過區域描述收集的。例如,我們通過“黃色消防栓”的描述收集到了這個區域問答:“問:消防栓是什麼顏色的?;答:黃色”。區域問答讓我們能夠獨立地研究如何優先運用NLP和視覺來回答問題。

作者:追逐丶
鏈接:https://www.jianshu.com/p/eeaad542ebdd
來源:簡書
簡書著作權歸作者所有,任何形式的轉載都請聯繫作者獲得授權並註明出處。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章