Visual Genome 數據集標註內容

2、Visual Genome 的數據表現

Visual Genome 數據集包括 7 個主要部分：區域描述、對象、屬性、關係、區域圖、場景圖和問答對。圖 4 展示了一幅畫的每一個部分的例子。要對圖像進行理解的研究，我們從收集描述和問答對開始。這些是原始的文本，沒有任何長度和詞彙的限制。下一步，我們從描述中提取對象、屬性和關係。這些對象、屬性和關係一起構造了我們的場景圖，這代表了一般的圖像。在這個章節中，我們分解了圖像 4，也對裏面的 7 個部分分別進行了解釋。在章節 4 中，我們會對此進行更詳盡的描述，來自各個部分的數據，是如何通過衆包平臺收集的。
2.1 多區域和對它們的描述
在真實世界中，一個簡單的總結，往往不足以描述圖片的所有內容和交互。相反，一個自然的擴展方法是，對圖像的不同區域進行分別描述。在 Visual Genome 中，我們收集了人們對圖像不同區域的描述，每一個區域都由邊框進行座標限定。在圖像 5 中，我們展示了按區域描述的 3 個案例。不同的區域之間被允許有高度的重複，而描述會有所不同。例如說，“黃色消防栓”和“穿短褲的姑娘正站在男人的背後”的重疊部分非常少，但“男人跳過消防栓”和其他兩個區域有着很高的重疊。我們的數據對每一張圖片平局有着 42 種區域描述。每一個描述都是一個短語包含着從 1 到 16 個字母長度，以描述這個區域。
2.2 多個物體與它們的邊框
在我們的數據集中，平均每張圖片包含21個物體，每個物體周圍有一個邊框（見圖6）。不僅如此，每個物體在WordNet中都有一個規範化的ID。比如，man和person會被映射到man.n.03|(the generic use of the word to refer to any human being)。相似的，person被映射到person.n.01 (a human being)。隨後，由於存在上位詞man.n.03，這兩個概念就可以加入person.n.01中了。這是一個重要的標準化步驟，以此避免同一個物體有多個名字（比如，man，person，human），也能在不同圖片間實現信息互聯。

圖5：爲了描述圖片中所有的內容物和相互之間的關係，Visual Genome數據集中包括了數條人類標註的區域描述，每個區域周圍都有一個邊框。在這裏，我們展示了3條區域描述：“man jumping over a fire hydrant”，“yellow fire hydrant”，以及“woman in shorts is standing behind the man”。

2.3 一組屬性
Visual Genome中，平均每張圖片有16個屬性。一個物體可以有0個或是更多的屬性。屬性可以是顏色（比如yellow），狀態（比如standing），等等（見圖7）。就像我們從區域描述中提取物體一樣，我們也能提取出這些物體自身的屬性。在圖7中，從短語“yellow fire hydrant”裏，我們提取到了“fire hydrant”有“yellow”屬性。和物體一樣，我們也把屬性在WordNet中規範化；比如，yellow被映射到yellow.s.01 (of the color intermediate between green and orange in the color spectrum; of something resembling the color of an egg yolk)。
2.4 一組關係
“關係”將兩個物體關聯到一起，可以是動作（比如jumping over），空間位置（比如is behind），動詞（比如wear），介詞（比如with），比較詞（比如taller than），或者是介詞短語（比如drive on）。例如，從區域描述“man jumping over fire hydrant”中，我們提取到物體man和物體fire hydrant之間的關係是jumping over（見圖8）。這些關係是從一個物體（也叫主體）指向另一個物體（也叫客體）的。在這個例子裏，主體是man，他正在對客體fire hydrant表現出jumping over的關係。每個關係也在WordNet中有規範化的synset ID：jumping被映射到jump.a.1 (move forward by leaps and bounds)。平均而言，我們數據集中的每張圖片包含18個關係。

圖6：從所有的區域描述中，我們提取了涉及到物體的描述。例如，從“man jumping over a fire hydrant”中，我們提取了“man”和“fire hydrant”。

圖7：一些描述也提供了物體的屬性信息。例如，區域描述“yellow fire hydrant”中意味着fire hydrant的顏色是yellow。在這裏，我們展示了2種屬性：yellow和standing。

圖8：我們的數據集也捕捉了圖片中物體與物體之間的關係和交互。在這個例子裏，我們展示了發生在物體man和物體fire hydrant之間的jumping over關係。

2.5 一組區域圖
我們將從區域描述中提取的物體、屬性、以及關係結合在一起，每42個區域創造一幅有向圖表徵。區域圖的樣子見圖4。每幅區域圖都是對於圖片的一部分所做的結構化表徵。區域圖中的節點代表物體、屬性、以及關係。物體與它們各自的屬性相連，而關係則從一個物體指向另一個物體。圖4中連接兩個物體的箭頭，從主體物體指向關係，再從關係指向其他物體。

2.6 全景圖
區域圖是一張圖片某一區域的表徵，我們也將它們融合在一起成爲一幅能表徵整張圖片的全景圖。全景圖是所有區域圖的拼合，包括每個區域描述中所有的物體、屬性、以及關係。通過這個方式，我們能夠以更連貫的方式結合多個層次的全景信息。例如，在圖4中，最左邊的區域描述告訴我們“fire hydrant is yellow”，而中間的區域描述告訴我們“man is jumping over the fire hydrant”。將它們拼合在一起以後，這兩個描述告訴我們的是“man is jumping over a yellow fire hydrant”。
2.7 一組問答
我們的數據集中，每張圖片都有兩類問答：基於整張圖片的隨意問答（freeform QAs），以及基於選定區域的區域問答（region-based QAs）。我們爲每張圖片收集了6個不同類型的問題：what，where，how，when，who，以及why。在圖4中，“問：女人站在什麼的邊上？；答：她的行李”就是一個隨意問答。每張圖片的問題都包含了這6個類型，每個類型至少有1個問題。區域問答是通過區域描述收集的。例如，我們通過“黃色消防栓”的描述收集到了這個區域問答：“問：消防栓是什麼顏色的？；答：黃色”。區域問答讓我們能夠獨立地研究如何優先運用NLP和視覺來回答問題。

作者：追逐丶
鏈接：https://www.jianshu.com/p/eeaad542ebdd
來源：簡書
簡書著作權歸作者所有，任何形式的轉載都請聯繫作者獲得授權並註明出處。

Visual Genome 數據集標註內容

光學圖像、SAR圖像等區別

OpenCV主模塊的作用

vs2015配置opencv3.2

Ubuntu安裝opencv參考資料

MATLAB中去除重複的行

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結