Visual Genome 数据集标注内容

2、Visual Genome 的数据表现

Visual Genome 数据集包括 7 个主要部分:区域描述、对象、属性、关系、区域图、场景图和问答对。图 4 展示了一幅画的每一个部分的例子。要对图像进行理解的研究,我们从收集描述和问答对开始。这些是原始的文本,没有任何长度和词汇的限制。下一步,我们从描述中提取对象、属性和关系。这些对象、属性和关系一起构造了我们的场景图,这代表了一般的图像。在这个章节中,我们分解了图像 4,也对里面的 7 个部分分别进行了解释。在章节 4 中,我们会对此进行更详尽的描述,来自各个部分的数据,是如何通过众包平台收集的。
2.1 多区域和对它们的描述
在真实世界中,一个简单的总结,往往不足以描述图片的所有内容和交互。相反,一个自然的扩展方法是,对图像的不同区域进行分别描述。在 Visual Genome 中,我们收集了人们对图像不同区域的描述,每一个区域都由边框进行座标限定。在图像 5 中,我们展示了按区域描述的 3 个案例。不同的区域之间被允许有高度的重复,而描述会有所不同。例如说,“黄色消防栓”和“穿短裤的姑娘正站在男人的背后”的重叠部分非常少,但“男人跳过消防栓”和其他两个区域有着很高的重叠。我们的数据对每一张图片平局有着 42 种区域描述。每一个描述都是一个短语包含着从 1 到 16 个字母长度,以描述这个区域。
2.2 多个物体与它们的边框
在我们的数据集中,平均每张图片包含21个物体,每个物体周围有一个边框(见图6)。不仅如此,每个物体在WordNet中都有一个规范化的ID。比如,man和person会被映射到man.n.03|(the generic use of the word to refer to any human being)。相似的,person被映射到person.n.01 (a human being)。随后,由于存在上位词man.n.03,这两个概念就可以加入person.n.01中了。这是一个重要的标准化步骤,以此避免同一个物体有多个名字(比如,man,person,human),也能在不同图片间实现信息互联。

在这里插入图片描述

图5:为了描述图片中所有的内容物和相互之间的关系,Visual Genome数据集中包括了数条人类标注的区域描述,每个区域周围都有一个边框。在这里,我们展示了3条区域描述:“man jumping over a fire hydrant”,“yellow fire hydrant”,以及“woman in shorts is standing behind the man”。

2.3 一组属性
Visual Genome中,平均每张图片有16个属性。一个物体可以有0个或是更多的属性。属性可以是颜色(比如yellow),状态(比如standing),等等(见图7)。就像我们从区域描述中提取物体一样,我们也能提取出这些物体自身的属性。在图7中,从短语“yellow fire hydrant”里,我们提取到了“fire hydrant”有“yellow”属性。和物体一样,我们也把属性在WordNet中规范化;比如,yellow被映射到yellow.s.01 (of the color intermediate between green and orange in the color spectrum; of something resembling the color of an egg yolk)。
2.4 一组关系
“关系”将两个物体关联到一起,可以是动作(比如jumping over),空间位置(比如is behind),动词(比如wear),介词(比如with),比较词(比如taller than),或者是介词短语(比如drive on)。例如,从区域描述“man jumping over fire hydrant”中,我们提取到物体man和物体fire hydrant之间的关系是jumping over(见图8)。这些关系是从一个物体(也叫主体)指向另一个物体(也叫客体)的。在这个例子里,主体是man,他正在对客体fire hydrant表现出jumping over的关系。每个关系也在WordNet中有规范化的synset ID:jumping被映射到jump.a.1 (move forward by leaps and bounds)。平均而言,我们数据集中的每张图片包含18个关系。

在这里插入图片描述

图6:从所有的区域描述中,我们提取了涉及到物体的描述。例如,从“man jumping over a fire hydrant”中,我们提取了“man”和“fire hydrant”。

在这里插入图片描述

图7:一些描述也提供了物体的属性信息。例如,区域描述“yellow fire hydrant”中意味着fire hydrant的颜色是yellow。在这里,我们展示了2种属性:yellow和standing。

在这里插入图片描述

图8:我们的数据集也捕捉了图片中物体与物体之间的关系和交互。在这个例子里,我们展示了发生在物体man和物体fire hydrant之间的jumping over关系。

2.5 一组区域图
我们将从区域描述中提取的物体、属性、以及关系结合在一起,每42个区域创造一幅有向图表征。区域图的样子见图4。每幅区域图都是对于图片的一部分所做的结构化表征。区域图中的节点代表物体、属性、以及关系。物体与它们各自的属性相连,而关系则从一个物体指向另一个物体。图4中连接两个物体的箭头,从主体物体指向关系,再从关系指向其他物体。
在这里插入图片描述
2.6 全景图
区域图是一张图片某一区域的表征,我们也将它们融合在一起成为一幅能表征整张图片的全景图。全景图是所有区域图的拼合,包括每个区域描述中所有的物体、属性、以及关系。通过这个方式,我们能够以更连贯的方式结合多个层次的全景信息。例如,在图4中,最左边的区域描述告诉我们“fire hydrant is yellow”,而中间的区域描述告诉我们“man is jumping over the fire hydrant”。将它们拼合在一起以后,这两个描述告诉我们的是“man is jumping over a yellow fire hydrant”。
2.7 一组问答
我们的数据集中,每张图片都有两类问答:基于整张图片的随意问答(freeform QAs),以及基于选定区域的区域问答(region-based QAs)。我们为每张图片收集了6个不同类型的问题:what,where,how,when,who,以及why。在图4中,“问:女人站在什么的边上?;答:她的行李”就是一个随意问答。每张图片的问题都包含了这6个类型,每个类型至少有1个问题。区域问答是通过区域描述收集的。例如,我们通过“黄色消防栓”的描述收集到了这个区域问答:“问:消防栓是什么颜色的?;答:黄色”。区域问答让我们能够独立地研究如何优先运用NLP和视觉来回答问题。

作者:追逐丶
链接:https://www.jianshu.com/p/eeaad542ebdd
来源:简书
简书著作权归作者所有,任何形式的转载都请联系作者获得授权并注明出处。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章