Visual Genome 数据集标注内容

2、Visual Genome 的数据表现

Visual Genome 数据集包括 7 个主要部分：区域描述、对象、属性、关系、区域图、场景图和问答对。图 4 展示了一幅画的每一个部分的例子。要对图像进行理解的研究，我们从收集描述和问答对开始。这些是原始的文本，没有任何长度和词汇的限制。下一步，我们从描述中提取对象、属性和关系。这些对象、属性和关系一起构造了我们的场景图，这代表了一般的图像。在这个章节中，我们分解了图像 4，也对里面的 7 个部分分别进行了解释。在章节 4 中，我们会对此进行更详尽的描述，来自各个部分的数据，是如何通过众包平台收集的。
2.1 多区域和对它们的描述
在真实世界中，一个简单的总结，往往不足以描述图片的所有内容和交互。相反，一个自然的扩展方法是，对图像的不同区域进行分别描述。在 Visual Genome 中，我们收集了人们对图像不同区域的描述，每一个区域都由边框进行座标限定。在图像 5 中，我们展示了按区域描述的 3 个案例。不同的区域之间被允许有高度的重复，而描述会有所不同。例如说，“黄色消防栓”和“穿短裤的姑娘正站在男人的背后”的重叠部分非常少，但“男人跳过消防栓”和其他两个区域有着很高的重叠。我们的数据对每一张图片平局有着 42 种区域描述。每一个描述都是一个短语包含着从 1 到 16 个字母长度，以描述这个区域。
2.2 多个物体与它们的边框
在我们的数据集中，平均每张图片包含21个物体，每个物体周围有一个边框（见图6）。不仅如此，每个物体在WordNet中都有一个规范化的ID。比如，man和person会被映射到man.n.03|(the generic use of the word to refer to any human being)。相似的，person被映射到person.n.01 (a human being)。随后，由于存在上位词man.n.03，这两个概念就可以加入person.n.01中了。这是一个重要的标准化步骤，以此避免同一个物体有多个名字（比如，man，person，human），也能在不同图片间实现信息互联。

图5：为了描述图片中所有的内容物和相互之间的关系，Visual Genome数据集中包括了数条人类标注的区域描述，每个区域周围都有一个边框。在这里，我们展示了3条区域描述：“man jumping over a fire hydrant”，“yellow fire hydrant”，以及“woman in shorts is standing behind the man”。

2.3 一组属性
Visual Genome中，平均每张图片有16个属性。一个物体可以有0个或是更多的属性。属性可以是颜色（比如yellow），状态（比如standing），等等（见图7）。就像我们从区域描述中提取物体一样，我们也能提取出这些物体自身的属性。在图7中，从短语“yellow fire hydrant”里，我们提取到了“fire hydrant”有“yellow”属性。和物体一样，我们也把属性在WordNet中规范化；比如，yellow被映射到yellow.s.01 (of the color intermediate between green and orange in the color spectrum; of something resembling the color of an egg yolk)。
2.4 一组关系
“关系”将两个物体关联到一起，可以是动作（比如jumping over），空间位置（比如is behind），动词（比如wear），介词（比如with），比较词（比如taller than），或者是介词短语（比如drive on）。例如，从区域描述“man jumping over fire hydrant”中，我们提取到物体man和物体fire hydrant之间的关系是jumping over（见图8）。这些关系是从一个物体（也叫主体）指向另一个物体（也叫客体）的。在这个例子里，主体是man，他正在对客体fire hydrant表现出jumping over的关系。每个关系也在WordNet中有规范化的synset ID：jumping被映射到jump.a.1 (move forward by leaps and bounds)。平均而言，我们数据集中的每张图片包含18个关系。

图6：从所有的区域描述中，我们提取了涉及到物体的描述。例如，从“man jumping over a fire hydrant”中，我们提取了“man”和“fire hydrant”。

图7：一些描述也提供了物体的属性信息。例如，区域描述“yellow fire hydrant”中意味着fire hydrant的颜色是yellow。在这里，我们展示了2种属性：yellow和standing。

图8：我们的数据集也捕捉了图片中物体与物体之间的关系和交互。在这个例子里，我们展示了发生在物体man和物体fire hydrant之间的jumping over关系。

2.5 一组区域图
我们将从区域描述中提取的物体、属性、以及关系结合在一起，每42个区域创造一幅有向图表征。区域图的样子见图4。每幅区域图都是对于图片的一部分所做的结构化表征。区域图中的节点代表物体、属性、以及关系。物体与它们各自的属性相连，而关系则从一个物体指向另一个物体。图4中连接两个物体的箭头，从主体物体指向关系，再从关系指向其他物体。

2.6 全景图
区域图是一张图片某一区域的表征，我们也将它们融合在一起成为一幅能表征整张图片的全景图。全景图是所有区域图的拼合，包括每个区域描述中所有的物体、属性、以及关系。通过这个方式，我们能够以更连贯的方式结合多个层次的全景信息。例如，在图4中，最左边的区域描述告诉我们“fire hydrant is yellow”，而中间的区域描述告诉我们“man is jumping over the fire hydrant”。将它们拼合在一起以后，这两个描述告诉我们的是“man is jumping over a yellow fire hydrant”。
2.7 一组问答
我们的数据集中，每张图片都有两类问答：基于整张图片的随意问答（freeform QAs），以及基于选定区域的区域问答（region-based QAs）。我们为每张图片收集了6个不同类型的问题：what，where，how，when，who，以及why。在图4中，“问：女人站在什么的边上？；答：她的行李”就是一个随意问答。每张图片的问题都包含了这6个类型，每个类型至少有1个问题。区域问答是通过区域描述收集的。例如，我们通过“黄色消防栓”的描述收集到了这个区域问答：“问：消防栓是什么颜色的？；答：黄色”。区域问答让我们能够独立地研究如何优先运用NLP和视觉来回答问题。

作者：追逐丶
链接：https://www.jianshu.com/p/eeaad542ebdd
来源：简书
简书著作权归作者所有，任何形式的转载都请联系作者获得授权并注明出处。

Visual Genome 数据集标注内容

光學圖像、SAR圖像等區別

OpenCV主模塊的作用

vs2015配置opencv3.2

Ubuntu安裝opencv參考資料

MATLAB中去除重複的行

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結