CS 594 Automated image captioning and image-text alignment课程笔记

本文是UIC CS 594中关于image caption环节的PPT笔记,由Natalie Parde教授讲授。

总的来说,PPT内容呈现的是比较泛的内容,信息量或许还不如一篇review来得多,但是适合入门的人。同时,CS 594是2019年春季课程,你会发现一部分内容讲的是基于18年(包括18年)之前的内容。随着2019年谷歌和微软的跨模态预训练模型的提出,ppt中提到的一些问题已经得到了很大的改善,也有许多人尝试提出解决方案。

image caption涉及的两个任务

  1. image understanding
    • object localization:what、where in the image
    • attribute identification
    • scene classification: where in real world
    • entity relation
  2. natrual language generation
    • content selection:image的哪些方面需要被讨论
    • content organization:如何最有效地讨论前面得到的元素
    • surface realization:用什么词来描述这些元素?是否需要处理代词问题?使用什么张量?怎么聚合信息?

怎么处理Addtional layers

对于处理更复杂的caption,模型需要额外的层,同时也会带来额外的复杂度。额外的层所起的作用,比如:

  • 不同的受众希望得到不同风格的caption
  • 对于特定领域的图像,模型还需要对应的上下文或者常识知识

模型分类

总体上,image caption模型分成两类:

  1. direct generation

    首先定义所需的内容(比如key components、attributes等)并基于这些组件来设计对图像的描述。

  2. retrieval-based

    在已有caption的图像库中找到相似的样本,并根据检索的样本的caption,来帮助新的图像生成caption

另外,在bottom-up attention中按训练方式不同,分两种image captioning模型:

  1. self-critical类:保证训练loss和评测使用的指标一致,比如ROUGH等,是不可微分的loss,所以迫使使用强化学习方法训练 【推荐这篇博文总结地挺清晰的】
  2. entropy类:word-by-word生成过程中,一般使用熵作为损失,可微分。

评测image captioning的方式

  1. human evaluation指标

    • Grammaticality
    • Relevance
    • Creativity
    • Humanness
  2. automatic evaluation指标

    • BLEU

    • ROUGE

    • Translation Error Rate

    • METEOR

    • CIDEr

    前面四项是NLP中常见的基础指标。重点关注CIDEr一般是在image captioning中专门使用的指标,原因之一是caption是有多样性的(这也是caption难以被准备测评的原因),所以使用TF-IDF作为加权

  3. 这些指标依然不能保证所有情况下的caption质量,所以需要考虑:

    • 如何衡量、促进caption的多样性和创造性(受限于vocabulary,抑制OOV的同时限制了创造性)
    • 如何测量时间序列中出现的图像的上下文描述?

Resources

  1. datasets
  • COCO: http://cocodataset.org

  • google 2018 Conceptual Captions: https://ai.googleblog.com/2018/09/conceptual-captions-new-dataset-and.html

    做caption的同学知道还有Flickr30k、SBU datasets等早期一些中大型的数据集和Visual Genome等相关image understanding的权威数据集。

  1. lectures(PPT中列的是比较早的内容)
  • Automated Image Captioning with ConvNets and Recurrent Nets, by Andrej Karpathy: https://youtu.be/xKt21ucdBY0
  • How we teach computers to understand pictures, by Fei Fei Li: https://youtu.be/40riCqvRoMs
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章