CS 594 Automated image captioning and image-text alignment课程笔记

原創

2020-06-23 22:25

本文是UIC CS 594中关于image caption环节的PPT笔记，由Natalie Parde教授讲授。

总的来说，PPT内容呈现的是比较泛的内容，信息量或许还不如一篇review来得多，但是适合入门的人。同时，CS 594是2019年春季课程，你会发现一部分内容讲的是基于18年（包括18年）之前的内容。随着2019年谷歌和微软的跨模态预训练模型的提出，ppt中提到的一些问题已经得到了很大的改善，也有许多人尝试提出解决方案。

image caption涉及的两个任务

image understanding
- object localization：what、where in the image
- attribute identification
- scene classification： where in real world
- entity relation
natrual language generation
- content selection：image的哪些方面需要被讨论
- content organization：如何最有效地讨论前面得到的元素
- surface realization：用什么词来描述这些元素？是否需要处理代词问题？使用什么张量？怎么聚合信息？

怎么处理Addtional layers

对于处理更复杂的caption，模型需要额外的层，同时也会带来额外的复杂度。额外的层所起的作用，比如：

不同的受众希望得到不同风格的caption
对于特定领域的图像，模型还需要对应的上下文或者常识知识

模型分类

总体上，image caption模型分成两类：

direct generation

首先定义所需的内容（比如key components、attributes等）并基于这些组件来设计对图像的描述。
retrieval-based

在已有caption的图像库中找到相似的样本，并根据检索的样本的caption，来帮助新的图像生成caption

另外，在bottom-up attention中按训练方式不同，分两种image captioning模型：

self-critical类：保证训练loss和评测使用的指标一致，比如ROUGH等，是不可微分的loss，所以迫使使用强化学习方法训练【推荐这篇博文总结地挺清晰的】

entropy类：word-by-word生成过程中，一般使用熵作为损失，可微分。

评测image captioning的方式

human evaluation指标
- Grammaticality
- Relevance
- Creativity
- Humanness
automatic evaluation指标
- BLEU
- ROUGE
- Translation Error Rate
- METEOR
- CIDEr
前面四项是NLP中常见的基础指标。重点关注CIDEr一般是在image captioning中专门使用的指标，原因之一是caption是有多样性的（这也是caption难以被准备测评的原因），所以使用TF-IDF作为加权
这些指标依然不能保证所有情况下的caption质量，所以需要考虑：
- 如何衡量、促进caption的多样性和创造性（受限于vocabulary，抑制OOV的同时限制了创造性）
- 如何测量时间序列中出现的图像的上下文描述？

Resources

datasets

COCO: http://cocodataset.org
google 2018 Conceptual Captions: https://ai.googleblog.com/2018/09/conceptual-captions-new-dataset-and.html

做caption的同学知道还有Flickr30k、SBU datasets等早期一些中大型的数据集和Visual Genome等相关image understanding的权威数据集。

lectures（PPT中列的是比较早的内容）

Automated Image Captioning with ConvNets and Recurrent Nets, by Andrej Karpathy: https://youtu.be/xKt21ucdBY0
How we teach computers to understand pictures, by Fei Fei Li: https://youtu.be/40riCqvRoMs

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

CS 594 Automated image captioning and image-text alignment课程笔记

image caption涉及的两个任务

怎么处理Addtional layers

模型分类

评测image captioning的方式

Resources

CS 594 Automated image captioning and image-text alignment課程筆記

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結