Self-critical Sequence Training

原創

2020-05-06 12:32

Self-critical Sequence Training for Image Captioning是IBM研究团队在CVPR 2017上发表的一篇论文，主要介绍了一种基于self-critical思想的强化学习方法来训练序列生成模型。

论文背景

该论文的背景与上周介绍的Sequence Level Training with Recurrent Neural Networks一文相似，后者为解决主流的MLE训练方法中存在的exposure bias问题，提出了基于强化学习的MIXER (Mixed Incremental Cross-Entropy Reinforce)方法。
IBM的这篇论文虽然侧重于Image Captioning这一具体问题，但仍然可以认为是针对MIXER的改进。

REINFORCE with a Baseline

在REINFORCE算法中，训练的目标函数是最小化reward期望值的负值，即

reward函数通常是不可微的，但的梯度可以表示为：

然后我们可以利用Monte-Carlo的思想，根据policy采样出，计算出的近似值：

但这种基于Monte-Carlo采样的近似方法被认为具有较高的方差（high variance）。这是因为，采样的每一步都具有较大的随机性，使最终得到的样本之间差异巨大，导致reward具有高方差，尤其是在文本生成这类搜索空间较大的问题中。
示意图如下，每条轨迹代表一个采样序列，它们从同一个位置出发，却走到相距较远的终点。

这种高方差梯度估计的缺陷正是许多强化学习模型早期训练不稳的根源。
该问题的一个解决办法是加上baseline的约束，从而对reward进行一定程度上的“校正”：

其中的正是我们所说的baseline，理论上，为保持对梯度的无偏估计，可以是任意不依赖于的函数，这一结论由简单的数学推导得到：

在实际应用时，一般以reward平均值的估计函数作为baseline。如在MIXER中，baseline是一个简单的线性回归模型，通过优化均方误差得到，表示对reward平均值的估计。

Self-critical Sequence Training (SCST)

该论文提出的Self-critical Sequence Training (SCST)方法仅仅是对上述的baseline进行了修改。
在RNN模型中，对softmax输入项的梯度可具体推导为：

SCST把定义为“当前模型在测试阶段得到的reward”，即。
这样，梯度公式就是：

其中，测试阶段的序列通过greedy decoding得到，即

SCST的示意图为

这种baseline的定义有几种优势：

不必像MIXER那样另外训练一个模型来获取baseline。
通过利用测试阶段的reward进行“自我批判”（self-critical），SCST更好地鼓励了训练/测试的表现一致性。
实验证明，SCST的梯度方差比MIXER更低，在各测试指标上也都表现更佳。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

神经网络中注意力机制概述

2020-04-14 08:15:38

GAE(Generalized Advantage Estimation) PPO

https://blog.csdn.net/zhkmxx930xperia/article/details/88257891 https://zhuanlan.zhihu.com/p/45107835 https://zhuanlan.z

2020-07-04 00:44:48

TRPO、PPO

https://blog.csdn.net/weixin_41679411/article/details/82421121 https://zhuanlan.zhihu.com/p/48293363 https://zhuanlan

2020-06-27 21:12:57

读论文Trust Region Policy Optimization

這篇論文的作者星光閃耀，都是大牛級人物，而且是最頂尖的那種。第一作者是Schulman（cs294課程的主講人）、Levine和Abbeel也在作者名單裏面。論文首先通過一些surrogate目標函數來保證較大的步長來進行策略優化和提升

2020-06-27 21:12:57

Natural Gradient Descent

https://zhuanlan.zhihu.com/p/142786862

2020-06-27 21:12:57

强化学习---TRPO/DPPO/PPO/PPO2

時間線： OpenAI 發表的 Trust Region Policy Optimization, Google DeepMind 看過 OpenAI 關於 TRPO後, 2017年7月7號，搶在 OpenAI 前面把 Distrib

2020-06-27 21:12:47

深度解读Soft Actor-Critic 算法

1 前言機器人學習Robot Learning正在快速的發展，其中深度強化學習deep reinforcement learning（DRL），特別是面向連續控制continous control的DRL算法起着重要的作用。在這一領域中

2020-06-27 21:12:35

TRPO

https://zhuanlan.zhihu.com/p/26308073

2020-06-27 21:12:35

强化学习笔记之浅谈ACKTR

https://zhuanlan.zhihu.com/p/122997370 2017年NIPS上的文章"Scalable trust-region method for deep reinforcement learning usi

2020-06-27 21:12:35

FreeAnchor: Learning to Match Anchors for Visual Object Detection论文详解

原文鏈接：https://arxiv.org/abs/1909.02466 項目代碼：https://github.com/zhangxiaosong18/FreeAnchor 問題在基於anchor的目標檢測算法中，訓練時，通

勤劳的凌菲

2020-06-24 06:59:02

XGNN: Towards Model-Level Explanations of Graph Neural Networks

2020-06-14 06:03:37

DDPG(Deep Deterministic Policy Gradient)算法详解

2020-06-04 09:03:38

【确定性策略梯度类】 DPG,DDPG,TD3,D4PG

2020-06-04 09:03:38

强化学习AC、A2C、A3C算法原理与实现

2020-04-19 08:20:01

上置信界算法（the-upper-confidence-bound-algorithm，UCB）

2020-02-22 11:56:26

24小時熱門文章

最新文章

最新評論文章