Self-critical Sequence Training

原創

2020-05-06 12:32

Self-critical Sequence Training for Image Captioning是IBM研究團隊在CVPR 2017上發表的一篇論文，主要介紹了一種基於self-critical思想的強化學習方法來訓練序列生成模型。

論文背景

該論文的背景與上週介紹的Sequence Level Training with Recurrent Neural Networks一文相似，後者爲解決主流的MLE訓練方法中存在的exposure bias問題，提出了基於強化學習的MIXER (Mixed Incremental Cross-Entropy Reinforce)方法。
IBM的這篇論文雖然側重於Image Captioning這一具體問題，但仍然可以認爲是針對MIXER的改進。

REINFORCE with a Baseline

在REINFORCE算法中，訓練的目標函數是最小化reward期望值的負值，即

reward函數通常是不可微的，但的梯度可以表示爲：

然後我們可以利用Monte-Carlo的思想，根據policy採樣出，計算出的近似值：

但這種基於Monte-Carlo採樣的近似方法被認爲具有較高的方差（high variance）。這是因爲，採樣的每一步都具有較大的隨機性，使最終得到的樣本之間差異巨大，導致reward具有高方差，尤其是在文本生成這類搜索空間較大的問題中。
示意圖如下，每條軌跡代表一個採樣序列，它們從同一個位置出發，卻走到相距較遠的終點。

這種高方差梯度估計的缺陷正是許多強化學習模型早期訓練不穩的根源。
該問題的一個解決辦法是加上baseline的約束，從而對reward進行一定程度上的“校正”：

其中的正是我們所說的baseline，理論上，爲保持對梯度的無偏估計，可以是任意不依賴於的函數，這一結論由簡單的數學推導得到：

在實際應用時，一般以reward平均值的估計函數作爲baseline。如在MIXER中，baseline是一個簡單的線性迴歸模型，通過優化均方誤差得到，表示對reward平均值的估計。