Generating Text with Deep Reinforcement Learning

Generating Text with Deep Reinforcement Learning
在這裏插入圖片描述主要思想就是多次循環生成,先生成簡單的,然後難的。
在這裏插入圖片描述
要用強化學習生成,更新公式可以由Bellman equation得到。這裏文本生成,考慮到long range temporal dependencies和varying lengths,使用了LSTM。
在這裏插入圖片描述
首先,是最基礎的RNN結構,只有一個輸入和隱層,兩個權重,一個bias,最後sigmoid輸出,收工結束。
在這裏插入圖片描述
接下來是變形LSTM。除了隱含變量,增加了輸入門,遺忘門,輸出門和細胞結構。
在這裏插入圖片描述
可以看到各個門的方式是一樣,都是由輸入和上一步隱含狀態決定,細胞的更新由輸入門和遺忘門一起確定,更新後的細胞經過輸出門控制生成下一步的隱含狀態。
在這裏插入圖片描述
在這裏插入圖片描述
主要分爲兩個大步驟,首先是訓練一個一般意義上的解碼器,第二步是訓練Q-value Function。
在這裏插入圖片描述
接下來重點就是第二步。
第二步首先輸出解碼器第一個單詞。
後面的單詞或者隨機選擇或者使用DQN來預測。
每次預測完了都要更新D.
最後根據計算的BLEU reward,如果分數達到閾值,說明句子預測完畢,否則繼續對reward增加。
最後對DQN進行更新。
在這裏插入圖片描述
整體流程結束了,會發現中間有一個D沒有利用。
論文中有提到
在這裏插入圖片描述
有個過擬合的問題,就是在訓練當前序列的時候,訓練的很好,當訓練新的序列的時候,會預測不出來,可以使用D當中隨機選擇的transition tuple來更新DQN,來避免這種情況。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章