Generating Text with Deep Reinforcement Learning

原創

2020-06-17 06:37

Generating Text with Deep Reinforcement Learning
主要思想就是多次循環生成，先生成簡單的，然後難的。

要用強化學習生成，更新公式可以由Bellman equation得到。這裏文本生成，考慮到long range temporal dependencies和varying lengths，使用了LSTM。

首先，是最基礎的RNN結構，只有一個輸入和隱層，兩個權重，一個bias，最後sigmoid輸出，收工結束。

接下來是變形LSTM。除了隱含變量，增加了輸入門，遺忘門，輸出門和細胞結構。

可以看到各個門的方式是一樣，都是由輸入和上一步隱含狀態決定，細胞的更新由輸入門和遺忘門一起確定，更新後的細胞經過輸出門控制生成下一步的隱含狀態。

主要分爲兩個大步驟，首先是訓練一個一般意義上的解碼器，第二步是訓練Q-value Function。

接下來重點就是第二步。
第二步首先輸出解碼器第一個單詞。
後面的單詞或者隨機選擇或者使用DQN來預測。
每次預測完了都要更新D.
最後根據計算的BLEU reward，如果分數達到閾值，說明句子預測完畢，否則繼續對reward增加。
最後對DQN進行更新。

整體流程結束了，會發現中間有一個D沒有利用。
論文中有提到

有個過擬合的問題，就是在訓練當前序列的時候，訓練的很好，當訓練新的序列的時候，會預測不出來，可以使用D當中隨機選擇的transition tuple來更新DQN，來避免這種情況。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

AAAI 2020 收錄的百度騰訊優圖螞蟻金服的論文

會議官網：https://aaai.org/Conferences/AAAI-20/ 關注公衆號code4fun，回覆 “百度28” ，打包下載會議收錄的百度研究院的論文。注：暫缺3篇，已標註，後續更新。百度28篇論文清單，來自

2020-07-08 08:24:13

基於深度學習的惡意 URL 識別

基於深度學習的惡意 URL 識別原文作者：陳康, 付華崢, 向勇原文期刊：計算機系統應用,2018,27(6):27–33 原文鏈接：http://www.c-s-a.org.cn/1003-3254/6370.html

2020-07-07 20:13:37

基於PU-Learning的惡意URL檢測

基於PU-Learning的惡意URL檢測原文作者：Ya-Lin Zhang, Longfei Li, Jun Zhou, Xiaolong Li, Yujiang Liu, Yuanchao Zhang, Zhi-Hua Zh

2020-07-07 20:13:37

基於機器學習的惡意URL識別--選自《通信技術》

基於機器學習的惡意URL識別原文作者：李澤宇，施勇，薛質原文期刊：信息安全與通信保密雜誌社選自《通信技術》2020年第二期 2020-03-10 原文鏈接：https://www.secrss.com/articles/

2020-07-07 20:13:37

A Deep Learning Approach to Fast, Format-Agnostic Detection of Malicious Web Content

一種快速、不區分格式的檢測惡意Web內容的深度學習方法作者：fish@DAS 原文作者：Joshua Saxe(主頁[1]), Richard Harang, Cody Wild, Hillary Sanders 原文標題：A

2020-07-07 20:13:37

ApproxANN——神經元關鍵性分析

ApproxANN: An Approximate Computing Framework for Artificial Neural Network 主要是解讀自己閱讀的這篇論文裏的3.1節部分——神經元關鍵性分析定義關鍵性

2020-07-07 13:28:57

論文閱讀：Meta-Learning in Neural Networks: A Survey

題目：Meta-Learning in Neural Networks: A Survey 論文地址：https://arxiv.org/abs/2004.05439 作者：Timothy Hospedales, Antreas Ant

2020-07-07 02:03:34

論文閱讀：A Baseline for Few-Shot Image Classification

題目：A Baseline for Few-Shot Image Classification 論文地址：https://arxiv.org/abs/1909.02729v2 作者：Guneet S. Dhillon, Pratik C

2020-07-07 02:03:34

跨領域遷移的連貫性模型（ACL 2019）

本文爲ACL 2019的論文A Cross-Domain Transferable Neural Coherence Model的讀後感。 1. 論文主旨本文主要是面向跨領域的連貫性建模的相關研究。採用的是一個局部判別模型，可以

2020-07-06 04:27:44

【論文閱讀】【綜述】從Optical Flow到Scene Flow

文章目錄Optical FlowFlowNet（2015ICCV）FlowNet2.0（2017CVPR）PWCNet（2018CVPR）MaskFlowNet（2020CVPR）Sene FlowPoint-basedPoint

2020-07-06 04:03:20

對Visualizing and Understanding Convolutional Networks的一些理解

本文通過引入CNN網絡的可視化技術分析AlexNet網絡結構，主要告訴我們CNN的每一層到底學習到了什麼特徵，讓我們在調參、改進網絡結構的時候提供一定的參考。 CNN網絡性能的顯著提高，得益於三個因素：（1）大量的帶標註的訓練數據

2020-07-05 22:19:52

01.Optimal,Sampling-Based Manipulaiton

本論文爲2017 ICRA的5篇最佳操作機械手論文之一。在實際應用中，機械臂的路徑規劃存在如下問題，目前還沒有哪個規劃方案能同時解決上述三個問題： 1、抓取、放置和其他動作的連續性； 2、運動規劃的完備

2020-07-05 21:02:30

求最大李雅普諾夫指數（Largest Lyapunov Exponents，LLE）的 Rosenstein 算法

文章目錄原始論文python 相關代碼混沌系統的常見指標最大李亞普諾夫指數的含義算法流程圖python 代碼模塊最近鄰maximum Lyapunov exponentRANSAC 擬合曲線例子：計算洛倫茲系統的最大李雅普諾夫指數

2020-07-05 17:46:29

IOTFUZZER: Discovering Memory Corruptions in IoT Through App-based Fuzzing

IOTFUZZER: Discovering Memory Corruptions in IoT Through App-based Fuzzing 隨着越來越多的物聯網設備進入消費市場，迫切需要在攻擊者之前檢測其安全漏洞。現有的

2020-07-05 14:36:27

匈牙利算法計算GED

time:2020.5.20 文章標題《approximate graph edit distance computation by means of bipartite graphs matching》 GED計算通常構建一個搜

2020-07-05 12:25:18

24小時熱門文章

最新文章

最新評論文章