深度強化學習在NLP怎麼用?看清華黃民烈老師這一份120頁《自然語言處理和搜索中的深度強化學習應用》講義

【導讀】深度強化學習(Deep Reinforcement Learning - DRL)是機器學習領域發展迅速的一類算法,廣泛應用在決策類任務中,如AlphaGo、Dota等。近幾年DRL在計算機視覺和自然語言處理上得到廣泛的探索應用。清華大學黃民烈老師在第七屆全國社會媒體處理大會上做了《深度強化學習及其在自然語言處理中的應用》的講習報告,詳細介紹了強化學習自然語言處理的常見應用場景,非常前沿細緻,值得做這一方向工作的同學好好研讀。

黃民烈,清華大學計算機系副教授,博士生導師,計算機系人工智能研究所副所長。研究興趣主要集中在人工智能、深度學習、強化學習,自然語言處理如自動問答、人機對話系統、情感與情緒智能等。已超過60篇CCF A/B類論文發表在ACL、IJCAI、AAAI、EMNLP、KDD、ICDM、ACM TOIS、Bioinformatics、JAMIA等國際頂級和主流會議及期刊上。曾擔任多個國際頂級會議的領域主席或高級程序委員,如AAAI 2019、IJCAI 2018、IJCAI 2017、ACL 2016、EMNLP 2014/2011,IJCNLP 2017等,擔任ACM TOIS、TKDE、TPAMI、CL等頂級期刊的審稿人。作爲負責人或學術骨幹,負責或參與多項國家973、863子課題、多項國家自然科學基金,並與國內外知名企業如谷歌、微軟、三星、惠普、美孚石油、斯倫貝謝、阿里巴巴、騰訊、百度、搜狗、美團等建立了廣泛的合作。獲得專利授權近10項,其中2項專利技術授權給企業應用。

個人主頁:

http://coai.cs.tsinghua.edu.cn/hml/

《自然語言處理和搜索中的深度強化學習應用》簡介

深度強化學習在以Alpha GO/Zero爲代表的許多應用中取得了前所未有的成功,其廣泛地應用在遊戲控制、機器人、自動駕駛、語言交互等場景中。強化學習的序列決策、嘗試試錯、延遲獎勵等特點,使得其處理非直接信號的弱監督學習問題具有較強的優勢。本講座將首先介紹強化學習的基本理論,並介紹Q-Learning、策略梯度、Actor-Critic三大主要的方法;其次,將介紹強化學習在自然語言處理中的常見應用場景,包括其信息抽取、關係預測、樣本去噪、標記糾正、結構探索、搜索策略優化等。這些工作具有的共性是:在無直接監督信息、弱信號場景中,利用強化學習的試錯和概率探索能力,通過編碼先驗或領域知識,達到學習目標。

請上黃老師主頁獲取講義PPT或者

請關注專知公衆號(掃一掃最下面專知二維碼,或者點擊上方藍色專知),

  • 後臺回覆“RL4NLP” 就可以獲取《自然語言處理和搜索中的深度強化學習應用》PPT下載鏈接~

《自然語言處理和搜索中的深度強化學習應用》導讀

強化學習的基本概念

狀態,是agent從環境中得到的動作;agent,是基於它得到的當前狀態後做出相應的動作。reward ,是環境給agent 的一個反饋,收到這個reward就知道做的這個動作是好還是不好。agent 的目標就是選動作,將全部reward最大化。

agent會和環境做很多的交互,環境每次做的動作可能會有一個長期的影響,而不僅僅是影響當前的reward。reward 也有可能延遲。在這裏簡單介紹一下policy的概念。policy是決定一個agent的動作的一個函數。

強化學習是進行序列決策,當前決策會影響未來決策。通過嘗試試錯的方式來完成,最大化未來收益爲目標。

在自然語言處理中應用強化學習的挑戰:離散符號、稀疏收益、高維度動作空間、在訓練的高方差。爲此,強化學習的優勢包括無需顯性標註的弱監督,嘗試試錯機制、累積獎賞。

爲什麼RL能應用到NLP上?學習搜索和推理,直接優化最終的評價指標,使得離散才做 BP可行。

應用任務:搜索和推理,實例選取,策略優化

在搜索和推理方面包括以上代表性論文。NAACL’16的最佳論文[NAACL’16_compose]用RL來構建QA系統,他們定義了求解QA任務的各種操作模塊,學出不同模塊的組裝方式;[ICLR’17_architecture]用REINFORCE算法學習自動設計神經網絡架構,將所構造的NN模型在任務上的精度作爲reward;[arXiv’17_walk]將RL用於搜索推理路徑。[AAAI’18_structured]利用強化學習來識別文本中有用的結構,將action定爲對每個詞的刪除或保留決策。其模型結構爲:對給定文本輸入,利用Policy Network判斷其每個詞的去留,將action序列作爲表示模型的輸入生成對句子的表示向量,再將該向量作爲分類網絡的輸入產生文本分類結果,分類器在文本分類任務上的評價效果即可作爲reward反饋給Policy Network。

在實例選取上有以上代表性論文。[EMNLP’17_active]學習對未標記數據做篩選,選出對特定任務模型訓練有用的句子,採用deep Q-learning用於RL優化; [NAACL’18_co-training]在cotraining中用RL來判斷由一個分類器產生的標記數據是否適用於作爲另一分類器的訓練數據; [2017_what]考慮到隨機梯度下降過程中data batch的順序非常重要,於是用強化學習REINFORCE算法訓練模型來選擇data batch;[AAAI’18_noisy]用RL來識別noisy的標記數據,對訓練數據做降噪處理,將在清理過的數據上訓練出的分類器的效果作爲reward;[IJCAI’18_goal-oriented]在對話序列的topic標記場景中同樣存在的noisy標記問題,該工作從noisy labeled data中學出policy用於糾正錯誤標註的label,並藉助更新後的數據優化policy。

在策略優化方面,[arXiv’15_turing]用RL訓練能夠解決簡單算法任務的神經網絡;[EMNLP’17_simplification]將RL用於語言生成任務;[EMNLP’16_dialogue]考慮對話系統中的文本生成問題,一系列對話交互構成的序列可以用MDP建模,用RL來完成語言生成任務,其中action爲生成的對話句子文本,由於可以生成任意長度的句子,動作空間可以看作是無限大的;[EMNLP’17_compose]利用層次化的RL來建模多個子任務間的切換方式;

總結-RL在NLP成功應用的關鍵點:形式化任務爲一個自然決策的問題,記得嘗試試錯機制,在獎賞機制中融入領域知識,應用在很多弱監督中。

一些重要經驗:warm-start非常重要,由於存在大量局部最優以及reward的稀疏性,在使用RL時有必要做pre-training;在完全可監督的場景,以及action space非常巨大的任務中,RL能帶來的提升有限,因此選擇合適的任務以及合理建模很重要;此外,模型訓練過程中要會使用一些training tricks。

未來研究方向:層次化的深度強化學習、逆強化學習,以及採樣有效性,是RL未來的發展方向。

參考鏈接:

http://ws.nju.edu.cn/blog/2018/08/

-END-

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章