論文名稱:Conversational Graph Grounded Policy Learning for Open-Domain Conversation Generation
論文作者:徐俊,王海峯,牛正雨,吳華,車萬翔,劉挺
原創作者:哈工大 SCIR 博士生 徐俊
出處:哈工大SCIR
1 簡介
論文中提出用圖的形式捕捉對話轉移規律作爲先驗信息,用於輔助開放域多輪對話策略學習。爲此,研究人員首先從對話語料庫中構建了一個對話圖譜(Conversational Graph),其中節點表示“What to say”和“How to say”,邊表示當前句(對話上文中的最後一個語句)與其回覆句之間的自然轉換。然後,論文中提出了一個基於對話圖的策略學習框架,該框架通過圖遍歷進行對話流規劃,學習在每輪從對話圖中識別出一個“What”節點和“How”節點來指導回覆生成。
這樣可以有效地利用對話圖譜來促進策略學習,具體如下:
• 可以實現更有效的長期獎勵設計;
• 提供高質量的候選操作;
• 讓我們對策略有更多的控制。在兩個基準語料庫的實驗結果表明了幫了我了所提框架的有效性;
2 方法
論文中提出了基於對話圖譜(CG)的開放域多輪對話策略模型。其中,對話圖譜用來捕捉對話中的局部合適度以及全局連貫度信息。直觀上,策略模型以圖中的What節點 (關鍵詞)作爲可解釋的離散狀態,進而模型得以主動規劃對話內容,進而提升多輪連貫度和可控性。
圖1是本文方法的框架圖,實線橢圓代表“What”節點,實線圓形代表“How”節點。對於當前句(圖中Message),策略模型首先將其定位到圖中的“What”節點(圖中綠色關鍵詞),進而主動規劃要聊的內容(圖中橙紅色的兩個節點),再經由生成模型產出回覆句(圖中Response)。
圖1 基於對話圖譜的開放域多輪對話策略模型
對話圖譜的構建主要包含點(What-節點和How-節點)的構建,以及邊的建設兩部分。首先,研究人員從對話語料中抽取關鍵詞作爲What-節點,關鍵詞使用開源的基於詞性等特徵的工具抽取,分別挖掘語料上下句中的關鍵詞,組成關鍵詞對,再基於共現頻率在What-節點之間建邊。
同What-節點直接表達“說什麼”不同,How-節點代表“怎麼說”,這類節點無法直接從語料中抽取。研究人員基於MMPMS[1]模型學習到的表達方式(隱變量)爲How節點集合,再統計What-節點經常使用哪些How-節點解碼(表達出來),基於共現頻率建邊。
抽取工具地址:
http://github.com/squareRoot3/Target-Guided-Conversation
策略模型首先基於映射來做對話理解,根據對話當前句中出現的關鍵詞映射到對話圖中的What-節點,召回全部What-節點的所有一階What-節點鄰居提供給Policy;之後,Policy選擇其中一個What-節點確定回覆內容,再選擇該What-節點的一個How-節點,確定回覆方式;NLG負責生成具體回覆句。論文中將基於對話圖譜的策略模型稱之爲CG-Policy。
爲了訓練CG-Policy,我們設計了多種來源的獎勵信號:
基於句子的獎勵
句間相關度:我們使用對話下的多輪檢索模型[2]爲每輪生成的回覆句進行相關度打分;
句間重複懲罰:我們鼓勵多樣的內容規劃生成,當有超過60%的生成的回覆句中的詞語在上文中任意一句中同時出現,則判定爲重複;
基於圖結構的獎勵
全局連貫度:TransE空間下選中/提及What節點間的平均cosine距離;
可持續性:我們鼓勵主動聊內容豐富的節點,這樣未來可聊的內容會相對更對,具體而言我們使用PageRank打分;
此外,CG-Policy可控性也很好(如要求聊到特定的對話目標節點上),但需要設計相應的獎勵函數。具體而言,我們增加了下面的獎勵函數:
可控性獎勵
目標相似度:選定What節點和目標節點在語義空間的cosine距離,該距離表徵當前到目標還是多遠;
到目標節點的圖上最短距離;
3 實驗設置
我們在常用的公開數據集Weibo[3]和Persona[4]上開展實驗。對於基線模型,我們選用下述三個代表性模型。
• LaRL[5]:SOTA 基於隱變量的強化學習對話模型
• ChatMore[6]:關鍵詞增強的生成式對話模型
• TGRM[7]:關鍵詞增強的檢索式對話模型
我們在訓練LaRL、CG-Policy(本文所提模型)使用MMPMS模型[1]作爲用戶模擬器,用戶模擬器在策略學習過程中參數不變。此外,在機機對話時,所有模型共享該用戶模擬器。
爲了綜合評估模型的效果,我們在多輪和單輪兩個層面從以下幾個維度分別進行評估:
多輪評估指標
全局連貫度(Cohe.)
多樣性 (Dist-2)
單輪評估指標
適合度 (Appr.),信息豐富度 (Info.)
4. 實驗結果
首先,我們在微博語料下分別進行機機、人機實驗,從微博語料中抽取構建的對話圖譜含有4000個What-節點和10個How-節點,What-節點之間有74,362條邊,其中有64%的邊經過人工評估表明捕捉了合適的對話轉移規律。如表1所示,結果表明CG-Policy在多輪連貫性上顯著超越基線。
表格1:微博語料下機機和人機對話實驗結果
其次,爲了說明CG-Policy中CG的價值、CG如何起作用以及How節點的價值,我們進行了消融實驗。實驗設置和結果如表2所示。
表格2:消融實驗
表格3:可控性實驗
5 對話樣例
6 結論
我們提出用對話圖譜的形式捕捉對話轉移規律作爲先驗信息,以圖中“What-vertex” (關鍵詞)作爲可解釋的離散狀態,用於輔助開放域多輪對話策略學習,生成更加連貫和可控的多輪對話。
參考文獻
[1]. Chaotao Chen, Jinhua Peng, Fan Wang, Jun Xu, and Hua Wu. 2019. Generating multiple diverse responses with multi-mapping and posterior mapping selection. Proceedings of IJCAI.
[2]. Antoine Bordes, Nicolas Usunier, Alberto GarciaDuran, Jason Weston, and Oksana Yakhnenko. 2013. Translating embeddings for modeling multirelational data. In Advances in neural information processing systems, pages 2787–2795.
[3]. Lifeng Shang, Zhengdong Lu, and Hang Li. 2015. Neural responding machine for short-text conversation. In Proceedings of ACL-IJCNLP, volume 1, pages 1577–1586.
[4]. Saizheng Zhang, Emily Dinan, Jack Urbanek, Arthur Szlam, Douwe Kiela, and Jason Weston. 2018a. Personalizing dialogue agents: I have a dog, do you have pets too? In Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), pages 22042213.
[5]. Zhao, T.; Xie,K.; and Eskenazi, M. 2019. Rethinking action spaces for reinforcement learning in end-to-end dialog agents with latent variable models. In Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long andShort Papers), 12081218.
[6]. Lili Yao, Ruijian Xu, Chao Li, Dongyan Zhao, and Rui Yan. 2018. Chat more if you like: Dynamic cue words planning to flow longer conversations. arXiv preprint arXiv:1811.07631.
[7]. Jianheng Tang, Tiancheng Zhao, Chenyan Xiong, Xiaodan Liang, Eric P. Xing, and Zhiting Hu. 2019. Target-guided open-domain conversation. In Proceedings of ACL.
本期責任編輯:張偉男
本期編輯:王若珂
添加個人微信,備註:暱稱-學校(公司)-方向,即可獲得
1. 快速學習深度學習五件套資料
2. 進入高手如雲DL&NLP交流羣
記得備註呦