【SCIR論文】ACL20 基於對話圖譜的開放域多輪對話策略學習

論文名稱：Conversational Graph Grounded Policy Learning for Open-Domain Conversation Generation
論文作者：徐俊，王海峯，牛正雨，吳華，車萬翔，劉挺
原創作者：哈工大 SCIR 博士生徐俊
出處：哈工大SCIR

1 簡介

論文中提出用圖的形式捕捉對話轉移規律作爲先驗信息，用於輔助開放域多輪對話策略學習。爲此，研究人員首先從對話語料庫中構建了一個對話圖譜（Conversational Graph），其中節點表示“What to say”和“How to say”，邊表示當前句（對話上文中的最後一個語句）與其回覆句之間的自然轉換。然後，論文中提出了一個基於對話圖的策略學習框架，該框架通過圖遍歷進行對話流規劃，學習在每輪從對話圖中識別出一個“What”節點和“How”節點來指導回覆生成。

這樣可以有效地利用對話圖譜來促進策略學習，具體如下：

• 可以實現更有效的長期獎勵設計；

• 提供高質量的候選操作；

• 讓我們對策略有更多的控制。在兩個基準語料庫的實驗結果表明了幫了我了所提框架的有效性；

2 方法

論文中提出了基於對話圖譜(CG)的開放域多輪對話策略模型。其中，對話圖譜用來捕捉對話中的局部合適度以及全局連貫度信息。直觀上，策略模型以圖中的What節點 (關鍵詞)作爲可解釋的離散狀態，進而模型得以主動規劃對話內容，進而提升多輪連貫度和可控性。

圖1是本文方法的框架圖，實線橢圓代表“What”節點，實線圓形代表“How”節點。對於當前句（圖中Message），策略模型首先將其定位到圖中的“What”節點（圖中綠色關鍵詞），進而主動規劃要聊的內容（圖中橙紅色的兩個節點），再經由生成模型產出回覆句（圖中Response）。

圖1 基於對話圖譜的開放域多輪對話策略模型

對話圖譜的構建主要包含點（What-節點和How-節點）的構建，以及邊的建設兩部分。首先，研究人員從對話語料中抽取關鍵詞作爲What-節點，關鍵詞使用開源的基於詞性等特徵的工具抽取，分別挖掘語料上下句中的關鍵詞，組成關鍵詞對，再基於共現頻率在What-節點之間建邊。

同What-節點直接表達“說什麼”不同，How-節點代表“怎麼說”，這類節點無法直接從語料中抽取。研究人員基於MMPMS[1]模型學習到的表達方式(隱變量)爲How節點集合，再統計What-節點經常使用哪些How-節點解碼（表達出來），基於共現頻率建邊。

抽取工具地址：

http://github.com/squareRoot3/Target-Guided-Conversation

策略模型首先基於映射來做對話理解，根據對話當前句中出現的關鍵詞映射到對話圖中的What-節點，召回全部What-節點的所有一階What-節點鄰居提供給Policy；之後，Policy選擇其中一個What-節點確定回覆內容，再選擇該What-節點的一個How-節點，確定回覆方式；NLG負責生成具體回覆句。論文中將基於對話圖譜的策略模型稱之爲CG-Policy。

爲了訓練CG-Policy，我們設計了多種來源的獎勵信號：

基於句子的獎勵

句間相關度：我們使用對話下的多輪檢索模型[2]爲每輪生成的回覆句進行相關度打分；
句間重複懲罰：我們鼓勵多樣的內容規劃生成，當有超過60%的生成的回覆句中的詞語在上文中任意一句中同時出現，則判定爲重複；

基於圖結構的獎勵

全局連貫度：TransE空間下選中/提及What節點間的平均cosine距離；
可持續性：我們鼓勵主動聊內容豐富的節點，這樣未來可聊的內容會相對更對，具體而言我們使用PageRank打分；

此外，CG-Policy可控性也很好（如要求聊到特定的對話目標節點上），但需要設計相應的獎勵函數。具體而言，我們增加了下面的獎勵函數：

可控性獎勵

目標相似度：選定What節點和目標節點在語義空間的cosine距離，該距離表徵當前到目標還是多遠；
到目標節點的圖上最短距離；

3 實驗設置

我們在常用的公開數據集Weibo[3]和Persona[4]上開展實驗。對於基線模型，我們選用下述三個代表性模型。

• LaRL[5]：SOTA 基於隱變量的強化學習對話模型

• ChatMore[6]：關鍵詞增強的生成式對話模型

• TGRM[7]：關鍵詞增強的檢索式對話模型

我們在訓練LaRL、CG-Policy（本文所提模型）使用MMPMS模型[1]作爲用戶模擬器，用戶模擬器在策略學習過程中參數不變。此外，在機機對話時，所有模型共享該用戶模擬器。

爲了綜合評估模型的效果，我們在多輪和單輪兩個層面從以下幾個維度分別進行評估：

多輪評估指標

全局連貫度（Cohe.）
多樣性 (Dist-2)

單輪評估指標

適合度 (Appr.)，信息豐富度 (Info.)

4. 實驗結果

首先，我們在微博語料下分別進行機機、人機實驗，從微博語料中抽取構建的對話圖譜含有4000個What-節點和10個How-節點，What-節點之間有74,362條邊，其中有64%的邊經過人工評估表明捕捉了合適的對話轉移規律。如表1所示，結果表明CG-Policy在多輪連貫性上顯著超越基線。

表格1：微博語料下機機和人機對話實驗結果

其次，爲了說明CG-Policy中CG的價值、CG如何起作用以及How節點的價值，我們進行了消融實驗。實驗設置和結果如表2所示。

表格2：消融實驗

此外，爲了證明所模型有助於提升多輪對話可控性，我們進行引導到特定目標的實驗[7]，按照任務設定，我們在Persona語料上進行實驗。實驗結果如表3所示，表明CG-Policy具有更好的可控性，對話成功率相對基線大幅提升。

表格3：可控性實驗

5 對話樣例

圖2 人機對話樣例（使用中文對話，翻譯成英文）

6 結論

我們提出用對話圖譜的形式捕捉對話轉移規律作爲先驗信息，以圖中“What-vertex” (關鍵詞)作爲可解釋的離散狀態，用於輔助開放域多輪對話策略學習，生成更加連貫和可控的多輪對話。

實驗結果表明所提框架可以取得更好的局部合適度、全局連貫度和給定話題的到達成功率。

參考文獻

[1]. Chaotao Chen, Jinhua Peng, Fan Wang, Jun Xu, and Hua Wu. 2019. Generating multiple diverse responses with multi-mapping and posterior mapping selection. Proceedings of IJCAI.

[2]. Antoine Bordes, Nicolas Usunier, Alberto GarciaDuran, Jason Weston, and Oksana Yakhnenko. 2013. Translating embeddings for modeling multirelational data. In Advances in neural information processing systems, pages 2787–2795.

[3]. Lifeng Shang, Zhengdong Lu, and Hang Li. 2015. Neural responding machine for short-text conversation. In Proceedings of ACL-IJCNLP, volume 1, pages 1577–1586.

[4]. Saizheng Zhang, Emily Dinan, Jack Urbanek, Arthur Szlam, Douwe Kiela, and Jason Weston. 2018a. Personalizing dialogue agents: I have a dog, do you have pets too? In Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), pages 22042213.

[5]. Zhao, T.; Xie,K.; and Eskenazi, M. 2019. Rethinking action spaces for reinforcement learning in end-to-end dialog agents with latent variable models. In Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long andShort Papers), 12081218.

[6]. Lili Yao, Ruijian Xu, Chao Li, Dongyan Zhao, and Rui Yan. 2018. Chat more if you like: Dynamic cue words planning to ﬂow longer conversations. arXiv preprint arXiv:1811.07631.

[7]. Jianheng Tang, Tiancheng Zhao, Chenyan Xiong, Xiaodan Liang, Eric P. Xing, and Zhiting Hu. 2019. Target-guided open-domain conversation. In Proceedings of ACL.

本期責任編輯：張偉男

本期編輯：王若珂

添加個人微信，備註：暱稱-學校（公司）-方向，即可獲得

1. 快速學習深度學習五件套資料

2. 進入高手如雲DL&NLP交流羣

記得備註呦

【SCIR論文】ACL20 基於對話圖譜的開放域多輪對話策略學習

1 簡介

2 方法

3 實驗設置

4. 實驗結果

5 對話樣例

6 結論

參考文獻

人大副教授從細節上教你如何快速進行研究生早期的科研之路

中文情感分析 (Sentiment Analysis) 的難點在哪？現在做得比較好的有哪幾家？

Multi-Task Learning的幾篇綜述文章

AdaX：一個比Adam更優秀，帶”長期記憶“的優化器

【科研】論文得分低、瀕臨被拒不要慌，18條rebuttal小貼士助你說服評審和AC

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結