【SCIR論文】ACL20 基於對話圖譜的開放域多輪對話策略學習

論文名稱:Conversational Graph Grounded Policy Learning for Open-Domain Conversation Generation
論文作者:徐俊,王海峯,牛正雨,吳華,車萬翔,劉挺
原創作者:哈工大 SCIR 博士生 徐俊
出處:哈工大SCIR

1 簡介

論文中提出用圖的形式捕捉對話轉移規律作爲先驗信息,用於輔助開放域多輪對話策略學習。爲此,研究人員首先從對話語料庫中構建了一個對話圖譜(Conversational Graph,其中節點表示“What to say”“How to say”,邊表示當前句(對話上文中的最後一個語句)與其回覆句之間的自然轉換。然後,論文中提出了一個基於對話圖的策略學習框架,該框架通過圖遍歷進行對話流規劃,學習在每輪從對話圖中識別出一個“What”節點和“How”節點來指導回覆生成。

這樣可以有效地利用對話圖譜來促進策略學習,具體如下:

       可以實現更有效的長期獎勵設計;

       提供高質量的候選操作;

         讓我們對策略有更多的控制。在兩個基準語料庫的實驗結果表明了幫了我了所提框架的有效性;

2 方法

論文中提出了基於對話圖譜(CG)的開放域多輪對話策略模型。其中,對話圖譜用來捕捉對話中的局部合適度以及全局連貫度信息。直觀上,策略模型以圖中的What節點 (關鍵詞)作爲可解釋的離散狀態,進而模型得以主動規劃對話內容,進而提升多輪連貫度和可控性

1是本文方法的框架圖,實線橢圓代表“What”節點,實線圓形代表“How”節點。對於當前句(圖中Message),策略模型首先將其定位到圖中的“What”節點(圖中綠色關鍵詞),進而主動規劃要聊的內容(圖中橙紅色的兩個節點),再經由生成模型產出回覆句(圖中Response)。

圖1 基於對話圖譜的開放域多輪對話策略模型

對話圖譜的構建主要包含點(What-節點和How-節點)的構建,以及邊的建設兩部分。首先,研究人員從對話語料中抽取關鍵詞作爲What-節點,關鍵詞使用開源的基於詞性等特徵的工具抽取,分別挖掘語料上下句中的關鍵詞,組成關鍵詞對,再基於共現頻率在What-節點之間建邊。

同What-節點直接表達“說什麼”不同,How-節點代表“怎麼說”,這類節點無法直接從語料中抽取。研究人員基於MMPMS[1]模型學習到的表達方式(隱變量)爲How節點集合,再統計What-節點經常使用哪些How-節點解碼(表達出來),基於共現頻率建邊。

抽取工具地址:

http://github.com/squareRoot3/Target-Guided-Conversation

策略模型首先基於映射來做對話理解,根據對話當前句中出現的關鍵詞映射到對話圖中的What-節點,召回全部What-節點的所有一階What-節點鄰居提供給Policy;之後,Policy選擇其中一個What-節點確定回覆內容,再選擇該What-節點的一個How-節點,確定回覆方式;NLG負責生成具體回覆句。論文中將基於對話圖譜的策略模型稱之爲CG-Policy。

爲了訓練CG-Policy,我們設計了多種來源的獎勵信號:

  • 基於句子的獎勵

    • 句間相關度:我們使用對話下的多輪檢索模型[2]爲每輪生成的回覆句進行相關度打分;

    • 句間重複懲罰:我們鼓勵多樣的內容規劃生成,當有超過60%的生成的回覆句中的詞語在上文中任意一句中同時出現,則判定爲重複;

  • 基於圖結構的獎勵

    • 全局連貫度:TransE空間下選中/提及What節點間的平均cosine距離;

    • 可持續性:我們鼓勵主動聊內容豐富的節點,這樣未來可聊的內容會相對更對,具體而言我們使用PageRank打分;

此外,CG-Policy可控性也很好(如要求聊到特定的對話目標節點上),但需要設計相應的獎勵函數。具體而言,我們增加了下面的獎勵函數:

  • 可控性獎勵

    • 目標相似度:選定What節點和目標節點在語義空間的cosine距離,該距離表徵當前到目標還是多遠;

    • 到目標節點的圖上最短距離;

3 實驗設置

我們在常用的公開數據集Weibo[3]和Persona[4]上開展實驗。對於基線模型,我們選用下述三個代表性模型。

         LaRL[5]:SOTA 基於隱變量的強化學習對話模型

         ChatMore[6]:關鍵詞增強的生成式對話模型

         TGRM[7]:關鍵詞增強的檢索式對話模型

我們在訓練LaRL、CG-Policy(本文所提模型)使用MMPMS模型[1]作爲用戶模擬器,用戶模擬器在策略學習過程中參數不變。此外,在機機對話時,所有模型共享該用戶模擬器。

爲了綜合評估模型的效果,我們在多輪和單輪兩個層面從以下幾個維度分別進行評估:

  • 多輪評估指標

    • 全局連貫度(Cohe.)

    • 多樣性 (Dist-2)

  • 單輪評估指標

    • 適合度 (Appr.),信息豐富度 (Info.)

4. 實驗結果

先,我們在微博語料下分別進行機機、人機實驗,從微博語料中抽取構建的對話圖譜含有4000個What-節點和10個How-節點,What-節點之間有74,362條邊,其中有64%的邊經過人工評估表明捕捉了合適的對話轉移規律。如表1所示,結果表明CG-Policy在多輪連貫性上顯著超越基線。

表格1:微博語料下機機和人機對話實驗結果

其次,爲了說明CG-Policy中CG的價值、CG如何起作用以及How節點的價值,我們進行了消融實驗。實驗設置和結果如表2所示。

表格2:消融實驗

此外,爲了證明所模型有助於提升多輪對話可控性,我們進行引導到特定目標的實驗[7],按照任務設定,我們在Persona語料上進行實驗。實驗結果如表3所示,表明CG-Policy具有更好的可控性,對話成功率相對基線大幅提升。

表格3:可控性實驗

5 對話樣例

圖2 人機對話樣例(使用中文對話,翻譯成英文)

6 結論

我們提出用對話圖譜的形式捕捉對話轉移規律作爲先驗信息,以圖中“What-vertex” (關鍵詞)作爲可解釋的離散狀態,用於輔助開放域多輪對話策略學習,生成更加連貫和可控的多輪對話。

實驗結果表明所提框架可以取得更好的局部合適度、全局連貫度和給定話題的到達成功率。

參考文獻

[1]. Chaotao Chen, Jinhua Peng, Fan Wang, Jun Xu, and Hua Wu. 2019. Generating multiple diverse responses with multi-mapping and posterior mapping selection. Proceedings of IJCAI.

[2]. Antoine Bordes, Nicolas Usunier, Alberto GarciaDuran, Jason Weston, and Oksana Yakhnenko. 2013. Translating embeddings for modeling multirelational data. In Advances in neural information processing systems, pages 2787–2795.

[3]. Lifeng Shang, Zhengdong Lu, and Hang Li. 2015. Neural responding machine for short-text conversation. In Proceedings of ACL-IJCNLP, volume 1, pages 1577–1586.

[4]. Saizheng Zhang, Emily Dinan, Jack Urbanek, Arthur Szlam, Douwe Kiela, and Jason Weston. 2018a. Personalizing dialogue agents: I have a dog, do you have pets too? In Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), pages 22042213.

[5]. Zhao, T.; Xie,K.; and Eskenazi, M. 2019. Rethinking action spaces for reinforcement learning in end-to-end dialog agents with latent variable models. In Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long andShort Papers), 12081218.

[6]. Lili Yao, Ruijian Xu, Chao Li, Dongyan Zhao, and Rui Yan. 2018. Chat more if you like: Dynamic cue words planning to flow longer conversations. arXiv preprint arXiv:1811.07631.

[7]. Jianheng Tang, Tiancheng Zhao, Chenyan Xiong, Xiaodan Liang, Eric P. Xing, and Zhiting Hu. 2019. Target-guided open-domain conversation. In Proceedings of ACL. 

本期責任編輯:張偉男

本期編輯:王若珂


添加個人微信,備註:暱稱-學校(公司)-方向即可獲得

1. 快速學習深度學習五件套資料

2. 進入高手如雲DL&NLP交流羣

記得備註呦

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章