ACL 2020論文分享 | 基於對話圖譜的開放域多輪對話策略學習

本文對百度NLP入選ACL 2020的論文《Conversational Graph Grounded Policy Learning for Open-Domain Conversation Generation》進行解讀,該論文提出用圖的形式捕捉對話轉移規律作爲先驗信息,用於輔助開放域多輪對話策略學習,並提出了一個基於CG的策略學習框架。

 

 引言

 

研究人員首先從對話語料庫中構建了一個對話圖譜(Conversational Graph),其中節點表示“What to say”和“How to say”,邊表示當前句(對話上文中的最後一個語句)與其回覆句之間的自然轉換。然後,論文中提出了一個基於對話圖的策略學習框架,該框架通過圖遍歷進行對話流規劃,學習在每輪從對話圖中識別出一個“What”節點和“How”節點來指導回覆生成。

 

這樣可以有效地利用對話圖譜來促進策略學習,具體如下:

  • 可以實現更有效的長期獎勵設計;

  • 提供高質量的候選操作;

  • 讓對策略有更多的控制,在兩個基準語料庫的實驗結果表明了所提框架的有效性。

 

 模型介紹

 

論文中提出了基於對話圖譜(CG)的開放域多輪對話策略模型。其中,對話圖譜用來捕捉對話中的局部合適度以及全局連貫度信息。直觀上,策略模型以圖中的What-節點 (關鍵詞)作爲可解釋的離散狀態,進而模型得以主動規劃對話內容,進而提升多輪連貫度和可控性

 

圖1是本文方法的框架圖,實線橢圓代表“What”節點,實線圓形代表“How”節點。對於當前句(圖中Message),策略模型首先將其定位到圖中的“What”節點(圖中綠色關鍵詞),進而主動規劃要聊的內容(圖中橙紅色的兩個節點),再經由生成模型產出回覆句(圖中Response)。

 

圖 1:基於對話圖譜的開放域多輪對話策略模型

 

對話圖譜的構建主要包含點(What-節點和How-節點)的構建,以及邊的建設兩部分。首先,研究人員從對話語料中抽取關鍵詞作爲What-節點,關鍵詞使用開源的基於詞性等特徵的工具抽取,分別挖掘語料上下句中的關鍵詞,組成關鍵詞對,再基於共現頻率在What-節點之間建邊。

 

同What-節點直接表達“說什麼”不同,How-節點代表“怎麼說”,這類節點無法直接從語料中抽取。研究人員基於MMPMS[1]模型學習到的表達方式(隱變量)爲How-節點集合,再統計What-節點經常使用哪些How-節點解碼(表達出來),基於共現頻率建邊。

 

抽取工具地址:

http://github.com/squareRoot3/Target-Guided-Conversation

 

策略模型首先基於映射來做對話理解,根據對話當前句中出現的關鍵詞映射到對話圖中的What-節點,召回全部What-節點的所有一階What-節點鄰居提供給Policy;之後,Policy選擇其中一個What-節點確定回覆內容,再選擇該What-節點的一個How-節點,確定回覆方式;NLG負責生成具體回覆句。論文中將基於對話圖譜的策略模型稱之爲CG-Policy。

 

爲了訓練CG-Policy,研究人員設計了多種來源的獎勵信號:

 

基於句子的獎勵

1)句間相關度:研究人員使用對話下的多輪檢索模型[2]爲每輪生成的回覆句進行相關度打分;

2)句間重複懲罰:研究人員鼓勵多樣的內容規劃生成,當有超過60%的生成的回覆句中的詞語在上文中任意一句中同時出現,則判定爲重複;

 

基於圖結構的獎勵

1)全局連貫度:TransE空間下選中/提及What-節點間的平均cosine距離;

2)可持續性:研究人員鼓勵主動聊內容豐富的節點,這樣未來可聊的內容會相對更對,具體而言我們使用PageRank打分;

 

此外,CG-Policy可控性也很好(如要求聊到特定的對話目標節點上),但需要設計相應的獎勵函數。具體而言,研究人員增加了下面的獎勵函數:

 

可控性獎勵

1)目標相似度:選定What-節點和目標節點在語義空間的cosine距離,該距離表徵當前到目標還是多遠;

2)到目標節點的圖上最短距離;

 

 實驗結果和分析

 

研究人員在常用的公開數據集Weibo[3]和Persona[4]上開展實驗。對於基線模型選用下述三個代表性模型。

1)LaRL[5]:SOTA基於隱變量的強化學習對話模型

2)ChatMore[6]:關鍵詞增強的生成式對話模型

3)TGRM[7]:關鍵詞增強的檢索式對話模型

 

研究人員在訓練LaRL、CG-Policy(本文所提模型)使用MMPMS模型[1]作爲用戶模擬器,用戶模擬器在策略學習過程中參數不變。此外,在機機對話時,所有模型共享該用戶模擬器。

 

爲了綜合評估模型的效果,研究人員在多輪和單輪兩個層面從以下幾個維度分別進行評估:

 

  • 多輪評估指標

    全局連貫度(Cohe.)、多樣性 (Dist-2)

  • 單輪評估指標

    適合度 (Appr.)、信息豐富度 (Info.)

 

首先,研究人員在微博語料下分別進行機機、人機實驗,從微博語料中抽取構建的對話圖譜含有4000個What-節點和10個How-節點,What-節點之間有74,362條邊,其中有64%的邊經過人工評估表明捕捉了合適的對話轉移規律。如表1所示,結果表明CG-Policy在多輪連貫性上顯著超越基線。

 

表1:微博語料下機機和人機對話實驗結果

 

其次,爲了說明CG-Policy中CG的價值、CG如何起作用以及How-節點的價值,研究人員進行了消融實驗,實驗設置和結果如表2所示。

 

表2:消融實驗

 

此外,爲了證明所模型有助於提升多輪對話可控性,研究人員進行引導到特定目標的實驗[7],按照任務設定在Persona語料上進行實驗。實驗結果如表3所示,表明CG-Policy具有更好的可控性,對話成功率相對基線大幅提升。

 

表3:可控性實驗

 

 對話樣例

 

圖2:人機對話樣例(使用中文對話,翻譯成英文)

 

 總結

 

論文中提出用對話圖譜的形式捕捉對話轉移規律作爲先驗信息,以圖中“What-vertex” (關鍵詞)作爲可解釋的離散狀態,用於輔助開放域多輪對話策略學習,生成更加連貫和可控的多輪對話。

 

實驗結果表明所提框架可以取得更好的局部合適度、全局連貫度和給定話題的到達成功率。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章