【ACL2019】Proactive Human-Machine Conversation with Explicit Conversation Goal

p6 in 2019/12/11

論文名稱:Proactive Human-Machine Conversation with Explicit Conversation Goal
… … … :讓機器有自主意識的和人類對話
論文作者:Wenquan Wu, Zhen Guo, Xiangyang Zhou, Hua Wu, Xiyuan Zhang, Rongzhong Lian and Haifeng Wang
論文來源:ACL2019
下載鏈接:https://www.aclweb.org/anthology/P19-1369/
源碼鏈接:https://github.com/PaddlePaddle/models/tree/develop/PaddleNLP/Research/ACL2019-DuConv
參考筆記:https://mp.weixin.qq.com/s?__biz=…
參考筆記:https://blog.csdn.net/u012852385/article/details/103208720

在這裏插入圖片描述

Abstract

  • 以前的方法:被動的進行對話
  • 以前的不足:1)被動對話,即機器的回覆是用於響應用戶的輸入,無法像人一樣進行充分的信息交互;2)對話漫無目的,缺乏像人一樣的自主意識。
  • 本文的方法:主動對話任務:1)給機器設定對話目標;2)讓機器根據給定的知識圖譜信息主動引領對話進程,完成對話目標;3)達到信息充分交互,使機器具備自主意識。
  • 本文的貢獻:1)提出了一種新的任務,即模擬人類在知識圖上進行會話的行爲,該知識圖結合了事實和非事實知識,在現實世界中有廣泛的應用,但目前還沒有得到很好的研究;2)構建併發布了一個新的大型數據集DuConv,以促進知識驅動的主動對話系統的發展;3)提出了知識感知的主動對話模型,並對數據集進行詳細的分析。

3 DuConv

DuConv的構建包括四個步驟:1)知識挖掘;2)圖譜建設;3)對話目標設定;4)語料衆包標註。

3.1 Knowledge Crawling 知識挖掘

本文在時光網(www.mtime.com)上挖掘了電影和娛樂人物相關的結構化和非結構化知識信息,如電影的票房、導演、評論、相關人物的祖籍、代表作和評論等。本文根據網上挖掘的這些靜態知識進一步計算出動態知識以豐富知識內容,比如根據票房信息計算出電影之間的票房排行,根據評分信息離散化得到電影或人物的口碑信息等。
經過數據清洗後總共得到約14w實體、360w條知識的數據,每條知識以三元組<實體,屬性,值>的形式組織,經過抽樣評估,挖掘的知識準確率爲97%。

3.2 Knowledge Graph Construction 圖譜建設

類似於傳統的圖譜建設,本文
1)以挖據的三元組知識中的實體和值爲節點,屬性爲邊建立一階圖譜關係;
2)對有相同屬性和值的兩個實體建立二階關係,如“紅海行動”和“湄公河行動”的導演都是林超賢,這兩個實體則存在二階關聯關係。

3.3 Conversation Goal Assignment 對話目標設定

圖1 主動對話示例
在這裏插入圖片描述
如圖1所示,每組對話都有對話目標和關聯的知識信息,本文從圖譜中提取任意兩個關聯的實體作爲對話目標中的目標話題A和B,包括一階關係和二階關係的關聯實體。然後進一步提取關聯實體所在的知識子圖作爲目標話題A和B的附加知識信息。

3.4 Crowdsourcing 語料衆包標註

不同於self-play一人扮演對話雙方的標註方式,本文在衆包平臺test.baidu.com上隨機挑選兩個標註人員模擬真實對話的雙方標註出每組對話數據。爲保證至少有兩個標註人員同時進入對話標註任務,本文安排多個外包團隊進入標註平臺開展對話標註。標註時,每組對話隨機挑選兩個標註人員標註,其中之一扮演機器角色根據提供的知識子圖信息主動引領對話進程完成設定的對話目標,另一個標註人員扮演真實用戶角色響應機器角色的對話即可。由此共標註了約3萬組含有27萬對話句子的語料,詳細統計信息如下:
表1 標註語料統計
在這裏插入圖片描述

4 Methods

目前人機對話任務主要有檢索和生成兩種主流的技術方向,本文在這兩個方向上都建立了主動對話的基線模型。

4.1 Retrieval-based Model 檢索模型

在這裏插入圖片描述
在這裏插入圖片描述
檢索模型借鑑信息檢索的方法從對話語料庫中檢索候選回覆,然後使用排序模型對候選回覆進行排序,再選取高相關性的回覆進行輸出,如圖3左側所示。
本文的候選回覆是從訓練集中相同對話目標類型(如“Start”->[Movie]->[Person], “Start”->[Movie]->[Movie]等)相同輪次的機器回覆中隨機選取的,並對候選回覆中的知識根據屬性名稱替換成當前對話的相應知識,減少知識衝突現象。
排序階段,使用二分類方法判斷每個候選回覆Y屬於正確回覆的概率,如圖3右側所示,首先將候選回覆Y和對話歷史X(包括當前輪的用戶輸入)使用分隔符拼接成一串字符序列,然後使用Transformer方法進行編碼表示,再聯合attention方法選取的相關知識信息通過softmax層進行二分類判斷。爲了簡便,該方法中將對話目標Goal作爲知識信息的一部分使用。

4.2 Generation-based Model 生成模型

圖4 後驗生成模型
在這裏插入圖片描述
生成模型借鑑最早用於機器翻譯的Seq2Seq模型,將輸入的對話歷史X使用encoder編碼表示,然後使用decoder逐步解碼出回覆的每個字符。如圖4所示,我們在Seq2Seq框架基礎上使用Memory Network方法表示知識信息通過attention方式選擇輸出回覆需要使用的知識信息,並引入decoder中。我們發現:
通過輸出回覆的loss信息再經decoder的長距離梯度回傳很難有效指導模型進行知識選擇
因此我們提出了一種新的解決方法(使用該方法的模型稱爲後驗生成模型):
在訓練階段使用標準回覆Y中的後驗知識信息指導模型進行先驗知識選擇,即讓先驗知識分佈p(ki|x)擬合後驗知識分佈p(ki|x,y),訓練時將這兩個分佈向量的KL散度作爲Loss的一部分。KL散度計算方法如下:
在這裏插入圖片描述
爲避免在計算後驗知識分佈時存在嚴重信息損失,借鑑自編碼的思想,訓練階段讓標準回覆計算的後驗知識分佈能解碼出標準回覆本身,即用後驗分佈預測標準回覆的每個詞,預測結果的BOW Loss也作爲整體Loss的一部分,BOW Loss計算如下:
在這裏插入圖片描述
該方法中對話目標Goal作爲輸入信息的一部分共同參與知識信息的選擇和回覆的解碼。

在這裏插入圖片描述
其中,NLL Loss: the Negative Log-Likelihood (NLL) ,負對數似然函數表示真實響應與模型生成的響應之間的差異。

Experiments

數據集: DuConv
評估指標:
自動評估:Hits@k——檢索相關的指標;PPL、F1、BLEU和DISTINCT——生成相關的指標;準確、召回——衡量回復中的知識使用情況。
人工評估:Goal完成度,輪一致性coherence。
基準模型: 檢索模型(retrieval),後驗生成模型(generation),Seq2Seq模型
在這裏插入圖片描述在這裏插入圖片描述
在這裏插入圖片描述

References

  • Antoine Bordes, Y-Lan Boureau, and Jason Weston. 2016. Learning end-to-end goal-oriented dialog. arXiv preprint arXiv:1605.07683.
  • Junyoung Chung, Caglar Gulcehre, KyungHyun Cho, and Yoshua Bengio. 2014. Empirical evaluation of gatedrecurrentneuralnetworksonsequencemodeling. arXiv preprint arXiv:1412.3555.
  • Jacob Devlin, Ming-Wei Chang, Kenton Lee, and KristinaToutanova.2018. Bert: Pre-trainingofdeep bidirectional transformers for language understanding. arXiv preprint arXiv:1810.04805.
  • Emily Dinan, Stephen Roller, Kurt Shuster, Angela Fan,MichaelAuli,andJasonWeston.2019. Wizard of wikipedia: Knowledge-powered conversational agents. In International Conference on Learning Representations.
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章