(含源碼)問答對生成(QAG)| 你竟還在手工梳理問答對!?

來源: AINLPer 微信公衆號(每日更新…
編輯: ShuYini
校稿: ShuYini
時間: 2020-06-11

引言

    AI時代,不同的行業都有自己的智能客服,比如銀行智能客服、導購智能客服、後期服務支持智能客服等。這些客服機器人基本都是利用高質量、大量業務場景問答對(QA)作爲語料進行訓練得到的,但是梳理這些問答對將會耗費大量人力成本。能否做到QA問答對的自動生成呢?答案是肯定的。

Paper Information

    TILE: Generating Diverse and Consistent QA pairs from Contexts with Information-Maximizing Hierarchical Conditional VAEs
    Author: Dong Bok Lee • Seanie Lee • Woo Tae Jeong • Donghwan Kim • Sung Ju Hwang
    Paper: https://arxiv.org/pdf/2005.13837v3.pdf
    Code: https://github.com/seanie12/Info-HCVAE

更多自然語言處理相關知識,還請關注 AINLPer公衆號

論文簡述

    提取問答(QA)是自然語言理解中最基本和最重要的任務之一。最先進的QA模型已經在幾個基準數據集上實現了人類水平的性能。然而,最近數據驅動模型成功的關鍵是大規模QA數據集。爲了將最先進的QA模型部署到真實的應用程序中,我們需要構建高質量的數據集和大量的QA對來訓練它們;然而,這需要大量的人力和時間,這樣的代價非常昂貴。解決此問題的另一種方法是依據問題上下文或大量非結構化文本(如Wikipedia)自動生成的QA問答對。爲此基於此背景,本文提出了一種層級條件變分自編碼器(HCVAE),用於生成以非結構化文本爲上下文的QA問答對,同時最大化生成的QA對之間的互信息,以確保它們的一致性

本文看點

    1、提出了一種新的分層變分框架,用於從單個上下文中生成不同的QA對,這是用於QA對生成的第一個概率生成模型。
    2、提出了一種InfoMax正則化器,它通過最大化它們的互信息來有效地增強生成QA對之間的一致性,是保證QA對一致性的一種新方法。
    3、通過完全使用生成的QA對(基於QA的評估或者使用Ground Truth生成的QA對(半監督QA))訓練新模型,並在幾個基準數據集上評估我們的框架。本文模型在這兩項任務上都取得了不錯的成績,這大大優於現有的QAG基線。

爲什麼要做QAG?

    問題生成(QG)或問答對生成(QAG)是克服數據稀缺的一種方法。最近的一些研究採用半監督學習方法,利用大量的無標籤文本(如維基百科)在QG系統的幫助下生成合成的QA對,但是現有的QG系統忽略了一個重要的問題,即從非結構化文本組成的上下文生成QA對,本質上是一對多的問題。而序列到序列模型生成的通用序列沒有太多變化,因爲它們大多都是用最大似然估計訓練的。這對於QAG來說是非常次優的,因爲給模型的上下文通常包含更豐富的信息,我們可以利用這些信息生成更多的QA對。

本文QA對生成方法介紹

爲了解決上述原有QA對生成的問題,本文提出了一種用於QA對生成的概率深生成模型。具體地說,本文模型是一個層次化條件變分自動編碼器(HCVAE),它有兩個獨立的問題和回答潛空間,其中回答潛空間附加於問題潛空間。在生成過程中,這種層次化的條件VAE首先生成給定上下文的答案,然後通過從兩個潛在空間取樣,生成給定答案和上下文的問題。這種概率方法允許模型每次都關注上下文的不同部分生成不同的QA對。

QA一致性

     QAG任務的另一個關鍵挑戰是確保問題與其對應的答案之間的一致性,因爲它們在語義上應該相互依賴,這樣問題就可以根據給定的答案和上下文進行回答。在本文中,我們通過最大化生成的QA對之間的相互信息來解決這個一致性問題。我們驗證發現互信息最大化可顯著提高了QA對的一致性。將層次化的CVAE和InfoMax正則化器結合起來,提出了一種新的概率生成QAG模型,該模型被稱爲信息最大化的層次化條件變量自動編碼器(Info HCVAE)。我們的信息HCVAE即使在非常短的上下文中也會生成不同且一致的QA對。
     一致性解決方法。我們通過最大化生成的QA對的互信息(MI)來解決這個問題,假設可回答的QA對具有高MI。由於MI的精確計算是比較發雜的,我們使用神經近似。雖然存在許多不同的近似值但我們使用基於Jensen-Shannon散度提出的估計值:

QAG質量評估

     生成QA對之後,但是,我們應該如何定量地測量生成的QA對的質量呢?文本生成的常用評價指標BLEU、ROUGE、METEOR僅能說明生成的QA對與GroundTruth(GT)QA對的相似程度,而與衡量它們的實際質量沒有直接關係。因此,我們使用Zhang和Bansal(2019)提出的基於QA的評估(QAE)度量標準,該指標衡量生成的QA對與GTQA對的分佈匹配程度。然而,在半監督學習中我們已經有了GT標籤,我們需要不同於GTQA(Ground Truth QA)的新的QA對,額外的QA對纔是真正有效。因此提出了一種新的度量指標–反向QAE(R-QAE),如果生成的QA是多樣的,那麼該度量指標會變低

驗證數據集。

     我們通過SQuAD v1.1、Natural Questions和TriviaQA數據集驗證我們的QAG模型,QAE和R-QAE都使用了基於BERT的QA模型。使用較少的上下文,我們的QAG模型獲得到較高QAE,這大大優於最先進的基線模型。     互信息評估結果     在SQuAD數據集的半監督QA測試結果。

Attention

更多自然語言處理相關知識,還請關注 AINLPer公衆號,極品乾貨即刻送達。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章