論文淺嘗 | 低資源文本風格遷移數據集

     

來源:AAAI2020

論文鏈接:https://www.msra.cn/wp-content/uploads/2020/01/A-Dataset-for-Low-Resource-Stylized-Sequence-to-Sequence-Generation.pdf

 

概述:

低資源樣式化的序列到序列(S2S)生成是高需求的。但由於數據集在規模和自動評價方法上的侷限性,阻礙了其發展。作者爲低資源風格化的S2S構建了兩個大規模、多參考數據集:易於評估的機器翻譯形式語料庫(MTFC)和解決聊天機器人中一個重要問題的Twitter會話形式語料庫(TCFC)。這些數據集包含上下文到源樣式的並行數據、源樣式到目標樣式的並行數據以及目標樣式中的非並行語句,以實現半監督學習。作者提供了三個基線:基於軸的方法、師生方法和反向翻譯方法。作者發現基於軸的方法是最差的,另外兩種方法在不同的度量基準上獲得了最好的效果。

 

論文介紹:

S2S框架(Sutskever、Vinyals和Le 2014)近年來取得了巨大成功。然而,大量的任務要求S2S模型在沒有大量並行數據的情況下生成特定風格的文本,例如chatbots中的正式響應生成,這是一種需求量很大但性能不太好的方法(Shum、He和Li 2018)。表1顯示,正式回覆對於聊天機器人非常重要,特別是在客戶服務領域。

我們研究了低資源模式化的序列到序列生成問題。通常情況下,上下文到目標樣式的句子對是不可用的,但是足夠的上下文到源樣式的句子對很容易收集。例如,在Twitter上可以很容易地獲取非正式會話數據,但是很難找到非正式消息和正式響應文本對(Li等人。2016年b)。通過上下文到源風格的句子對,可以通過羣體尋源來構建源風格到目標風格的句子對。在這種方式下,語境和目的語風格的句子是通過源語風格的句子連接起來的,這是與非平行風格轉換任務的主要區別(Shen et al。2017年)

             

在這樣的假設下,作者通過擴展Grammarly的Yahoo-Answers形式語料庫(GYAFC)(Rao和Tetreault 2018),引入了兩個基準數據集:Twitter會話形式語料庫(TCFC)和機器翻譯形式語料庫(MTFC)。這兩個數據集都關注於特定的樣式、形式,並且包含大量的訓練數據以及人工註釋的多參考測試數據。具體來說,Twitter會話形式語料庫旨在教會一個代理以一種正式的方式迴應人類。作者準備了170萬條來自Twitter的非正式消息響應對,以及52595條來自GYAFC的非正式到正式的英語文本對用於培訓。關於模型驗證,作者要求以英語爲母語的人將2000個非正式的回答改寫成正式的風格。

儘管程式化會話在現實世界中有許多潛在的應用,但很難對其進行評估(Liu et al。2016年)。基於此,作者進一步構建了一個更容易評價的任務,即機器翻譯形式語料庫。MTFC由1500萬個非正式的中文到非正式的英文文本對組成,這些文本對是從OpenSubtitle數據集中仔細篩選出來的(Lison和Tiedemann,2016年)。非正式到正式的英語文本對也是從GYAFC借來的。爲了調試和測試,作者要求人工註釋者創建3000多個人工註釋的非正式漢語到正式英語對。對於這兩個數據集,我們進一步準備了大規模的非並行形式語句,以便能夠訓練半監督方法(Sennrich、Haddow和Birch 2016a)。

由於這項任務可以被視爲一個特定的多語言機器翻譯問題,作者採用了三種低資源機器翻譯的方法作爲基線:1)基於樞軸的方法(Cohn和Lapata 2007),以流水線的方式進行風格化的S2S生成;2)師生模型(Chen等人。2017)通過知識蒸餾解決錯誤傳播;3)能夠利用非並行數據的反向轉換方法(Sennrich、Haddow和Birch 2016a)。實證結果表明,以軸爲基礎的模型是最差的,說明採用最先進的序列到序列模型和樣式轉換模型相結合的方法不能很好地解決這一問題。教師-學生法和後向翻譯法在不同的度量指標上獲得了最高的分數,說明知識提取和數據擴充可以減輕任務的一些挑戰。

本文的主要貢獻如下:1)建立了一個具有挑戰性的會話風格轉換數據集,該數據集在業界有着廣泛的應用前景;2)引入了一個易於評估、由大量並行和非並行數據組成的機器翻譯形式語料庫;3)借鑑了機器翻譯的典型方法對數據集進行了翻譯測試。

 

數據集建立過程:

作者創建了兩個用於樣式化S2S生成的數據集,稱爲Twitter會話形式語料庫(TCFC)和機器翻譯形式語料庫(MTFC)。在這一部分中,作者詳細闡述瞭如何構造一個平行語料庫D={(xi,yi,s)}N i=0,它由上下文到源風格的句子對組成,一個平行語料庫s={(yj,s,yj,t)}M j=0由源風格到目標風格的句子對組成,以及一個包含形式句子的非平行語料庫Mt。x、 ys和yt分別指一個上下文、一個源風格句子和一個目標風格句子。

 

背景:GYAFC數據集

由於S和Mt的構建是基於GYAFC的,所以作者首先對數據集進行了簡要介紹。GYAFC是最大的人類非正式的↔ 正式數據集。首先,作者使用內部分類器從Yahoo Answers L6 corpus1的娛樂與音樂(E&M)和家庭與關係(F&R)域中提取非正式句子。如果句子是疑問句,包含url,並且短於5個單詞或長於25個單詞,則會被刪除。衆包努力構建培訓、驗證和測試集,要求員工將非正式句子改寫爲正式句子,並提供詳細說明。最後,每個域大約有5萬個文本對用於訓練,3千個文本對用於驗證,1.5千個文本對用於測試。

 

本文利用E&M領域的數據集作爲S,在Rao和Tetreaultis中作爲內部形式分類器,將正式句作爲正實例,非正式句作爲負實例,在人類標註的50k個文本對上訓練一個形式分類器。該分類器對GYAFC數據的識別率達到92%。作者還測試了它在域外數據(Tweets和字幕)上的性能。微博和字幕的準確率分別爲83%和78%。然後將該分類器應用於Yahoo-Answer L6語料庫中E&M域的句子,選取1007999個高置信度的句子作爲形式句構建機器翻譯。

 

Twitter會話形式語料庫

對於TCFC,我們通過從Twitter抓取消息-響應對來構造數據集D。爲了最小化噪音,作者刪除短於5個字或長於25個字的消息或響應。在預處理過程中,作者刪除了標籤、表情符號和@提及。最後得到了1727251個消息響應對。消息-響應對、從GYAFC中借用的並行數據、從Yahoo-Answers中挖掘的非平行語料都是該任務的訓練數據,其統計如表3所示。

作者要求兩個以英語爲母語的人2將2000個回答3轉換爲正式的測試回答(1000個用於調諧,1000個用於測試),其中消息也可見。我們教註釋者從GYAFC數據集中抽取詳細的指令和示例,以確保重寫質量。如果她不能清楚地理解對話,註釋者可以放棄樣本。最後,我們獲得了980和978條用於調整和測試的消息。

             

原始非正式響應和正式重寫響應之間的平均字符級編輯距離爲27.33,編輯距離的分佈如圖1所示,表明如果只進行一個小的更改,則無法完成正式傳輸。根據我們對100對樣本的統計,我們發現句子級釋義(33%)、短語釋義(42%)、標點符號編輯(50%)、收縮擴展(22%)、大寫(53%)和規範化(9%)的具體百分比。定義和示例如表4所示。這些數字表明,通過首先生成非正式的響應,然後重寫規則的方法是無法解決任務的。不同風格的句子結構是不同的。在實驗中,我們討論了基於軸的方法和端到端方法的性能。

機器翻譯形式語料庫

MTFC的目標是將一個非正式的漢語句子翻譯成正式的英語句子,這樣便於評價,有利於口語翻譯的發展。理想情況下,D應該通過收集人類標記的中文來構建↔ 來自雅虎答案的英語平行數據。然而,爲了訓練而註釋數百萬個並行數據是非常困難的。我們選擇雙語字幕平行數據來建立數據集D。我們收集了大量的中文↔ 通過從OpenSubtitle中挖掘雙字幕來配對英語。爲了保證數據質量,我們按照(Zhang,Ling,and Dyer 2014)中的方法仔細檢測並提取了雙漢英對。根據快速對齊工具kit4獲得的對齊分數篩選出錯誤的句子。此外,採用形式分類器對非正式字幕進行高置信度的選擇。D中的所有字幕都有70%以上的概率被量詞預測爲非正式句。我們移除短於5個字或長於25個字的字幕,以控制數據長度分佈。我們最終有1400萬對中英文對子。

我們擴展了GYAFC數據集來創建驗證和測試集。GYAFC在娛樂和音樂領域提供2877和1416個非正式的英語正式句子對,用於調整和測試,其中每一對包含一個非正式句子和四個正式句子作爲參考。對於每一個文本對,我們要求一箇中文註釋員將非正式英語句子翻譯成非正式漢語,因爲一箇中國人能夠用漢語寫出流利的句子。註釋者可以丟棄他不清楚的實例。通過這種方式,我們可以得到2865和1412個<非正式漢語,非正式英語,正式英語>句子三元組用於調整和測試。在評估中,我們使用<非正式漢語,正式英語>文本對來測試性能。

 

方法:

基於軸的方法

解決這個問題的最直接的方法是基於管道的方法,也被稱爲基於樞軸的方法(Cohn和Lapata 2007),其中ys被用作“橋接”x和yt的樞軸語言。形式上,生成模型(x→y t)可以分解爲兩個子模型,其中yˆt由下式定義:

             

其中θys→yt和θx→ys是在D和S上通過極大似然估計得到的兩個參數,由於存在指數搜索空間,譯碼過程通常用兩步近似。第一步是根據上下文x生成ys,公式如下:

             

在這之後,目標風格句子由以下式子得到:

             

雖然基於軸的方法是解決這一問題的一種合理方法,但它存在兩個問題:誤差傳播和模型差異。在實際應用中,我們無法得到一個完美的模型來將x轉換爲ys,因此,第一步中的錯誤會傳播到第二步,這可能會影響輸出的質量。更嚴重的是,D和S的主題和詞彙量關係鬆散,降低了方法的性能。

 

師生框架

爲了解決錯誤傳播問題,師生框架首先利用S學習一個教師模型P(yt | ys,θys→yt),然後通過最小化KL散度來學習學生模型P(yt | x;θx→yt)。

             

因爲θys→yt在教學過程中是固定的,等式4可以重寫爲:

             

其中q(y’t | ys)表示教師在所有可能序列的樣本空間上的序列分佈。由於指數搜索空間的存在,我們將教師分佈q替換爲:

             

其中1(*)是指示函數,yˆt是通過波束搜索獲得的。最後,目標函數表示爲:

             

等式7給出了一個簡單的訓練過程,在這個過程中,學生網絡根據教師網絡生成的數據進行訓練。該方法允許在一個模型中進行參數估計,避免了誤差傳播問題。

 

反譯方法

反向翻譯(Sennrich、Haddow和Birch 2016a)在數據增強方面被證明是有效的。它被廣泛應用於各種任務,如無監督機器翻譯(Lample等人)。2018)和文本風格轉換(Rao和Tetreault 2018)。我們還測試了在風格化的S2S生成上的反向翻譯性能。

具體來說,我們首先訓練兩個反向模型,包括由 P(ys|yt, θyt→ys)參數化的目標樣式到源樣式模型,以及由P(x|ys, θys→x)參數化的源樣式到上下文模型。僞並行數據通過兩種方式生成,分別使用有限的並行語料庫和大規模的非並行語料庫Mt。S、 我們用下式表示:

             

形成一個僞文本對(ˆx, yt).,∀¯y ∈ Mt,我們通過下式將¯y翻譯爲ˆx:

             

其中,解碼過程也被分解爲兩個離散步驟,如等式2和3所述,形成僞並行數據(ˆx,∏yt)。通過合併由等式8和9生成的數據,得到了一個大型僞並行數據集P={(ˆxl,y’t,l)}。最後,我們使用P通過最大化對數似然來訓練生成模型:

             

 

師生翻譯法和反譯法都爲模型訓練創建了僞並行數據,不同的是反譯生成數據的目標端是人工編寫的,而師生翻譯生成數據的模型端是人工編寫的。

             

數據擴充

由於50k文本對對於NMT模型來說不夠大,我們對上述三種方法採用了數據增強技術,提高了P(yt | ys;θys→yt)和P(ys | yt,θyt→ys)的估計精度。靈感來源於(Lample等人。2018年),我們採用PBMT模型來訓練一個正式→非正式的模型,其中PBMT的語言模型是在Yahoo Answers L6的E&M和F&R域上訓練的。然後利用PBMT將機器翻譯中的句子翻譯成非正式文體。在去除質量差的反向翻譯結果(單詞重複或太長)後,我們將反向翻譯結果與S中的原始文本對合並。應注意,S中的文本對重複了10次,以確保最終僞並行數據的質量。

 

實驗

作者描述了MTFC的實現細節,TCFC的情況與此類似。在基於軸的模型中,變壓器模型(Vaswani等人。採用2017)近似條件序列生成概率P(ys | x,θx→ys)。變壓器模型由6層編碼器和解碼器組成,其模型大小爲512。多頭注意量爲8。所有模型均在4臺特斯拉泰坦X GPU上進行訓練,使用Adam算法(Kingma和Ba 2014),β1=0.9,β2=0.98,共200K步。我們使用字節對編碼(BPE)方法(Sennrich、Haddow和Birch 2016b)來處理大小爲25000的開放詞彙表問題。初始學習率設置爲0.2,並根據中的計劃衰減(Vaswani等人。2017年)。在訓練過程中,批大小爲4096字,每5000個批創建一個檢查點。用序列到序列(S2S)模型估計P(yt | ys,θys→yt)的生成概率,其中編解碼器爲512個單元的單層GRU。

在師生模式方面,我們採用了支點模式中的GRU作爲教師模式,將非正式英語句子翻譯成正式英語。使用一個轉換器作爲學生模型,使用等式7從頭開始訓練這些文本對。在後向平移方面,我們使用後向平移生成的僞並行數據對基於軸的模型中使用的轉換器進行微調。對於所有模型,光束大小爲4,長度懲罰爲1.2。我們將進一步報告基本模型和數據透視規則的結果。基本模型意味着我們直接計算數據透視模型生成的ys。Pivotrule表示我們用幾個有效的規則重寫生成結果ys。

 

評價結果

表5和表6顯示了評估結果。

人因評價:在MTFC方面,反譯法和師生法在整體質量上排名第二,因爲它們都通過端到端的模型來完成這項任務,從而避免錯誤傳播。教師-學生法在形式上得分最高,因爲1)教師模型給出的形式模式對於神經模型更容易學習,2)反向翻譯的僞數據可能含有噪聲。正如預期的那樣,數據透視模型不能很好地處理任務,在整體質量上甚至比數據透視規則還要差。在觀察輸出後,pivotmodel有時會漏掉一些重要的詞,從而增加風格轉換中的輸出形式,嚴重影響翻譯質量。BLEU分數不好的另一個可能原因是D(即數據透視模型的訓練數據)的主題可能與數據集S的主題略有不同。所有模型在流暢性方面都顯示出可比較的結果,因爲它們的解碼器都基於能夠生成可信句子的神經模型。TCFC的趨勢與MTFC相似。TCFC數據集上的正式程度和流利程度得分略高於MTFC。一個可能的解釋是,會話中的輸出語句更短,更通用,因此更容易轉換。

自動評估:對於MTFC,形式和BLEU的自動測量與人類的相關性較好,而流暢度評分與人類的相關性較差。這主要是因爲統計模型是在論文上訓練的,這些論文可能與雅虎答案的句子略有不同。在TCFC上,所有總體指標與人類判斷的相關性都很弱,這與中的結論一致(Liu et al。2016年)。相比之下,MTFC是自動評價的較好選擇。反譯法產生的反應更爲多樣。這主要是因爲從Yahoo Answers中抽取的Mt中的非平行句子比對話中的句子更加多樣化以及信息量更大。

             

 

結論和今後的工作

本文重點研究了低資源模式化序列到序列的生成,並構造了兩個大規模的數據集。MTFC易於評估,TCFC有利於對話系統。作者進一步測試了三種方法的性能,發現現有的模型不能很好地學習釋義。在將來,作者將研究如何在有限的並行數據中解決這個問題。


 

OpenKG

開放知識圖譜(簡稱 OpenKG)旨在促進中文知識圖譜數據的開放與互聯,促進知識圖譜和語義技術的普及和廣泛應用。

點擊閱讀原文,進入 OpenKG 博客。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章