論文閱讀:Large-Scale Transfer Learning for Natural Language Generation

遷移學習的思路是:先在大規模的未標註文本語料上無監督地預訓練一個語言模型,再把預訓練好的語言模型遷移到特定的任務上,對模型參數進行微調。目前遷移學習的大部分研究集中在文本分類和NLU(natural language understanding)任務上,遷移學習應用在NLG(natural language generation)任務上的研究比較少。這篇論文主要研究了遷移學習在對話系統上的應用。

作者針對對話系統試驗了single-input  multi-input 這兩種模型;因爲對話系統主要有三種輸入:dialogue history,facts以及previous decoded tokens

 

single-input模型:把三種輸入連接起來作爲模型的輸入。連接方式有三種:

1.用自然分隔符連接輸入。論文中給每句對話添加雙引號。

2.用空間分隔符連接。比如用’_SEP’把每個句子連接起來。

3.直接把句子連接起來,再用context-type embedding(CTE)來表示輸入的類型。

 

multi-input模型:

多輸入模型基於encoder-decoder框架。用預訓練的語言模型參數來初始化encoder和decoder。多輸入模型的輸入同樣可以採用單輸入模型的處理方式。將persona information和dialogue history分別送入encoder進行編碼得到兩個向量表示。重點在於decoder部分的調整。decoder的multi-head attention模塊處理三種特徵輸入(personal information,dialogue history,previous decoded tokens),再把三者的結果取平均值即可。

 

paper note:https://spring-quan.github.io/2020/01/07/%E8%AE%BA%E6%96%87%E7%AC%94%E8%AE%B0%E3%80%8ALarge-Scale-Transfer-Learning-for-Natural-Language-Generation%E3%80%8B/

1. 對話系統領域,使用預訓練進行遷移學習生成,尤其針對單輸入和多輸入模型的處理,可以借鑑學習;

 

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章