遷移學習的思路是:先在大規模的未標註文本語料上無監督地預訓練一個語言模型,再把預訓練好的語言模型遷移到特定的任務上,對模型參數進行微調。目前遷移學習的大部分研究集中在文本分類和NLU(natural language understanding)任務上,遷移學習應用在NLG(natural language generation)任務上的研究比較少。這篇論文主要研究了遷移學習在對話系統上的應用。
作者針對對話系統試驗了single-input 和 multi-input 這兩種模型;因爲對話系統主要有三種輸入:dialogue history,facts以及previous decoded tokens;
single-input模型:把三種輸入連接起來作爲模型的輸入。連接方式有三種:
1.用自然分隔符連接輸入。論文中給每句對話添加雙引號。
2.用空間分隔符連接。比如用’_SEP’把每個句子連接起來。
3.直接把句子連接起來,再用context-type embedding(CTE)來表示輸入的類型。
multi-input模型:
多輸入模型基於encoder-decoder框架。用預訓練的語言模型參數來初始化encoder和decoder。多輸入模型的輸入同樣可以採用單輸入模型的處理方式。將persona information和dialogue history分別送入encoder進行編碼得到兩個向量表示。重點在於decoder部分的調整。decoder的multi-head attention模塊處理三種特徵輸入(personal information,dialogue history,previous decoded tokens),再把三者的結果取平均值即可。
1. 對話系統領域,使用預訓練進行遷移學習生成,尤其針對單輸入和多輸入模型的處理,可以借鑑學習;