論文閱讀：Large-Scale Transfer Learning for Natural Language Generation

原創

2020-07-03 22:04

遷移學習的思路是：先在大規模的未標註文本語料上無監督地預訓練一個語言模型，再把預訓練好的語言模型遷移到特定的任務上，對模型參數進行微調。目前遷移學習的大部分研究集中在文本分類和NLU(natural language understanding)任務上，遷移學習應用在NLG(natural language generation)任務上的研究比較少。這篇論文主要研究了遷移學習在對話系統上的應用。

作者針對對話系統試驗了single-input 和 multi-input 這兩種模型；因爲對話系統主要有三種輸入：dialogue history,facts以及previous decoded tokens；

single-input模型:把三種輸入連接起來作爲模型的輸入。連接方式有三種：

1.用自然分隔符連接輸入。論文中給每句對話添加雙引號。

2.用空間分隔符連接。比如用’_SEP’把每個句子連接起來。

3.直接把句子連接起來，再用context-type embedding(CTE)來表示輸入的類型。

multi-input模型:

多輸入模型基於encoder-decoder框架。用預訓練的語言模型參數來初始化encoder和decoder。多輸入模型的輸入同樣可以採用單輸入模型的處理方式。將persona information和dialogue history分別送入encoder進行編碼得到兩個向量表示。重點在於decoder部分的調整。decoder的multi-head attention模塊處理三種特徵輸入(personal information,dialogue history,previous decoded tokens)，再把三者的結果取平均值即可。

paper note:https://spring-quan.github.io/2020/01/07/%E8%AE%BA%E6%96%87%E7%AC%94%E8%AE%B0%E3%80%8ALarge-Scale-Transfer-Learning-for-Natural-Language-Generation%E3%80%8B/

1. 對話系統領域，使用預訓練進行遷移學習生成，尤其針對單輸入和多輸入模型的處理，可以借鑑學習；

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

論文閱讀：Large-Scale Transfer Learning for Natural Language Generation

我真的從測試轉成了開發......

零基礎寫框架(2)：故障排查和日誌基礎

芯片產業管理和營銷指北（1）—— 產品線經理主要職能

記一次疑似JVM內存泄漏的排查過程

劍指offer【68】：二叉樹最近祖先節點

論文閱讀：CTRL: A CONDITIONAL TRANSFORMER LANGUAGE MODEL FOR CONTROLLABLE GENERATION

劍指offer【68】：二叉搜索樹的最近祖先節點

劍指offer【59-1】：滑動窗口的最大值

劍指offer【40】：topk數，小頂堆，快排實現

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結