OpenAI GPT解读

原創

2020-07-05 05:26

背景

上篇我们讲了transformer的模型架构，论文《Attention is all you need》也表明了transformer的效果是比RNN和CNN好的，而在ELMo解读里，我们也谈到了训练语言模型再结合具体任务即pre-train的思想，这两者的优势进行简单的结合便得到了OpenAI GPT，具体论文见《Improving Language Understanding by Generative Pre-Training》

介绍

OpenAI GPT主体采用无监督学习的方式，不需要labeled的data进行语言模型的预训练，之后针对具体下游任务进行fine-tune。模型结构如下图所示：

Unsupervised pre-training

采用传统的单向语言模型训练方式，最大化概率

和单向ELMo完全一致，唯一不同的是ELMo单向采用LSTM，这里采用多层transformer

以上图取自论文，即用单词embedding和位置embeding线性计算得到h0即输入的embedding，通过多层transformer的decoder（即multihead attention和输入的token进行），最后通过全连接和softmax输出得到预测词的概率。

Supervised fine-tuning

训练完了单向语言模型后，如何继续进行fine-tuning呢。

这里采用输入序列的最后一个transformer的输出，用另一个 $W_y$ (和预训练不共享)进行计算后softmax得到label，再用反向传播的方式进行fine-tuning，同时作者发现

加入语言模型训练的目标作为辅助，能提升模型效果并加速收敛

总结

OpenAI GPT比较简单回顾下他和ELMo的区别

ELMo采用的是双向语言模型，GPT是单向语言模型
ELMO采用LSTM建立语言模型，GPT采用transformer
GPT在fine-tune的时候，最终目标里加入了语言模型的训练目标最为辅助，提升了收敛速度以及更好的效果

优点是利用了transformer的中attention的优势，采用attention的方式更好对长距离依赖关系进行建模，缺点是不是双向模型。以上各自的优点综合后就得到了BERT，在之后进行讲解

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

OpenAI GPT解读

背景

介绍

Unsupervised pre-training

Supervised fine-tuning

总结

号称能打败MLP的KAN到底行不行？数学核心原理全面解析

同事使用 insert into select 迁移数据，开开心心上线，上线后被公司开除！

DeepFilterNet复现

神經網絡語言模型 -- Neural Network Language Model

經典統計語言模型 -- Statistical Language Model

fastText解讀

StructBERT解讀

RoBERTa解讀

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結