原创 神經網絡語言模型 -- Neural Network Language Model

背景 2003年,Bengio首次提出Neural Network Language Model(NNLM), 開創了神經網絡運用在語言模型的先河,論文 《A Neural Probabilistic Language Model

原创 經典統計語言模型 -- Statistical Language Model

模型介紹 NLP早期常用的統計方法,對於一個sequenc的句子S(w1w2w3⋯wn,wiS (w_1w_2w_3{\cdots}w_n, w_iS(w1​w2​w3​⋯wn​,wi​表示某個詞),其出現的概率計算如

原创 fastText解讀

背景 上一章的Word2Vec解讀我們瞭解到了一種快速對詞語進行embedding的方式,對於文本分類任務,fasttex被facebook提出,具體論文見 《Bag of Tricks for Efficient Text Cl

原创 StructBERT解讀

介紹 StructBERT是阿里巴巴達摩院提出的NLP預訓練模型,在傳統BERT的基礎上作出了相關改進,本文具體介紹StructBERT在BERT上的變化,論文參考《StructBERT: Incorporating Langua

原创 RoBERTa解讀

介紹 RoBERTa作爲BERT的改進版本,本文主要介紹RoBERTa和BERT的區別,論文具體見《RoBERTa: A Robustly Optimized BERT Pretraining Approach》 RoBERTa

原创 TransformerXL解讀

背景 對語言模型建模,RNN和Transformer都是能提取長距離的依賴關係的特徵提取器。RNN方面,由於本身的recurrent機制,可以接受任意長度的序列作爲輸入,但是由於梯度消失和爆炸(gradient vanishing

原创 OpenAI GPT解讀

背景 上篇我們講了transformer的模型架構,論文《Attention is all you need》 也表明了transformer的效果是比RNN和CNN好的,而在ELMo解讀裏,我們也談到了訓練語言模型再結合具體任務

原创 BERT解讀

背景 之前我們解讀了ELMo和OpenAI GPT,我們發現他們直接的比較各有優缺點,不同於OpenAI GPT的單向語言模型,ELMo用的是雙向語言模型,這能更好的捕捉文本語句中上下文的依賴關係,但是特徵提取器方面,ELMo用的

原创 從seq2seq到attention再到Transformer

seq2seq 首先我們介紹下seq2seq,它首次應用在機器翻譯的seq2seq,也就是enoder-decoder架構。論文見《Sequence to Sequence Learning with Neural Network

原创 ELMo解讀

背景 之前我們提到的NNLM和Word2Vec開闢了詞向量的先河。仔細回顧,我們可以知道,爲了解決統計語言模型存在的稀疏性,平滑等問題,NNLM運用神經網絡對語言模型進行建模,採用輸入若干個詞預測下一個詞,結果發現第一層的embe