原创 神經網絡語言模型 -- Neural Network Language Model
背景 2003年,Bengio首次提出Neural Network Language Model(NNLM), 開創了神經網絡運用在語言模型的先河,論文 《A Neural Probabilistic Language Model
原创 經典統計語言模型 -- Statistical Language Model
模型介紹 NLP早期常用的統計方法,對於一個sequenc的句子S(w1w2w3⋯wn,wiS (w_1w_2w_3{\cdots}w_n, w_iS(w1w2w3⋯wn,wi表示某個詞),其出現的概率計算如
原创 fastText解讀
背景 上一章的Word2Vec解讀我們瞭解到了一種快速對詞語進行embedding的方式,對於文本分類任務,fasttex被facebook提出,具體論文見 《Bag of Tricks for Efficient Text Cl
原创 StructBERT解讀
介紹 StructBERT是阿里巴巴達摩院提出的NLP預訓練模型,在傳統BERT的基礎上作出了相關改進,本文具體介紹StructBERT在BERT上的變化,論文參考《StructBERT: Incorporating Langua
原创 RoBERTa解讀
介紹 RoBERTa作爲BERT的改進版本,本文主要介紹RoBERTa和BERT的區別,論文具體見《RoBERTa: A Robustly Optimized BERT Pretraining Approach》 RoBERTa
原创 TransformerXL解讀
背景 對語言模型建模,RNN和Transformer都是能提取長距離的依賴關係的特徵提取器。RNN方面,由於本身的recurrent機制,可以接受任意長度的序列作爲輸入,但是由於梯度消失和爆炸(gradient vanishing
原创 OpenAI GPT解讀
背景 上篇我們講了transformer的模型架構,論文《Attention is all you need》 也表明了transformer的效果是比RNN和CNN好的,而在ELMo解讀裏,我們也談到了訓練語言模型再結合具體任務
原创 BERT解讀
背景 之前我們解讀了ELMo和OpenAI GPT,我們發現他們直接的比較各有優缺點,不同於OpenAI GPT的單向語言模型,ELMo用的是雙向語言模型,這能更好的捕捉文本語句中上下文的依賴關係,但是特徵提取器方面,ELMo用的
原创 從seq2seq到attention再到Transformer
seq2seq 首先我們介紹下seq2seq,它首次應用在機器翻譯的seq2seq,也就是enoder-decoder架構。論文見《Sequence to Sequence Learning with Neural Network
原创 ELMo解讀
背景 之前我們提到的NNLM和Word2Vec開闢了詞向量的先河。仔細回顧,我們可以知道,爲了解決統計語言模型存在的稀疏性,平滑等問題,NNLM運用神經網絡對語言模型進行建模,採用輸入若干個詞預測下一個詞,結果發現第一層的embe