台部落别水贴了

背景 2003年，Bengio首次提出Neural Network Language Model(NNLM), 開創了神經網絡運用在語言模型的先河，論文《A Neural Probabilistic Language Model

2020-07-05 05:26:28

模型介紹 NLP早期常用的統計方法，對於一個sequenc的句子S(w1w2w3⋯wn,wiS (w_1w_2w_3{\cdots}w_n, w_iS(w1w2w3⋯wn,wi表示某個詞)，其出現的概率計算如

2020-07-05 05:26:28

背景上一章的Word2Vec解讀我們瞭解到了一種快速對詞語進行embedding的方式，對於文本分類任務，fasttex被facebook提出，具體論文見《Bag of Tricks for Efficient Text Cl

2020-07-05 05:26:28

介紹 StructBERT是阿里巴巴達摩院提出的NLP預訓練模型，在傳統BERT的基礎上作出了相關改進，本文具體介紹StructBERT在BERT上的變化，論文參考《StructBERT: Incorporating Langua

2020-07-05 05:26:28

介紹 RoBERTa作爲BERT的改進版本，本文主要介紹RoBERTa和BERT的區別，論文具體見《RoBERTa: A Robustly Optimized BERT Pretraining Approach》 RoBERTa

2020-07-05 05:26:28

背景對語言模型建模，RNN和Transformer都是能提取長距離的依賴關係的特徵提取器。RNN方面，由於本身的recurrent機制，可以接受任意長度的序列作爲輸入，但是由於梯度消失和爆炸(gradient vanishing

2020-07-05 05:26:28

背景上篇我們講了transformer的模型架構，論文《Attention is all you need》也表明了transformer的效果是比RNN和CNN好的，而在ELMo解讀裏，我們也談到了訓練語言模型再結合具體任務

2020-07-05 05:26:28

背景之前我們解讀了ELMo和OpenAI GPT，我們發現他們直接的比較各有優缺點，不同於OpenAI GPT的單向語言模型，ELMo用的是雙向語言模型，這能更好的捕捉文本語句中上下文的依賴關係，但是特徵提取器方面，ELMo用的

2020-07-05 05:26:28

seq2seq 首先我們介紹下seq2seq，它首次應用在機器翻譯的seq2seq，也就是enoder-decoder架構。論文見《Sequence to Sequence Learning with Neural Network

2020-05-24 08:46:46

背景之前我們提到的NNLM和Word2Vec開闢了詞向量的先河。仔細回顧，我們可以知道，爲了解決統計語言模型存在的稀疏性，平滑等問題，NNLM運用神經網絡對語言模型進行建模，採用輸入若干個詞預測下一個詞，結果發現第一層的embe

2020-05-17 15:04:44