入門通俗易懂的神經網絡語言模型(NNLM)詳解

原創

2020-06-24 21:23

文章目錄

神經網絡語言模型(NNLM)

神經網絡語言模型(NNLM)

輸入層（投射層）

一個文本，由N個詞語組成，現在呢：想根據前N個詞語來預測第N個詞語是啥？
我們採用的語料庫V(也就是我們最大限度能想到的的所有詞語集合)包含10萬個詞語

詞向量W：是一個one-hot向量，大小=[10W，1]，W(t)表示第t個詞語的one hot（一個元素爲1，其餘全爲0

投影矩陣C：維度[D*V]，V=10W，參數D根據文本大小不同來設定：谷歌測試時選取D=300

計算時：投影矩陣C[300 * 10W] X 詞向量W(t)[10W *1] 得到= 矩陣[300 * 1]

比如根據前3個詞來預測第4個詞語，那麼上述操作會重複三次，得到3個[300*1]的矩陣

將這3個[300*1]的矩陣按行拼接，得到[900x1]的矩陣。

隱藏層

存在一個向量矩陣[Hx1]，H根據文本集合情況設定（谷歌測試時選取H=500）

該層完成的功能主要是全連接！
說通俗一些：把輸入層計算得到的矩陣[900x1]，轉換爲矩陣[Hx1]，完成輸入層到隱藏層的數據傳輸，並且在全連接的過程中存在計算的權重。

最終得到矩陣[500x1]

輸出層

我們的詞語大小爲V=10W，隱藏層計算得到矩陣[500x1]，要將這[500x1]的計算結果轉化爲[10Wx1]，以此來預測第4個詞語是什麼？

得到矩陣[10Wx1]，也就是所謂第4個詞ont-hot，最終經過SoftMax激活函數，選取行向量最大值，就是預測詞語。

計算複雜度

(NxD )+ (NxDxH) + (HxV)

文本詞語集大小N，投影矩陣維度D、隱藏層維度H、詞庫大小V

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

【NLP CS224N筆記】Lecture 12 - Information from parts of words Subword Models

本次梳理基於Datawhale 第12期組隊學習 -CS224n-預訓練模塊詳細課程內容參考(2019)斯坦福CS224n深度學習自然語言處理課程 1. 寫在前面自然語言處理( NLP )是信息時代最重要的技術之一，也是人工智

2020-07-07 14:07:57

【NLP CS224N筆記】Lecture 13 - Contextual Word Representations and Pretraining

本次梳理基於Datawhale 第12期組隊學習 -CS224n-預訓練模塊詳細課程內容參考(2019)斯坦福CS224n深度學習自然語言處理課程 1. 寫在前面自然語言處理( NLP )是信息時代最重要的技術之一，也是人工智

2020-07-07 14:07:57

斯坦福Stanford Parser句法分析工具使用指南

Stanford官網下載緩慢，分享Stanford Parser2016安裝包鏈接: https://pan.baidu.com/s/1DSwY_Njm_9WQFuNisR30Jw 提取碼: d6kf Stanford Parser圖

2020-07-03 15:34:55

cs224n 2019 Lecture 7: Vanishing Gradients and Fancy RNNs

本節課內容概述：本節課主要解釋了梯度消失和梯度爆炸問題以及其他類型的RNN 上節課將的是RNN以及爲什麼RNN適用於語言模型。因爲它可以記住前面的信息。梯度消失問題導致了新RNN的出現：LSTM和GRU 其他修復梯度消失或者梯度爆炸

努力努力再努力_越努力越幸运

2020-07-01 00:11:00

cs224n 2019 Machine Translation, Sequence-to-sequence and Attention

本節課內容：介紹一個新的任務：機器翻譯介紹一個新的神經架構：序列到序列的模型介紹一種新的神經技術：注意力，用於提升序列到序列的模型第一部分：之前的機器翻譯方法 1950s：系統是基於規則實現的，使用一個雙語字典進行映射查詢 199

努力努力再努力_越努力越幸运

2020-07-01 00:11:00

CS224N 2019 Lecture 6: RNN:Language Models and Recurrent Neural Network

本次課主要介紹了兩個模型n-gram和RNN 語言模型語言模型是一個預測一句話中的下一個單詞的任務也就是說，給定單詞[x1,x2,x3,x4...xt]，預測下一個單詞x(t+1)是什麼單詞.x(t+1)是給定詞彙表V={w1,w2,

努力努力再努力_越努力越幸运

2020-07-01 00:11:00

cs224n 2019 Lecture 9: Practical Tips for Final Projects

主要內容：項目的選擇：可以選擇默認的問答項目，也可以自定義項目如何發現自定義項目如何找到數據集門神經網絡序列模型的複習關於機器翻譯的一些話題查看訓練結果和進行評估一、項目的選擇默認項目:在SQuAD上構建一個文本問答系統

努力努力再努力_越努力越幸运

2020-07-01 00:11:00

【NLP CS224N筆記】Assignment 1 - Exploring Word Vectors

作業來源：https://github.com/xixiaoyao/CS224n-winter-together 1. 寫在前面這篇文章是CS224N課程的第一個大作業，主要是對詞向量做了一個探索，並直觀的感受了一下詞嵌入或

2020-06-30 05:05:59

【NLP CS224N筆記】Lecture 2 - Word Vectors2 and Word Senses

本次梳理基於Datawhale 第12期組隊學習 -CS224n-預訓練模塊詳細課程內容參考(2019)斯坦福CS224n深度學習自然語言處理課程 1. 寫在前面自然語言處理( NLP )是信息時代最重要的技術之一，也是人工智

2020-06-30 05:05:59

NLP自然語言處理：文本表示總結 - 上篇word embedding（基於降維、基於聚類、CBOW 、Skip-gram、 NNLM 、TF-ID、GloVe ）

文本表示分類（基於表示方法）離散表示 one-hot表示詞袋模型與TF-ID 分佈式表示基於矩陣的表示方法降維的方法聚類的方法基於神經網絡的表示方法 NNLM CBOW Skip-gram GloVe ELMo GPT

陈宸-研究僧

2020-06-29 14:29:54

關於batch normalization和layer normalization的理解

目錄一、batch normalization和layer normalization的動機二、BN和LN的框架原理 2.1BN和LN的具體操作原理 2.2BN和LN的優點和不足 2.3BN和LN的不同 2.4BN和LN的實例代碼展示

2020-06-29 11:55:50

【NLP CS224N筆記】Lecture 1 - Introduction and Word Vectors

本次梳理基於Datawhale 第12期組隊學習 -CS224n-預訓練模塊詳細課程內容參考(2019)斯坦福CS224n深度學習自然語言處理課程 1. 寫在前面自然語言處理( NLP )是信息時代最重要的技術之一，也是人工智

2020-06-25 01:40:40

自然語言處理-1-介紹

自然語言處理-1-介紹零、開始的話一、NLP是什麼（一）NLP=NLU+NLG（二）NLP的困難（三）經典應用場景（四）NLP技術的四個維度鏈接：[ 全文章目錄 ] 零、開始的話首先要說聲對不起，咕咕咕了這麼久也沒更新p

2020-06-25 01:23:29

gensim.models.LdaModel建立新聞的LDA模型並測試，附代碼和文本數據

參考 https://github.com/DengYangyong/LDA_gensim 文本數據新聞數據：news_train.txt 預處理後文本：news_train_jieba.txt stopwords停用詞：new

2020-06-24 21:23:13

sklearn.feature_extraction.text中常見 Vectorizer 使用方法以及Tf–idf 值獲取

對於在tf-idf進行關鍵字提取的過程中，Scikit-learn提供了TFIDF算法的相關函數，本文主要用到了sklearn.feature_extraction.text下的TfidfTransformer和CountVectoriz

2020-06-24 21:23:13

24小時熱門文章

最新文章

最新評論文章