自然語言處理模型之GRU和LSTM網絡模型總結

原創

2020-07-03 11:57

前文中小修爲大家介紹了自然語言模型中LSTM (Long Short-Term Memory)網絡的性質，相對於遞歸神經網絡，LSTM網絡能夠避因爲梯度彌散而帶來的長時間的信息丟失的問題。這裏小修爲大家介紹一種在LSTM基礎上提出的GRU網絡模型。LSTM和GRU (Gated Recurrent Unit)是在處理自然語言中非常流行的兩種網絡模型，小修根據最近幾年的關於這方面的研究介紹一下兩種模型的優劣對比。在介紹之前，我們先回顧一下LSTM模型，之後再介紹GRU模型。

1. LSTM模型

LSTM模型又稱爲長短期記憶網絡，其網絡的結構如下圖所示：

對於LSTM模型，有三個非常重要的門，分別時輸入門，遺忘門以及輸出門。其中輸入門和遺忘門的表達式爲：

其中f表示的遺忘門，i表示的記憶門。而對於記憶細胞狀態的c的更新表達式爲：

其中新的c的中間狀態爲：

輸出門的表達式爲：

其中隱藏層ht的更新公式爲：

其中xt表示的是t時刻網絡的輸入數據，ht表示的隱藏層神經元的激活函數，c是一個記憶單元，U和W都是LSTM模型的參數，或者稱爲權值矩陣，激活函數使用的是sigmoid函數。裏面的具體的每個門的含義大家可以翻閱之前小修對LSTM的介紹文章。

RNN網絡在每一個遞歸時間都會對網絡中的信息進行改寫，而LSTM最核心的思想是能夠通過不同的門來實現決定是否保留網絡中存在的信息，並且當網絡探測到輸入序列中存在非常重要的的特徵，能夠通過細胞狀態的記憶，一直保留很長的時間。

2. GRU網絡模型

GRU網絡要比LSTM網絡簡單，它將忘記門和輸入門合成一個單一的跟新門，同時還混合了細胞狀態和隱藏狀態，雖然只比LSTM少一個門的計算，但是在訓練的數據量很大的時候，GRU能節省很多的時間。如下圖所示：

在GRU模型中隱藏層的狀態的更新由以下方程決定：

其中z和h中間狀態的跟新由下列表達式決定：

在GRU模型中重置門的更新公式爲：

其參數和之前LSTM模型中的參數基本一致。

3. GRU網絡和LSTM網絡模型對比

Bengio等人，對比了LSTM和GRU兩種網絡模型在處理音樂音頻學習的效率，並且和傳統的只有tanh激活函數的RNN網絡進行了對比，如下圖所示：

可以發現LSTM和GRU的差別並不是很大，在有些方面GRU要比LSTM 模型性能要好一些，但是都比tanh網絡模型明顯要好很多(表格中越小越要性能越好)，不過在對LSTM和GRU的選擇方面還是需要根據相應的任務和數據量來進行選擇。

不過在收斂的時間和需要訓練的數據量上，GRU要更勝一籌，畢竟需要訓練的參數要少。

參考內容：

[1] Cho, et al. Learning phrase representation using RNN encoder-decoder for statistical machine translation. 2014

[2] Bengio, et al. A neural probabilistic language model, 2003

[3] Bengio, et al. Empirical evaluation of gated recurrent neural networks on sequence modeling.

原文來自於微信公衆號：自然語言處理技術，

歡迎關注公衆號學習交流

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

我宣佈，這是我找到的史上AI最全論文體系！

在碎片化閱讀充斥眼球的時代，越來越少的人會去關注每篇論文背後的探索和思考。搞AI，不少人都進入一個誤區，那就是隻鑽研自己的代碼是否精進，而沒有注意提升自己的閱讀能力。實際上，一個專業的學術研究員或者AI研究員可能需要花費幾百個小

2024-05-13 21:33:50

攻擊者正在利用AI，對保險公司發起大規模欺詐

保險欺詐一直是保險行業面臨的重要挑戰之一，尤其隨着技術的進步，欺詐者也在不斷更新其手段，利用AI技術，包括生成式模型、機器學習和數據分析工具等欺騙保險公司，而AI技術的應用正成爲他們的新工具，使其犯罪行爲更加隱蔽和複雜，挑戰保險行業的防欺詐

2024-05-10 00:55:17

LoRA微調語言大模型的實用技巧與實踐

隨着人工智能技術的不斷髮展，大型語言模型在各個領域的應用越來越廣泛。然而，大型語言模型的訓練成本高昂，且難以適應不同領域的具體需求。爲了解決這個問題，LoRA微調技術應運而生。本文將介紹LoRA微調語言大模型的實用技巧，幫助讀者更好地應用這

2024-05-09 12:48:45

大模型微調方法總結：LoRA, Adapter, Prefix-tuning, P-tuning, Prompt-tuning

隨着自然語言處理（NLP）技術的不斷髮展，大模型微調（finetune）方法成爲了提高模型性能的關鍵手段。本文將對LoRA、Adapter、Prefix-tuning、P-tuning和Prompt-tuning等主流微調方法進行總結，幫助

2024-05-09 12:48:44

GLM國產大模型訓練加速：高效性能與成本優化的實踐

隨着人工智能技術的不斷進步，大模型的訓練成爲了推動深度學習領域發展的重要力量。然而，傳統的訓練方式往往面臨着性能瓶頸和高昂的成本問題，這使得許多研究者和開發者望而卻步。爲了解決這一難題，我們探索了使用OneFlow框架對GLM國產大模型進行

2024-05-07 23:30:09

大模型微調提升AI應用性能

隨着人工智能技術的不斷髮展和普及，越來越多的領域開始應用AI技術來解決實際問題。其中，大模型作爲一種重要的技術手段，得到了廣泛的應用。然而，如何提高大模型的性能，使其更好地適應各種應用場景，一直是業界關注的焦點。本文將介紹一種有效的技術手段

2024-04-28 11:30:14

LoRA微調語言大模型的實用技巧

一、引言隨着深度學習技術的快速發展，語言大模型在自然語言處理領域取得了顯著的進展。然而，傳統的微調方法通常需要大量的計算資源和時間，對於實際應用來說並不友好。爲了解決這個問題，LoRA微調技術應運而生。LoRA（Low-Rank Adap

2024-04-28 11:30:13

LLaMA 2語言大模型的微調策略：LoRA與全參數選擇

隨着自然語言處理（NLP）技術的飛速發展，大型語言模型（LLMs）在各個領域都展現出了強大的能力。LLaMA 2作爲其中的佼佼者，具有巨大的潛力。然而，如何有效地對LLaMA 2進行微調，以適應特定的任務或數據集，成爲了一個關鍵問題。本文將

2024-04-23 11:29:21

文心大模型“你說我畫”：PaddleHub與PaddleSpeech的協同實踐

在人工智能領域中，自然語言處理和計算機視覺是兩個非常活躍的研究方向。隨着深度學習技術的發展，這兩個領域之間的交叉融合產生了許多令人興奮的應用場景。其中，“你說我畫”就是這樣一個結合自然語言處理和計算機視覺技術的創新應用。 “你說我畫”的核心

2024-04-22 11:29:20

探索時間序列大模型：TimeGPT的魅力與實踐

在數據科學的各個領域中，時間序列分析一直扮演着重要角色。無論是預測股票價格、氣候變化，還是分析醫療數據，時間序列模型都發揮着不可或缺的作用。然而，傳統的時間序列分析方法在處理複雜數據時常常面臨諸多挑戰，如數據稀疏性、非線性關係等。爲了應對這

2024-04-22 11:29:17

01-大語言模型發展

AI大模型的相關的一些基礎知識，一些背景和基礎知識。多模型強應用AI 2.0時代應用開發者的機會。 0 大綱 AI產業的拆解和常見名詞應用級開發者，在目前這樣一個大背景下的一個職業上面的一些機會實戰部分的，做這個agent，即所謂智

2024-04-22 01:12:50

Pinecone: 大模型時代的智能索引與搜索解決方案

隨着人工智能技術的飛速發展，大模型（Large Models）已成爲衆多領域的重要工具。無論是自然語言處理、圖像識別還是其他複雜任務，大模型都展現出了強大的性能。然而，隨着模型規模的不斷擴大，數據量的激增，如何有效地管理、索引和搜索這些模型

2024-04-19 11:29:43

軟件測試從自動化到智能化，大模型開始加入

隨着科技的飛速發展，軟件行業也在不斷地演進和創新。作爲軟件行業的關鍵環節之一，軟件測試行業也在經歷着前所未有的變革。從最初的手動測試，到自動化測試，再到如今的智能化測試，軟件測試行業正在經歷一場深刻的技術革命。在這場革命中，Testin雲測

2024-04-19 00:53:25

深入解析大模型NLP LLaMa

在人工智能和自然語言處理（NLP）領域，LLaMa（Language-Model-driven Learning, aMplification and aDAptation）流程已經成爲處理大規模模型訓練的關鍵技術。它基於語言模型的學習、增

2024-04-18 11:29:54

從零開始學習大模型

隨着人工智能技術的快速發展，大模型已成爲許多領域的熱門話題。然而，大模型的創建並不是一件容易的事情。在本文中，我們將從零開始學習如何創建一個大模型，幫助讀者掌握大模型的創建過程。一、數據收集創建大模型的首要任務是收集數據。數據是大模型的

2024-04-16 11:29:26

24小時熱門文章

最新文章

最新評論文章