深度/機器學習基礎知識要點：RNN、LSTM、GRU

原創

2020-06-27 20:55

RNN(循環神經網絡)

RNN示意圖

$x$ 是一個向量，它表示輸入層的值； $s$ 是一個向量，它表示隱藏層的值； $U$ 是輸入層到隱藏層的權重矩陣； $o$ 也是一個向量，它表示輸出層的值； $V$ 是隱藏層到輸出層的權重矩陣。循環神經網絡的隱藏層的值 $s$ 不僅僅取決於當前這次的輸入 $x$ ，還取決於上一次隱藏層的值 $s$ 。權重矩陣 $W$ 就是隱藏層上一次的值作爲這一次的輸入的權重。

輸出值 ${o}_{t}$ ，是受前面歷次輸入值 ${x}_{t}、{x}_{t-1}、{x}_{t-2}$ 、…影響的，這就是爲什麼循環神經網絡可以往前看任意多個輸入值的原因。
計算公式：
雙向循環神經網絡
- 示意圖
- 計算公式：

LSTM（長短時記憶網絡）

單元狀態(cell state)

新增加的狀態c，稱爲單元狀態(cell state)。我們把上圖按照時間維度展開：

在t時刻，LSTM的輸入有三個：當前時刻網絡的輸入值 $x_t$ 、上一時刻LSTM的輸出值 $h_{t-1}$ 、以及上一時刻的單元狀態 $c_{t-1}$ ；
LSTM的輸出有兩個：當前時刻LSTM輸出值 $h_{t}$ 、和當前時刻的單元狀態 $c_{t}$ 。

用到了門（gate）的概念。門實際上就是一層全連接層，它的輸入是一個向量，輸出是一個0到1之間的實數向量。

LSTM用兩個門來控制單元狀態c的內容，一個是遺忘門（forget gate），它決定了上一時刻的單元狀態 ${c}_{t-1}$ 有多少保留到當前時刻 ${c}_{t}$ ；另一個是輸入門（input gate），它決定了當前時刻網絡的輸入 ${x}_{t}$ 有多少保存到單元狀態 ${c}_{t}$ 。LSTM用輸出門（output gate）來控制單元狀態 ${c}_{t}$ 有多少輸出到LSTM的當前輸出值 ${h}_{t}$ 。

LSTM需要學習的參數共有8組，分別是：遺忘門的權重矩陣 ${W}_{f}$ 和偏置項 ${b}_{f}$ 、輸入門的權重矩陣 ${W}_{i}$ 和偏置項 ${b}_{i}$ 、輸出門的權重矩陣 ${W}_{o}$ 和偏置項 ${b}_{o}$ ，以及計算單元狀態的權重矩陣 ${W}_{c}$ 和偏置項 ${b}_{c}$ 。

LSTM單元結構：
- 遺忘門：
- 輸入門：
- 用於描述當前輸入的單元狀態，它是根據上一次的輸出和本次輸入來計算的：
- 當前時刻的單元狀態
- 輸出門
- LSTM最終的輸出

GRU

GRU 是LSTM 的一個變體，GRU 保持了 LSTM 的效果同時又使結構更加簡單。

GRU 只剩下兩個門，即更新門和重置門。

更新門
用於控制前一時刻的狀態信息被代入到當前狀態的程度，更新門的值越大說明前一時刻的狀態信息帶入越多。
重置門
用於控制忽略前一時刻的狀態信息的程度，重置門的值越小說明忽略得越多。
GUR單元結構

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

5月21日相聚上海張江！與文心大模型一起共建大模型產業應用生態圈

5月21日，文心中國行將走進上海，在張江科學會堂舉行。屆時，政府、企業與高校的相關專家和業界同仁將現場分享生成式人工智能與大模型最新進展，主要圍繞大模型技術如何賦能產業級應用創新展開探討，還有百度風投從投資視角帶來的觀點，讓參會者全方位瞭解

2024-05-17 00:28:21

舌尖上的AI：人工智能技術正在被“端上”餐桌

來源 | 人民數字FINTECH 責編 | 晉兆雨頭圖 | CSDN 下載自視覺中國 #人工智能技術正在被“端上”餐桌四方食事，不過一碗人間煙火。人工智能作爲一門新的技術科學，正在被人間煙火氣“端”上餐桌。人工智能“洗手”

2024-05-13 21:17:25

攻擊者正在利用AI，對保險公司發起大規模欺詐

保險欺詐一直是保險行業面臨的重要挑戰之一，尤其隨着技術的進步，欺詐者也在不斷更新其手段，利用AI技術，包括生成式模型、機器學習和數據分析工具等欺騙保險公司，而AI技術的應用正成爲他們的新工具，使其犯罪行爲更加隱蔽和複雜，挑戰保險行業的防欺詐

2024-05-10 00:55:17

網絡爬蟲安全：90後小夥，用軟件非法搬運他人原創視頻被判刑

央視《今日說法》欄目近日報道了一名程序員開發非法視頻搬運軟件獲利超700多萬，最終獲刑的案例。國內某知名短視頻平臺報警稱，有人在網絡上售賣一款視頻搬運軟件，使用軟件的人可以繞過平臺的審覈機制，一鍵“搬運”竊取他人作品非法轉載投稿。警方調查

2024-05-16 00:19:26

探索大語言模型：理解Self Attention| 京東物流技術團隊

一、背景知識在ChatGPT引發全球關注之後，學習和運用大型語言模型迅速成爲了熱門趨勢。作爲程序員，我們不僅要理解其表象，更要探究其背後的原理。究竟是什麼使得ChatGPT能夠實現如此卓越的問答性能？自注意力機制的巧妙融入無疑是關鍵因素

2024-05-14 23:57:26

GPU 硬件指標說明

流處理器：也叫渲染管、着色器。畫面都是由一個又一個像素點組成的，而流處理器就負責這些像素點的渲染工作； RT核心：光追核心，用作於光線追蹤效果； CUDA 核心和Tensor 核心：CUDA Core和Tensor Core，爲G

2024-05-13 22:35:43

AIGC在京東廣告創意的技術應用

一、前言電商廣告圖片不僅能夠抓住消費者的眼球，還可以傳遞品牌核心價值和故事，建立起與消費者之間的情感聯繫。然而現有的廣告圖片大多依賴人工製作，存在效率和成本的限制。儘管最近AIGC技術取得了卓越的進展，但其在廣告圖片的應

京東雲開發者

2024-05-08 23:24:18

白鯨開源CEO郭煒在2024 DataOps發展大會上獲聘專家

2024年5月15日，白鯨開源CEO郭煒在2024 DataOps發展大會上被正式聘任爲DataOps專家，並獲得了榮譽證書。本次大會由中國通信標準化協會主辦，中關村科學城管委會提供支持，大數據技術標準推進委員會（CCSATC601）承辦，

2024-05-16 11:28:50

共創數字經濟新生態，華爲雲生態領航者·AI先遣隊圓滿落幕

5月9-11日，華爲雲生態“領航者·AI先遣隊”課程班在杭州成功舉辦，本次課程聚焦於AI前沿探索與實踐的高端研修，匯聚了來自華爲雲生態夥伴企業的高層決策者，共同開啓了一場關於智慧升級與生態共建的深度對話。華爲雲生態領航者·AI先

2024-05-16 10:58:48

2024數據標註公司20強排行榜（附榜單）

近日，德本諮詢發佈“2024數據標註公司排行”。數據標註行業作爲人工智能領域的重要組成部分，其需求正在不斷增長。近年來，數據標註行業發展迅速，規模實現了顯著增長。以2023年爲例，該行業的規模已經達到了60.8億元，同比增長了約19.69

2024-05-16 02:09:44

Kimi大模型，加入微信了

哈哈哈，喜大普奔！前段時間發現微信公衆號被開通留言，最近又發現 Kimi大模型現在可以接入微信公衆號了！這意味着我們能夠更加便捷地享受到Kimi智能助手的服務，還代表着我們有了一個免費且好用且穩定且無需翻牆的 AI助

2024-05-13 23:51:55

內嵌專業接口的RISC-V架構MCU，誰家有？

前一陣，蘋果推出了M1處理器，相比關注具體指標，業內其實更關心M1推出後會引領產業往哪個方向發展，不少人的結論是RISC-V會成爲未來芯片發展的熱點，因爲RISC-V有很多巧妙的方法可以提高性能。計算機界泰斗David Patterso

2024-05-13 23:26:39

免費報名|Zabbix受邀出席上海開源技術沙龍，探討開源軟件賦能新質生產力

大家好！5月25日我們將舉辦今年第三期上海開源技術沙龍活動。本次的主題是——開源軟件賦能新質生產力。在上海開源信息技術協會 (SHOpen) 的指導下，隨着活動的持續開展，上海開源技術沙龍獲得了越來越多開發者的關注與

2024-05-13 22:34:43

我宣佈，這是我找到的史上AI最全論文體系！

在碎片化閱讀充斥眼球的時代，越來越少的人會去關注每篇論文背後的探索和思考。搞AI，不少人都進入一個誤區，那就是隻鑽研自己的代碼是否精進，而沒有注意提升自己的閱讀能力。實際上，一個專業的學術研究員或者AI研究員可能需要花費幾百個小

2024-05-13 21:33:50

LoRA微調語言大模型的實用技巧與實踐

隨着人工智能技術的不斷髮展，大型語言模型在各個領域的應用越來越廣泛。然而，大型語言模型的訓練成本高昂，且難以適應不同領域的具體需求。爲了解決這個問題，LoRA微調技術應運而生。本文將介紹LoRA微調語言大模型的實用技巧，幫助讀者更好地應用這

2024-05-09 12:48:45

24小時熱門文章

Garnet：微軟官方基於.NET開源的高性能分佈式緩存存儲數據庫

最新文章

最新評論文章