語言模型及RNN模型

原創

2020-02-23 16:57

語言模型

一段自然語言文本可以看作是一個離散時間序列，給定一個長度爲 $T$ 的詞的序列 $w_1, w_2, \ldots, w_T$ ，語言模型的目標就是評估該序列是否合理，即計算該序列的概率：

$P(w_1, w_2, \ldots, w_T).$

語言模型

假設序列 $w_1, w_2, \ldots, w_T$ 中的每個詞是依次生成的，我們有

例如，一段含有4個詞的文本序列的概率

$P(w_1, w_2, w_3, w_4) = P(w_1) P(w_2 \mid w_1) P(w_3 \mid w_1, w_2) P(w_4 \mid w_1, w_2, w_3).$

語言模型的參數就是詞的概率以及給定前幾個詞情況下的條件概率。設訓練數據集爲一個大型文本語料庫，如維基百科的所有條目，詞的概率可以通過該詞在訓練數據集中的相對詞頻來計算，例如， $w_1$ 的概率可以計算爲：

其中 $n(w_1)$ 爲語料庫中以 $w_1$ 作爲第一個詞的文本的數量， $n$ 爲語料庫中文本的總數量。

類似的，給定 $w_1$ 情況下， $w_2$ 的條件概率可以計算爲：

其中 $n(w_1, w_2)$ 爲語料庫中以 $w_1$ 作爲第一個詞， $w_2$ 作爲第二個詞的文本的數量。

n元語法

序列長度增加，計算和存儲多個詞共同出現的概率的複雜度會呈指數級增加。 $n$ 元語法通過馬爾可夫假設簡化模型，馬爾科夫假設是指一個詞的出現只與前面 $n$ 個詞相關，即 $n$ 階馬爾可夫鏈（Markov chain of order $n$ ），如果 $n=1$ ，那麼有 $P(w_3 \mid w_1, w_2) = P(w_3 \mid w_2)$ 。基於 $n-1$ 階馬爾可夫鏈，我們可以將語言模型改寫爲

$P(w_1, w_2, \ldots, w_T) = \prod_{t=1}^T P(w_t \mid w_{t-(n-1)}, \ldots, w_{t-1}) .$

以上也叫 $n$ 元語法（ $n$ -grams），它是基於 $n - 1$ 階馬爾可夫鏈的概率語言模型。例如，當 $n=2$ 時，含有4個詞的文本序列的概率就可以改寫爲：

循環神經網絡

本節介紹循環神經網絡，下圖展示瞭如何基於循環神經網絡實現語言模型。我們的目的是基於當前的輸入與過去的輸入序列，預測序列的下一個字符。循環神經網絡引入一個隱藏變量 $H$ ，用 $H_{t}$ 表示 $H$ 在時間步 $t$ 的值。 $H_{t}$ 的計算基於 $X_{t}$ 和 $H_{t-1}$ ，可以認爲 $H_{t}$ 記錄了到當前字符爲止的序列信息，利用 $H_{t}$ 對序列的下一個字符進行預測。

循環神經網絡的構造

我們先看循環神經網絡的具體構造。假設 $\boldsymbol{X}_t \in \mathbb{R}^{n \times d}$ 是時間步 $t$ 的小批量輸入， $\boldsymbol{H}_t \in \mathbb{R}^{n \times h}$ 是該時間步的隱藏變量，則：

$\boldsymbol{H}_t = \phi(\boldsymbol{X}_t \boldsymbol{W}_{xh} + \boldsymbol{H}_{t-1} \boldsymbol{W}_{hh} + \boldsymbol{b}_h).$

其中， $\boldsymbol{W}_{xh} \in \mathbb{R}^{d \times h}$ ， $\boldsymbol{W}_{hh} \in \mathbb{R}^{h \times h}$ ， $\boldsymbol{b}_{h} \in \mathbb{R}^{1 \times h}$ ， $\phi$ 函數是非線性激活函數。由於引入了 $\boldsymbol{H}_{t-1} \boldsymbol{W}_{hh}$ ， $H_{t}$ 能夠捕捉截至當前時間步的序列的歷史信息，就像是神經網絡當前時間步的狀態或記憶一樣。由於 $H_{t}$ 的計算基於 $H_{t-1}$ ，上式的計算是循環的，使用循環計算的網絡即循環神經網絡（recurrent neural network）。

在時間步 $t$ ，輸出層的輸出爲：

$\boldsymbol{O}_t = \boldsymbol{H}_t \boldsymbol{W}_{hq} + \boldsymbol{b}_q.$

其中 $\boldsymbol{W}_{hq} \in \mathbb{R}^{h \times q}$ ， $\boldsymbol{b}_q \in \mathbb{R}^{1 \times q}$ 。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

語言模型及RNN模型

語言模型

語言模型

n元語法

循環神經網絡

循環神經網絡的構造

使用c#強大的表達式樹實現對象的深克隆之解決循環引用的問題

GPT-4o 引領人機交互新風向，向量數據庫賽道沸騰了

free AI online tools All In One

痞子衡嵌入式：恩智浦i.MX RT1xxx系列MCU啓動那些事（12.A）- uSDHC eMMC啓動時間(RT1170)

基於Ubuntu-22.04安裝K8s-v1.28.2實驗（二）使用kube-vip實現集羣VIP訪問

企業大模型如何成爲自己數據的“百科全書”？

本地SSL證書過期輸入命令在IIS自動生成

.NET週刊【5月第2期 2024-05-12】

基於Ubuntu-22.04安裝K8s-v1.28.2實驗（一）部署K8s

基於Ubuntu-22.04安裝K8s-v1.28.2實驗（三）數據卷掛載NFS（網絡文件系統）

CentOS7系統編譯Bitcoin-core

區塊鏈性能評價工具Hyperledger Caliper

梯度消失、梯度爆炸

理解多層感知機

深入學習深度學習——線性迴歸

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結