自然語言處理（九）——數據平滑

原創

文以天

2020-07-07 03:14

一、概念

什麼是數據平滑？我通過一個例子來解釋一下。假設有如下語料庫：

{

今天天氣不錯，

天氣晴朗，

晴朗的天氣，

}

如果要計算句子s=“晴朗天氣”的概率（用二元語法模型，自然語言處理（七）已經介紹過），有如下計算過程。

p(天氣 | 晴朗) = c（晴朗天氣）/ c(晴朗) = $\frac{0}{2}$ = 0

顯然上面計算得到的概率不怎麼準確，晴朗天氣總有出現的可能，最起碼概率應該大於0。

爲了解決這種問題，數據平滑就有了用武之地，數據平滑的作用把概率爲0的變爲概率較小的非0概率。最後可能還有一個疑問，句子的概率是0就0唄，爲什麼要平滑？實際上在語音識別中如果識別到句子的概率是0，那麼就識別失敗了，不管如何都要識別出一個結果，所以不能讓句子的概率成爲0。

知道了數據平滑的目的和用途，就該瞭解，數據平滑到底怎麼個平滑？怎麼消除0概率？其實平滑的方法有很多，接下來介紹一些常用方法。

二、數據平滑方法

加1法：這個方法是用於n元語法模型的比較簡單的方法，就是計算頻率時，每個二元語法出現的次數加1。公式如下：

上面的 |V| 指的是所有不同基元的個數，對下面這個語料庫來說：

{

今天天氣不錯，

天氣晴朗，

晴朗的天氣，

}

|V| = 5。這時候採用平滑的方法要計算句子s=“晴朗天氣”的概率：

p( 天氣 | <BOS> ) = $\frac{1+1}{5+3} = \frac{1}{4}$

p( 天氣 | 晴朗 ) = $\frac{1+0}{5+2} = \frac{1}{7}$

p( <EOS> | 天氣 ) = $\frac{1+1}{5+3}=\frac{1}{4}$

因此，這是句子s出現的概率爲p(s) = $\frac{1}{4}\times \frac{1}{7}\times\frac{1}{4}=\frac{1}{112}$ 。通過數據平滑，就解決了概率爲0問題。不過加1法算出的概率有時候並不準確，甚至於原始求概率相差較大，因此，又出現了其他的方法來解決。

加法平滑法：同上面的加1法類似，這個方法只不過是加一個 $\delta$ ，且 $0\leqslant \delta \leqslant 1$ 。這個 $\delta$ 的值並沒法求，可以把它當做一個超參數。

古德—圖靈估計法：這個計算方法，要改變出現r次的n元語法爲r*次。 $r* = (r+1) \frac{n_{r+1}}{n_{r}}$ 。這裏的 $n_{r}$ 是指訓練語料庫中恰好出現r次的n元語法的數目。出現r次的n元語法的概率： $p_{r} = \frac{p*}{N}$ 。其中 $N = \sum_{r=1}^{\infty }n_{r}\times r$ 。這些公式的推算這裏就不加證明了，這些都是最後推出的結果可以直接用來計算。下面這個例子是教材上的例子。這裏就不一一推敲了。