第二章 詞法、語法及統計建模基礎
1 問題概述
機器翻譯系統=前/後處理+翻譯引擎。
預處理和後處理是對文字序列進行,即對文字序列進行分詞和詞法分析。
2 概率論基礎
2.1 聯合概率、條件概率、邊緣概率
聯合概率P(A∩B):指多個事件共同發生,每個隨機變量滿足各自條件的概率。
條件概率:
邊緣概率:僅與單個隨機變量有關的概率。例如P(X=a)或P(Y=b)。
三者之間的關係:
2.2 鏈式法則
n個事件同時發生的概率,鏈式法則的公式:
例如:有ABCDE五個事件,同時發生的概率
2.3 貝葉斯法則
全概率公式:
貝葉斯法則:已知P(A|B),求P(B|A)。貝葉斯公式常用於根據已知的結果推斷使之發生的各因素的可能性
2.4 KL距離和熵
熵:對系統無序性的一種度量標準。
nlp領域中,常用來描述文字的信息量大小。此外一個事件的不確定性越高,信息熵越高。
信息熵:量化整個概率分佈中的不確定性或信息量
自信息:用來衡量單一事件發生時所包含的信息多少。處理變量單一取值的情況
分佈越尖銳,熵越低;分佈越均勻,熵越高。
KL距離:用來衡量同一個隨機變量X上有兩個概率分佈P(x)和Q(x)的不同。即相對熵
KL距離具有非負性和不對稱性。
交叉熵:與KL距離的目的相同,用來描述兩個分佈的差異。且交叉熵計算上方便,在機器翻譯中廣泛應用。
3 中文分詞
待續。。。