機器翻譯—統計建模與深度學習方法—2

第二章 詞法、語法及統計建模基礎

1 問題概述

機器翻譯系統=前/後處理+翻譯引擎。
在這裏插入圖片描述
預處理和後處理是對文字序列進行,即對文字序列進行分詞和詞法分析。

2 概率論基礎

2.1 聯合概率、條件概率、邊緣概率

聯合概率P(A∩B):指多個事件共同發生,每個隨機變量滿足各自條件的概率。
條件概率:
在這裏插入圖片描述
邊緣概率:僅與單個隨機變量有關的概率。例如P(X=a)或P(Y=b)。
三者之間的關係:
在這裏插入圖片描述

2.2 鏈式法則

n個事件同時發生的概率,鏈式法則的公式:
在這裏插入圖片描述
例如:有ABCDE五個事件,同時發生的概率
在這裏插入圖片描述

2.3 貝葉斯法則

全概率公式:
在這裏插入圖片描述
貝葉斯法則:已知P(A|B),求P(B|A)。貝葉斯公式常用於根據已知的結果推斷使之發生的各因素的可能性
在這裏插入圖片描述

2.4 KL距離和熵

熵:對系統無序性的一種度量標準。
nlp領域中,常用來描述文字的信息量大小。此外一個事件的不確定性越高,信息熵越高。
信息熵:量化整個概率分佈中的不確定性或信息量
在這裏插入圖片描述
自信息:用來衡量單一事件發生時所包含的信息多少。處理變量單一取值的情況
在這裏插入圖片描述
分佈越尖銳,熵越低;分佈越均勻,熵越高。
KL距離:用來衡量同一個隨機變量X上有兩個概率分佈P(x)和Q(x)的不同。即相對熵
在這裏插入圖片描述
KL距離具有非負性和不對稱性。
交叉熵:與KL距離的目的相同,用來描述兩個分佈的差異。且交叉熵計算上方便,在機器翻譯中廣泛應用。
在這裏插入圖片描述

3 中文分詞

待續。。。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章