機器翻譯—統計建模與深度學習方法—2

原創

lakomi

2020-07-07 03:09

機器翻譯閱讀筆記-2

第二章詞法、語法及統計建模基礎

3 中文分詞

第二章詞法、語法及統計建模基礎

1 問題概述

機器翻譯系統=前/後處理+翻譯引擎。

預處理和後處理是對文字序列進行，即對文字序列進行分詞和詞法分析。

2 概率論基礎

2.1 聯合概率、條件概率、邊緣概率

聯合概率P(A∩B)：指多個事件共同發生，每個隨機變量滿足各自條件的概率。
條件概率：

邊緣概率：僅與單個隨機變量有關的概率。例如P(X=a)或P(Y=b)。
三者之間的關係：

2.2 鏈式法則

n個事件同時發生的概率，鏈式法則的公式：

例如：有ABCDE五個事件，同時發生的概率

2.3 貝葉斯法則

全概率公式：

貝葉斯法則：已知P(A|B)，求P(B|A)。貝葉斯公式常用於根據已知的結果推斷使之發生的各因素的可能性

2.4 KL距離和熵

熵：對系統無序性的一種度量標準。
nlp領域中，常用來描述文字的信息量大小。此外一個事件的不確定性越高，信息熵越高。
信息熵：量化整個概率分佈中的不確定性或信息量

自信息：用來衡量單一事件發生時所包含的信息多少。處理變量單一取值的情況

分佈越尖銳，熵越低；分佈越均勻，熵越高。
KL距離：用來衡量同一個隨機變量X上有兩個概率分佈P(x)和Q(x)的不同。即相對熵

KL距離具有非負性和不對稱性。
交叉熵：與KL距離的目的相同，用來描述兩個分佈的差異。且交叉熵計算上方便，在機器翻譯中廣泛應用。

3 中文分詞

待續。。。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

機器翻譯—統計建模與深度學習方法—2

機器翻譯閱讀筆記-2

第二章詞法、語法及統計建模基礎

1 問題概述

2 概率論基礎

2.1 聯合概率、條件概率、邊緣概率

2.2 鏈式法則

2.3 貝葉斯法則

2.4 KL距離和熵

3 中文分詞

【面試準備】又一次失敗的面試經歷，題目離譜～資深軟件測試工程師

dotnet 8 版本與銀河麒麟V10和UOS系統的 glibc 兼容性

python nltk——學習分類文本

機器翻譯—統計建模與深度學習方法—2

python nltk學習——分類和標註詞彙

python nltk學習

win10下python安裝feedparser的多種方法

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結

機器翻譯—統計建模與深度學習方法—2

機器翻譯閱讀筆記-2

第二章 詞法、語法及統計建模基礎

1 問題概述

2 概率論基礎

2.1 聯合概率、條件概率、邊緣概率

2.2 鏈式法則

2.3 貝葉斯法則

2.4 KL距離和熵

3 中文分詞

第二章詞法、語法及統計建模基礎