第一章：

1.信息傳播的模型：

編碼解碼信道傳輸

2.翻譯的條件：

不同語言文字的表達能力是等價的，僅僅是編碼的方式有所區別

3.典型案例：

古埃及的羅塞塔碑，通過三種不同的文字記錄

計數系統也是一種編碼形式

古瑪雅人採用20進制，古代中國解碼的方式是乘法，古代羅馬的解碼方式是加減法，古印度人發明了阿拉伯數字（更加的抽象）

中國的象形文字 -> 西方的拼音文字具體 -> 抽象

常用字短，生僻字長，符合最短編碼原理

4.語言學研究的問題：

（1）語言對（2）語法對通過實踐的檢驗，發現（1)種方法更加的有效

第二章：自然語言處理（從規則到統計）

字母，文字和數字實際上是不同的編碼方式。語言的語法規則是編解碼的算法。

1.機器智能：

圖靈測試：留下了一個問題。

早期科學家研究自然語言侷限在人類學習語言的方式上，考慮模擬人腦，但人腦結構機器複雜，導致沒有什麼成果。

20世紀70年代開始，開始考慮基於數學模型和統計的方法，自然語言處理開始取得實質性的突破。

所謂的智能：其實都是統計學（任總還是高），門外漢纔會認爲計算機真的擁有了人的智能。

2.從規則到統計：

自然語言的多義性：依靠上下文甚至於常識

20世紀70年代基於統計的核心模型：通信系統加上馬爾科夫模型

前期發展緩慢的原因：計算機的算力不夠+語料不足

在數學意義上自然語言處理的初衷（通信）聯繫在一起

第三章：統計語言模型

計算機處理nlp的基本問題：爲語言這種上下文相關的特性建立數學模型

1.用數學的方法描述語言

判斷詞劃分的序列是否合乎規則，這條路走不通

解決辦法：一個句子劃分的是否合理，通過這個句子出現的可能性來衡量

公式表述：

$P(S)=P(w_{1},w_{2},...,w_{n})$

$=P(w_{1})P(w_{2}|w_{1})P(w_{3}|w_{1}w_{2})...P(w_{n}|w_{1}w_{2},...w_{n-1})$

這個式子告訴我們一個詞出現的概率和它前面所有的詞都是有關的

導致一個問題：儘管前面的概率容易計算，可是後面的概率非常難以計算

簡化問題：假設詞 $w{_i}$ 出現的概率只和它前面的詞 $w_{i-1}$ 有關（馬爾可夫假設）

公示表述：

$P(s)=P(w_{1})P(w_{2}|w_{1})P(w_{3}|w_{2})...P(w_{n}|w_{n-1})$

對應的統計模型稱爲二元模型（Bigram Model）

核心：如果估計 $P(w_{i}|w_{i-1})$

$P(w_{i}|w_{i-1})=\frac{P(w_{i-1}w_{i})}{P(w_{i-1})}$

只需要估計聯合概率 $P(w_{i-1}w_{i})$ 和邊緣概率 $P(w_{i-1})$

如果有專業的語料庫，計算相對頻度

$f(w_{i-1}w_{i})=\frac{\bullet w_{i-1}w_{i}}{\bullet All }$

$f(w_{i-1})=\frac{\bullet w_{i-1}}{\bullet All}$

根據大數定理，如果統計量足夠，相對頻度等於頻率：

$P(w_{i-1}w_{i})\approx \frac{\bullet w_{i-1}w_{i}}{\bullet All }$

$P(w_{i-1})\approx \frac{\bullet w_{i-1}}{\bullet All}$

$P(w_{i}|w_{i-1})\approx \frac{\bullet (w_{i-1}w_{i})}{\bullet (w_{i-1})}$

這麼簡單的模型是否有效呢？非常有效

2.統計語言模型的工程訣竅

2.1高階語言模型

常用的是3元模型，空間複雜度和時間複雜度指數增長

侷限性：上下文之間的相關性可能會距離很遠，提高階數也無可奈何。

解決方案：採用其他的長程的依賴性。

2.2 模型的訓練、零概率問題和平滑方法

統計的可靠性問題：大數定理要求足夠多的觀測值

對於樣本不足時的估計：

古德-圖靈估計：在統計中相信可靠地統計數據，而對不可信的統計數據打折扣的一種概率估計方法，同時將打折扣出來的那一小部分給予未看見的事件。

2.3語料的選取問題

訓練數據需要和應用一致，效果纔會更好

數學之美

第一章：

第二章：自然語言處理（從規則到統計）

第三章：統計語言模型

通過f-string編寫簡潔高效的Python格式化輸出代碼

工作中用到的腳本合集

微服務實踐Aspire項目發佈到遠程k8s集羣

[轉帖]20個常用的Linux工具命令

[轉帖]PostgreSQL從小白到高手教程 - 第46講：poc-tpch測試

24-5-18 X

最優配餐 201409-4

概率題

201403-4 無線網絡

概率論

機試題

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結

數學之美

第一章：

第二章：自然語言處理 （從規則到統計）

第三章：統計語言模型

第二章：自然語言處理（從規則到統計）