數學之美

第一章:

1.信息傳播的模型:

編碼 解碼 信道傳輸

 

2.翻譯的條件:

不同語言文字的表達能力是等價的,僅僅是編碼的方式有所區別

 

3.典型案例:

古埃及的羅塞塔碑,通過三種不同的文字記錄

 

計數系統也是一種編碼形式

古瑪雅人採用20進制,古代中國解碼的方式是乘法,古代羅馬的解碼方式是加減法,古印度人發明了阿拉伯數字(更加的抽象)

中國的象形文字  -> 西方的拼音文字     具體 -> 抽象

常用字短,生僻字長,符合最短編碼原理

 

4.語言學研究的問題:

   (1)語言對 (2)語法對   通過實踐的檢驗,發現(1)種方法更加的有效

 

第二章:自然語言處理 (從規則到統計)

字母,文字和數字實際上是不同的編碼方式。語言的語法規則是編解碼的算法。

1.機器智能:

圖靈測試:留下了一個問題。

早期科學家研究自然語言侷限在 人類學習語言的方式上,考慮模擬人腦,但人腦結構機器複雜,導致沒有什麼成果。

20世紀70年代開始,開始考慮基於數學模型和統計的方法,自然語言處理開始取得實質性的突破。

 

所謂的智能:其實都是統計學(任總還是高),門外漢纔會認爲計算機真的擁有了人的智能。

 

2.從規則到統計:

自然語言的多義性:依靠上下文甚至於常識

20世紀70年代基於統計的核心模型:通信系統加上馬爾科夫模型

前期發展緩慢的原因:計算機的算力不夠+語料不足

在數學意義上自然語言處理的初衷(通信)聯繫在一起

 

第三章:統計語言模型

計算機處理nlp的基本問題:爲語言這種上下文相關的特性建立數學模型

1.用數學的方法描述語言

判斷詞劃分的序列是否合乎規則,這條路走不通

解決辦法:一個句子劃分的是否合理,通過這個句子出現的可能性來衡量

公式表述:

P(S)=P(w_{1},w_{2},...,w_{n})

          =P(w_{1})P(w_{2}|w_{1})P(w_{3}|w_{1}w_{2})...P(w_{n}|w_{1}w_{2},...w_{n-1})

這個式子告訴我們一個詞出現的概率和它前面所有的詞都是有關的

導致一個問題:儘管前面的概率容易計算,可是後面的概率非常難以計算

 

簡化問題:假設詞 w{_i} 出現的概率只和它前面的詞 w_{i-1} 有關(馬爾可夫假設)

公示表述:

P(s)=P(w_{1})P(w_{2}|w_{1})P(w_{3}|w_{2})...P(w_{n}|w_{n-1})

對應的統計模型稱爲二元模型(Bigram Model)

 

核心:如果估計P(w_{i}|w_{i-1})

P(w_{i}|w_{i-1})=\frac{P(w_{i-1}w_{i})}{P(w_{i-1})}

只需要估計聯合概率P(w_{i-1}w_{i})邊緣概率P(w_{i-1})

 

如果有專業的語料庫,計算相對頻度

f(w_{i-1}w_{i})=\frac{\bullet w_{i-1}w_{i}}{\bullet All }

f(w_{i-1})=\frac{\bullet w_{i-1}}{\bullet All}

 

根據大數定理,如果統計量足夠,相對頻度等於頻率:

P(w_{i-1}w_{i})\approx \frac{\bullet w_{i-1}w_{i}}{\bullet All }

P(w_{i-1})\approx \frac{\bullet w_{i-1}}{\bullet All}

P(w_{i}|w_{i-1})\approx \frac{\bullet (w_{i-1}w_{i})}{\bullet (w_{i-1})}

這麼簡單的模型是否有效呢?非常有效

2.統計語言模型的工程訣竅

   2.1高階語言模型

        常用的是3元模型,空間複雜度和時間複雜度指數增長

        侷限性:上下文之間的相關性可能會距離很遠,提高階數也無可奈何。

       解決方案:採用其他的長程的依賴性。

  2.2 模型的訓練、零概率問題和平滑方法

      統計的可靠性問題:大數定理要求足夠多的觀測值

     對於樣本不足時的估計:

      古德-圖靈估計:在統計中相信可靠地統計數據,而對不可信的統計數據打折扣的一種概率估計方法,同時將打折扣出來的那一小部分給予未看見的事件。

2.3語料的選取問題

訓練數據需要和應用一致,效果纔會更好

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章