第一章:
1.信息傳播的模型:
編碼 解碼 信道傳輸
2.翻譯的條件:
不同語言文字的表達能力是等價的,僅僅是編碼的方式有所區別
3.典型案例:
古埃及的羅塞塔碑,通過三種不同的文字記錄
計數系統也是一種編碼形式
古瑪雅人採用20進制,古代中國解碼的方式是乘法,古代羅馬的解碼方式是加減法,古印度人發明了阿拉伯數字(更加的抽象)
中國的象形文字 -> 西方的拼音文字 具體 -> 抽象
常用字短,生僻字長,符合最短編碼原理
4.語言學研究的問題:
(1)語言對 (2)語法對 通過實踐的檢驗,發現(1)種方法更加的有效
第二章:自然語言處理 (從規則到統計)
字母,文字和數字實際上是不同的編碼方式。語言的語法規則是編解碼的算法。
1.機器智能:
圖靈測試:留下了一個問題。
早期科學家研究自然語言侷限在 人類學習語言的方式上,考慮模擬人腦,但人腦結構機器複雜,導致沒有什麼成果。
20世紀70年代開始,開始考慮基於數學模型和統計的方法,自然語言處理開始取得實質性的突破。
所謂的智能:其實都是統計學(任總還是高),門外漢纔會認爲計算機真的擁有了人的智能。
2.從規則到統計:
自然語言的多義性:依靠上下文甚至於常識
20世紀70年代基於統計的核心模型:通信系統加上馬爾科夫模型
前期發展緩慢的原因:計算機的算力不夠+語料不足
在數學意義上自然語言處理的初衷(通信)聯繫在一起
第三章:統計語言模型
計算機處理nlp的基本問題:爲語言這種上下文相關的特性建立數學模型
1.用數學的方法描述語言
判斷詞劃分的序列是否合乎規則,這條路走不通
解決辦法:一個句子劃分的是否合理,通過這個句子出現的可能性來衡量
公式表述:
這個式子告訴我們一個詞出現的概率和它前面所有的詞都是有關的
導致一個問題:儘管前面的概率容易計算,可是後面的概率非常難以計算
簡化問題:假設詞 出現的概率只和它前面的詞 有關(馬爾可夫假設)
公示表述:
對應的統計模型稱爲二元模型(Bigram Model)
核心:如果估計
只需要估計聯合概率和邊緣概率
如果有專業的語料庫,計算相對頻度
根據大數定理,如果統計量足夠,相對頻度等於頻率:
這麼簡單的模型是否有效呢?非常有效
2.統計語言模型的工程訣竅
2.1高階語言模型
常用的是3元模型,空間複雜度和時間複雜度指數增長
侷限性:上下文之間的相關性可能會距離很遠,提高階數也無可奈何。
解決方案:採用其他的長程的依賴性。
2.2 模型的訓練、零概率問題和平滑方法
統計的可靠性問題:大數定理要求足夠多的觀測值
對於樣本不足時的估計:
古德-圖靈估計:在統計中相信可靠地統計數據,而對不可信的統計數據打折扣的一種概率估計方法,同時將打折扣出來的那一小部分給予未看見的事件。
2.3語料的選取問題
訓練數據需要和應用一致,效果纔會更好