數學之美讀書筆記

  1. 早期數字並沒有書寫的形式,而是掰手指,這就是我們今天使用十進制的原因。
  2. 古印度人發明了包括0在內的10個阿拉伯數字,只是歐洲人並不知道這些數字的真正發明人是印度人,而把功勞給了“二道販子”阿拉伯人。阿拉伯數字或者說印度數字的革命性不僅在於它的簡潔有效,而且標誌着數字和文字的分離。這在客觀上讓自然語言的研究和數學在幾千年裏沒有重複的軌跡,而且越走越遠。
  3. 從象形文字到拼音文字是一個飛躍,因爲人類在描述物體的方式上,從物體的外表到抽象的概念,同時不自覺地採用了對信息的編碼。
  4. 哈夫曼編碼(最短編碼原理)的方法:赫夫曼編碼的具體方法:先按出現的概率大小排隊,把兩個最小的概率相加,作爲新的概率 和剩餘的概率重新排隊,再把最小的兩個概率相加,再重新排隊,直到最後變成1。每次相 加時都將“0”和“1”賦與相加的兩個概率,讀出時由該符號開始一直走到最後的“1”, 將路線上所遇到的“0”和“1”按最低位到最高位的順序排好,就是該符號的赫夫曼編碼。
    哈夫曼編碼如何來實現數據的壓縮和解壓縮的呢?
    哈夫曼編碼是一種變長編碼.它根據字符出現的概率來構造平均長度最短的編碼.換句話說如果一個字符在一段文檔當中出現的次數多,它的編碼就相應的短,如果一個字符在一段文檔當中出現的次數少,它的編碼就相應的長.當編碼中,各碼字的長度嚴格按照對應符號出現的概率大小進行逆序排列時,則編碼的平均長度是最小的.
  5. 在羅馬體系的文字中,總體來講,常用字短,生僻字長。而在意型文字中,也是類似,大多數用字筆畫少,而生僻字筆畫多,這完全符合信息論中的最短編碼原理。
  6. 由於古代記錄載體(龜殼、石碑、竹簡)資源有限,因此要惜墨如金,這就使得我們的古文非常簡潔,但是非常難懂,而同時期的口語卻和今天的白話差別不大,語句較長但是易懂。這種現象非常符合信息科學的一些基本原理,就是在通信時,如果信道較寬,信息不必壓縮就可以直接傳遞;而如果信道很窄,信息在傳遞前就需要儘可能地壓縮,然後在接收端進行解壓縮。在古代,兩個人講話說得快是一個寬信道,無需壓縮;書寫來得慢是一個窄信道,需要壓縮。將日常的白話口語寫成精簡的文言文本身是信道壓縮的過程,而將文言文解釋清楚是解壓縮的過程。
  7. 雖然做事認真的猶太人要求在抄寫《聖經》時,要虔誠並且打起十二分精神,尤其是每寫到“上帝”(God和Lord)這個詞時要去洗手祈禱,但是抄寫錯誤還是難以避免。於是猶太人發明了一種類似於我們今天計算機和通信中校驗碼的方法。他們把每個希伯來字母對應於一個數字,這樣每行字母加起來便得到一個特殊的數字,這個數字便成了這一行的校驗碼。
  8. 這些今天自然語言處理學者們研究的問題,我們的祖先在設計語言的時候其實已經遇到了,並且用類似的方法解決了,雖然他們的認識大多數是自發的,而不是自覺的。他們過去遵循的法則和我們今天探求的研究方法背後有着共同的東西,這就是數學規律。
  9. 語言的數學本質:任何一種語言都是一種編碼的方式,而語言的語法規則是編解碼的算法。
  10. 香農不必得什麼圖靈獎,作爲信息論的發明人,他在科學史上的地位和圖靈是相當的,而且通信領域的最高獎就是以他的名字發明的。
  11. 那時候學術界對人工智能和自然語言理解的普遍認識是這樣的:要讓機器完成翻譯或者語音識別這樣只有人類才能做的事情,就必須先讓計算機理解自然語言,而做到這一點就必須讓計算機有類似我們人類這樣的智能。在人工智能領域,包括自然語言處理領域,後來把這樣的方法論稱作“鳥飛派”,也就是看看鳥是怎樣飛的,就能模仿鳥造出飛機,而不需要了解空氣動力學。事實上,我們知道懷特兄弟發明飛機靠的是空氣動力學而不是仿生學。在機器翻譯和語音識別領域之外的人依然錯誤地認爲這兩個應用是靠計算機理解了自然語言而完成的。事實上,它們全都靠得是數學,更準確地說是靠統計。
  12. 基於統計的方法的核心模型時通信系統加隱含馬爾可夫模型,這個系統的輸入和輸出都是一維的符號序列,而且保持原有的次序,最早獲得成功的語音識別是如此,接下來第二個獲得成功的詞性分析也是如此。但在句法分析和機器翻譯中,這個方法就不太管用了。只有出現了基於有向圖的統計模型才能很好地解決複雜的句法分析問題。
  13. 基於統計的自然語言處理方法,在數學模型上和通信是相通的,甚至就是相同的。
  14. 統計語言模型是今天所有自然語言處理的基礎。
  15. 數學的精彩之處在於簡單的模型可以幹大事。
  16. 在數理統計中,我們之所以敢於用對採樣數據的觀察結果來預測概率,是因爲有大數定理在背後做支持,他的要求是有足夠的觀測值。
  17. 訓練統計語言模型的藝術就在於解決好統計樣本不足時的概率估計問題。
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章