【讀書筆記】數學之美-筆記

本質就是一個編解碼和傳輸的過程

自然語言處理在過去的30年發生了巨大的變化

構建兩個詞表，一個是基本詞表，一個是複合詞表，再根據兩個詞表分表建立兩個語言模型：模型1，模型2，先對句子進行模型1分詞，就得到了小顆粒度的分詞結果，在此基礎上，再用大顆粒度的模型2進行分詞.

成功的解決了複雜的語音識別、機器翻譯等問題

隱馬爾科夫模型有兩層，在語音識別上就表現爲:
- 第一層是：一個詞轉到另外一個詞的概率，這層是隱含的，【轉換概率】
- 第二層是：拼音生成詞語的概率【生成概率】
隱馬爾科夫模型的兩個必要算法
- 鮑姆-韋爾奇算法【訓練算法】
- 維特比算法【解碼算法】

信息的作用在於消除不確定性，自然語言處理的大量問題就是尋找相關的信息，來消除這些不確定性。

信息熵的物理含義是對一個信息系統不確定性的度量
互信息被廣泛用於度量一些語言現象的相關性
相對熵也叫做交叉熵，也用來衡量相關性，但和變量的互信息不同，它用來衡量兩個取值爲正數的的函數的相關性
- 對於兩個相同的函數，它的相對熵等於零
- 相對熵越大，兩個函數的差異性也就越大
- 對於概率分佈或者概率密度函數，如果取值均大於零，相對熵可以度量兩個隨機分佈的差異性

將所有的關鍵字建立索引，關鍵字的背後爲網頁的鏈接，通過布爾運算（and，or，not），將要需要的結果提取出來，【計算機做布爾運算非常的迅速】

如果使用TF-IDF加上PageRank算法，那麼給定一個查詢，有關網頁的綜合排名大致由相關性和網頁排名的乘積決定。

先幫助用戶解決80%的問題，再慢慢解決剩下的20%的問題，是在工業界成功的祕訣之一，許多失敗並不是因爲人不優秀，而是做事情的方法不對，一開始追求大而全的解決方案，之後長時間不能完成，最後不了了之。