【讀書筆記】數學之美-筆記

隨便總結的,書都看了,總要留下點印記不是

通信

本質就是一個編解碼和傳輸的過程

  • 說話的信道很寬,不需要壓縮
  • 書寫的信道很窄,尤其是古代沒有紙張的時候,需要壓縮,所以就有了文言文

從規則到統計

自然語言處理在過去的30年發生了巨大的變化

  • 自動問答的需求很大程度上被網頁搜索和數據挖掘替代了
  • 研究也從單純的句法分析和語義理解,變成了非常貼近實際應用的機器翻譯、語音識別、文本到數據庫自動生成、數據挖掘和知識的獲取

中文分詞

構建兩個詞表,一個是基本詞表,一個是複合詞表,再根據兩個詞表分表建立兩個語言模型:模型1,模型2,先對句子進行模型1分詞,就得到了小顆粒度的分詞結果,在此基礎上,再用大顆粒度的模型2進行分詞.

  • 基本詞比較穩定,除了會偶爾增加一點新詞之外,一般不需要額外的研究
  • 複合詞增長速度較快,需要不斷完善複合詞的詞典

隱馬爾科夫模型

成功的解決了複雜的語音識別、機器翻譯等問題

  • 隱馬爾科夫模型有兩層,在語音識別上就表現爲:
    • 第一層是:一個詞轉到另外一個詞的概率,這層是隱含的,【轉換概率】
    • 第二層是:拼音生成詞語的概率【生成概率】
  • 隱馬爾科夫模型的兩個必要算法
    • 鮑姆-韋爾奇算法【訓練算法】
    • 維特比算法【解碼算法】

信息的度量和作用

信息的作用在於消除不確定性,自然語言處理的大量問題就是尋找相關的信息,來消除這些不確定性。

  • 信息熵的物理含義是對一個信息系統不確定性的度量
  • 互信息被廣泛用於度量一些語言現象的相關性
  • 相對熵也叫做交叉熵,也用來衡量相關性,但和變量的互信息不同,它用來衡量兩個取值爲正數的的函數的相關性
    • 對於兩個相同的函數,它的相對熵等於零
    • 相對熵越大,兩個函數的差異性也就越大
    • 對於概率分佈或者概率密度函數,如果取值均大於零,相對熵可以度量兩個隨機分佈的差異性

布爾代數和搜索引擎

將所有的關鍵字建立索引,關鍵字的背後爲網頁的鏈接,通過布爾運算(and,or,not),將要需要的結果提取出來,【計算機做布爾運算非常的迅速】

  • 布爾代數將邏輯和數學合二爲一
  • 真理在形式上從來都是簡單的,而不是複雜和含混的

圖論和網絡爬蟲

  • 圖論,廣度優先,深度優先
  • 爬蟲,散列表,也叫hash表,用於記錄是否下載過該信息
  • 一般來說,廣度優先在爬蟲時應用的更爲廣泛

如何確定網頁查詢的相關性

  • TF(Team Frequency):詞頻
  • IDF(Inverse Document Frequency):你問本頻率指數
網頁排名

如果使用TF-IDF加上PageRank算法,那麼給定一個查詢,有關網頁的綜合排名大致由相關性和網頁排名的乘積決定。

成功祕訣

先幫助用戶解決80%的問題,再慢慢解決剩下的20%的問題,是在工業界成功的祕訣之一,許多失敗並不是因爲人不優秀,而是做事情的方法不對,一開始追求大而全的解決方案,之後長時間不能完成,最後不了了之。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章