原创 數學之美系列六:圖論和網絡爬蟲 (Web Crawlers)

[離散數學是當代數學的一個重要分支,也是計算機科學的數學基礎。它包括數理邏輯、集合論、圖論和近世代數四個分支。數理邏輯基於布爾運算,我們已經介紹過了。這裏我們介紹圖論和互聯網自動下載工具網絡爬蟲 (Web Crawlers) 之間的關係。

原创 數學之美系列三:隱含馬爾可夫模型在語言處理中的應用

前言:隱含馬爾可夫模型是一個數學模型,到目前爲之,它一直被認爲是實現快速精確的語音識別系統的最成功的方法。複雜的語音識別問題通過隱含馬爾可夫模型能非常簡單地被表述、解決,讓我不由由衷地感嘆數學模型之妙。自然語言是人類交流信息的工具。很多自

原创 數學之美系列十三:信息指紋及其應用

任何一段信息文字,都可以對應一個不太長的隨機數,作爲區別它和其它信息的指紋(Fingerprint)。只要算法設計的好,任何兩段信息的指紋都很難重複,就如同人類的指紋一樣。信息指紋在加密、信息壓縮和處理中有着廣泛的應用。 我們在圖論和網絡

原创 數學之美系列七:信息論在信息處理中的應用

我們已經介紹了信息熵,它是信息論的基礎,我們這次談談信息論在自然語言處理中的應用。 先看看信息熵和語言模型的關係。我們在系列一中談到語言模型時,沒有講如何定量地衡量一個語言模型的好壞,當然,讀者會很自然地想到,既然語言模型能減少語音識別和