原创 數學之美 系列七 -- 信息論在信息處理中的應用

 發表者:吳軍, Google 研究員 我們已經介紹了信息熵,它是信息論的基礎,我們這次談談信息論在自然語言處理中的應用。先看看信息熵和語言模型的關係

原创 數學之美系列 4 -- 怎樣度量信息?

 發表者:吳軍,Google 研究員前言: Google 一直以 “整合全球信息,讓人人能獲取,使人人能受益” 爲使命。那麼究竟每一條信息應該怎樣度量

原创 數學之美 系列二 -- 談談中文分詞

 發表者: 吳軍, Google 研究員 談談中文分詞----- 統計語言模型在中文處理中的一個應用上回我們談到利用統計語言模型進行語言處理,由於模型

原创 數學之美系列六 -- 圖論和網絡爬蟲 (Web Crawlers)

 發表者: 吳軍,Google 研究員 [離散數學是當代數學的一個重要分支,也是計算機科學的數學基礎。它包括數理邏輯、集合論、圖論和近世代數四個分支。

原创 數學之美 系列三 -- 隱含馬爾可夫模型在語言處理中的應用

 發表者:吳軍,Google 研究員前言:隱含馬爾可夫模型是一個數學模型,到目前爲之,它一直被認爲是實現快速精確的語音識別系統的最成功的方法。複雜的語

原创 數學之美系列五 -- 簡單之美:布爾代數和搜索引擎的索引

 發表者: 吳軍,Google 研究員 [建立一個搜索引擎大致需要做這樣幾件事:自動下載儘可能多的網頁;建立快速有效的索引;根據相關性對網頁進行公平準

原创 數學之美 系列一 -- 統計語言模型

 發表者: 吳軍, Google 研究員 前言也許大家不相信,數學是解決信息檢索和自然語言處理的最好工具。它能非常清晰地描述這些領域的實際問題並且給出

原创 您需要注意的c++ 的11個要點

  下面的這些要點是對所有的C++程序員都適用的。我之所以說它們是最重要 的,是因爲這些要點中提到的是你通常在C++書中或網站上無法找到的。如:指向 成員的指針,這是許多資料中都不願提到的地方,也是經常出錯的地方,甚至是對 一些高級的C+

原创 數學之美系列二十一 - 布隆過濾器(Bloom Filter)

  數學之美系列二十一 - 布隆過濾器(Bloom Filter) 2007年7月3日 上午 09:35:00 發表者:Google(谷歌)研究員 吳軍 在日常生活中,包括在設計計算機軟件時,我們經常要判

原创 數學之美 系列九 -- 如何確定網頁和查詢的相關性

 [我們已經談過了如何自動下載網頁、如何建立索引、如何衡量網頁的質量(Page Rank)。我們今天談談如何確定一個網頁和某個查詢的相關性。瞭解了這四個方面,一個有一定編程基礎的讀者應該可以寫一個簡單的搜索

原创 數學之美系列 二十三 輸入一個漢字需要敲多少個鍵 — 談談香農第一定律

  數學之美系列 二十三 輸入一個漢字需要敲多少個鍵 — 談談香農第一定律 2007年12月3日 上午 10:05:00   發表者:Google(谷歌)研究員 吳軍 今天各種漢字輸入法已經很成熟了,隨便挑出一種主要的輸入法比十幾年前最

原创 數學之美 系列十六 (下)- 不要把所有的雞蛋放在一個籃子裏 最大熵模型

 發表者:Google 研究員,吳軍 我們上次談到用最大熵模型可以將各種信息綜合在一起。我們留下一個問題沒有回答,就是如何構造最大熵模型。我們已經所有的最大熵模型都是指數函數的形式,現在只需要確定指數函數的

原创 數學之美 系列十五 繁與簡 自然語言處理的幾位精英

 我在數學之美系列中一直強調的一個好方法就是簡單。但是,事實上,自然語言處理中也有一些特例,比如有些學者將一個問題研究到極致,執著追求完善甚至可以說完美的程度。他們的工作對同行有很大的參考價值,因此我們在科

原创 數學之美 系列 12 - 餘弦定理和新聞的分類

 發表者:吳軍,Google 研究員 餘弦定理和新聞的分類似乎是兩件八杆子打不着的事,但是它們確有緊密的聯繫。具體說,新聞的分類很大程度上依靠餘弦定理。Google 的新聞是自動分類和整理的。所謂新聞的分類

原创 【轉】Microsoft ,Apple,Google用戶體驗設計原則

細緻的Microsoft 減少概念……增強信心 你是不是引入了新的概念?爲什麼?真的必要嗎? 你能去掉這些不需要的概念嗎? 其中的區別有意義嗎? 用戶體驗會延續同樣的概念嗎? 小的好或壞也很重要 哪些重要的“小事”是經常會碰到的? 哪些小