原创 PowerDesigner設計數據庫

本文檔不講述如何使用PowerDesigner,而是講述如何將PowerDesigner的特點結合數據庫設計的方法更好的設計一個數據庫系統。 採用PowerDesigner設計數據庫 PowerDesigner作爲數據庫建模和設計的CAS

原创 關於薪資問題你應該知道的

許多求職者將薪水和工資這兩個概念混爲一談,認爲薪水就是工資,只不過前者比後者聽起來更洋氣一點,事實並非如此。 薪水簡單地講由工資、獎金和福利三部分構成。工資一般分固定工資和績效工資,固定工資中一般(或部分)是崗位工資,然後會有一個崗位績效

原创 數學之美 系列二 -- 談談中文分詞

發表者: 吳軍, Google 研究員 談談中文分詞----- 統計語言模型在中文處理中的一個應用上回我們談到利用統計語言模型進行語言處理,由於模型是建立在詞的基礎上的,對於中日韓等語言,首先需要進行分詞。例如把句子 “中國航天官員應邀到

原创 數學之美 系列三 -- 隱含馬爾可夫模型在語言處理中的應用

發表者:吳軍,Google 研究員前言:隱含馬爾可夫模型是一個數學模型,到目前爲之,它一直被認爲是實現快速精確的語音識別系統的最成功的方法。複雜的語音

原创 數學之美 系列六 -- 圖論和網絡爬蟲 (Web Crawlers)

發表者: 吳軍,Google 研究員 [離散數學是當代數學的一個重要分支,也是計算機科學的數學基礎。它包括數理邏輯、集合論、圖論和近世代數四個分支。數理邏輯基於布爾運算,我們已經介紹過了。這裏我們介紹圖論和互聯網自動下載工具網絡爬蟲 (W

原创 數學之美 系列四 -- 怎樣度量信息?

發表者:吳軍,Google 研究員前言: Google 一直以 “整合全球信息,讓人人能獲取,使人人能受益” 爲使命。那麼究竟每一條信息應該怎樣度量呢

原创 6e的網頁信噪比

  今天無聊閒逛,看了pennyliang的blog,發現了6e這個東西。然後順藤摸瓜,逐漸發現這個搜索引擎提出的咚咚很好玩:) 還有博索。Booso大概是一個博客日記的搜索引擎。根據使用指南,加了Refer代碼在主頁的側欄裏。到目前爲止

原创 The differences between BLOB and TEXT

A BLOB is a binary large object that can hold a variable amount of data. The four BLOB types are TINYBLOB, BLOB, MEDIUM

原创 數學之美 系列八-- 賈里尼克的故事和現代語言處理

發表者:Google 研究員,吳軍 讀者也許注意到了,我們在前面的系列中多次提到了賈里尼克這個名字。事實上,現代語音識別和自然語言處理確實是和它的名字是緊密聯繫在一起的。我想在這回的系列裏,介紹賈里尼克本人。在這裏我不想列舉他的貢獻,而想

原创 C Java PHP Perl Python 的程序代碼美化工具

C Java PHP Perl Python 的程序代碼美化工具(Pretty Print Program/Source Code Beautifier)使用 http://www.chedong.com/tech/indent_tool

原创 數學之美 系列七 -- 信息論在信息處理中的應用

發表者:吳軍, Google 研究員 我們已經介紹了信息熵,它是信息論的基礎,我們這次談談信息論在自然語言處理中的應用。先看看信息熵和語言模型的關係。我們在系列一中談到語言模型時,沒有講如何定量地衡量一個語言模型的好壞,當然,讀者會很自然

原创 數學之美 系列一 -- 統計語言模型

發表者: 吳軍, Google 研究員 前言也許大家不相信,數學是解決信息檢索和自然語言處理的最好工具。它能非常清晰地描述這些領域的實際問題並且給出漂亮的解決辦法。每當人們應用數學工具解決一個語言問題時,總會感嘆數學之美。我們希望利用 G

原创 通過Google Maps Mashup能完成的25件事

通過Google Maps Mashup能完成的25件事,Google Maps所產生的創意無限,在生活中的價值也日漸展現,一起來看!1. 計算你旅行的行程或者折扣 http://www.gmap-pedometer.com2. 查看世界

原创 數學之美 系列十 有限狀態機和地址識別

7/05/2006 09:09:00 上午 發表者:吳軍,Google研究員 地址的識別和分析是本地搜索必不可少的技術,儘管有許多識別和分析地址的方法,最有效的是有限狀態機。一個有限狀態機是一個特殊的有向圖(參見有關圖論的系列),它包

原创 數學之美 系列十六(下)- 不要把所有的雞蛋放在一個籃子裏 最大熵模型

2006年11月16日 上午 06:50:00 發表者:Google 研究員,吳軍 我們上次談到用最大熵模型可以將各種信息綜合在一起。我們留下一個問題沒有回答,就是如何構造最大熵模型。我們已經所有的最大熵模型都是指數函數的形式,現在只