原创 搜索引擎發展綜述

  搜索引擎發展綜述李銳 [email protected](中科院計算技術研究所 北京 100080) 摘要:本文簡述了搜索引擎的起源和發展,介紹了國內外的研究現狀,對其分類、性能評測、關鍵技術等方面做了一定的討論,在此基礎上對其發展趨勢

原创 數據結構複習篇:線性表

數據結構與算法,是編寫高質量程序的內功之一,在打算步入社會尋找自己的第一份工作之際,我準備用一週左右的時間來複習一遍數據結構與算法。在任何時候重視基礎知識,都不是一件多餘的事。 複習用書:《數據結構與算法分析 C++版》第二版 [美]

原创 數據結構複習篇:用棧實現遞歸

也許大家會疑問:複習完棧應該到隊列了吧。我開始也是這樣想的,但用棧實現遞歸,是一個難點。說實話,我以前學習的時候,就在這一處卡住了,當時我煩躁了好幾天,但可能由於突然被什麼東西轉移了注意力,所以就這樣跳過去了。不知道用棧實現遞歸,也確實不

原创 談圖片搜索

發表者: 朱安, Google 工程師 俗話說:百聞不如一見。有時候圖片較於文字更能直接地表達意境。英語中也有相似的說法,就是:A picture is worth a thousand words,意爲:一畫千言。上星期張晶的《你知道嗎

原创 遞歸、閉合形式解(closed form solution)

  一、遞歸的意義。 我以前一直誤解了遞歸的意義,併爲自己能在程序中多寫幾個遞歸高興。現在我發現錯了!遞歸顯然能讓程序看起來非常簡潔,但是,由於會

原创 Doug Cutting 訪談錄 -- 關於搜索引擎的開發

Doug Cutting Interview   Doug Cutting is primary developer of the Lucene and Nutch open source search projects. He

原创 互聯網搜索的未來

       微軟帝國的締造者比爾-蓋茨(Bill Gates)曾寫過一本在當時轟動一時的書——《未來之路》,他在這本276頁的書中預測了微軟乃至整個

原创 數學之美 系列十一 - Google 阿卡 47 的製造者阿米特.辛格博士

2006年7月10日 上午 09:52:00 發表者:Google 研究員,吳軍 槍迷或者看過尼古拉斯.凱奇(Nicolas Cage)主演的電影“戰爭之王”(Lord ofWar)的人也許還記得影片開頭的一段話:(在所有輕武器中,)

原创 中文分詞和搜索引擎

  作者:Winter 工程師 搜索引擎,上網的人基本上都不陌生了,CNNIC的第17次《互聯網調查報告》顯示,使用搜索引擎服務的網民,僅次於電子郵件

原创 數據結構複習篇:棧

二、棧 棧是一種“發育不良”的線性表,它具有與線性表相同的存儲結構(基於數組的或基於鏈於的),但棧的“缺陷”---不能像線性表那樣具有插入、刪除操作---反而給了它獨有的特色。在後面將會發現,遞歸,可以用棧來實現。  在時間複雜度上,基於

原创 數學之美 系列九 -- 如何確定網頁和查詢的相關性

發表者:吳軍,Google 研究員 我們已經談過了如何自動下載網頁、如何建立索引、如何衡量網頁的質量(Page Rank)。我們今天談談如何確定一個網頁和某個查詢的相關性。瞭解了這四個方面,一個有一定編程基礎的讀者應該可以寫一個簡單的搜索

原创 俞士汶教授談中文語言處理

1、與英語等歐洲語言相比,中文在信息化處理上有很多不同的障礙,如:輸入、分詞等。請簡要介紹一下中文語言處理的研究領域和存在的挑戰? 中文信息處理應該大致劃分爲漢字信息處理和漢語信息處理兩個顯然不同的但相互又有聯繫的層次。在文字信息處理的層

原创 數學之美 十四 談談數學模型的重要性

注一直關注數學之美系列的讀者可能已經發現,我們對任何問題總是在找相應的準確的數學模型。爲了說明模型的重要性,今年七月份我在 Google 中國內部講課

原创 數學之美 系列十三 信息指紋及其應用

任何一段信息文字,都可以對應一個不太長的隨機數,作爲區別它和其它信息的指紋(Fingerprint)。只要算法設計的好,任何兩段信息的指紋都很難重複,

原创 自然語言理解技術及其應用探討

隨着社會的日益信息化,人們越來越強烈地希望用自然語言同計算機交流。自然語言理解是計算機科學中的一個引人入勝的、富有挑戰性的課題。從計算機科學特別是從人工智能的觀點看,自然語言理解的任務是建立一種計算機模型,這種計算機模型能夠給出象人那