原创 中文搜索引擎技術研究:中文分詞

什麼是中文分詞?   衆所周知,英文是以詞爲單位的,詞和詞之間是靠空格隔開,而中文是以字爲單位,句子中所有的字連起來才能描述一個意思。例如,英文句子I am a student,用中文則爲:“我是一個學生”。計算機可以很簡單通過空格知道s

原创 學習Nutch

總體架構      總體上,Nutch可以分爲2個部分:抓取程序(crawler)和搜索程序(searcher)。抓取程序抓取頁面並把抓取回來的數據做成反向索引,搜索程序則利用反向索引檢索回答用戶的查找關鍵詞來產生查找結果。兩者之間的接口

原创 Ultra Editor的一些使用技巧

    以下使用技巧是在工作中和網上找到的一些資料彙總而成,對於提高工作效率還是很有用的。 1、ctrl+b寫程序的時候,括號一般要一一對應的。如果嵌套太多,結構太負責,就很容易使人看的眼花繚亂。這

原创 務實時代的教程典範——論C++ Primer第四版的意義

       很多人可能還記得2002年C++ Primer第三版在國內計算機圖書市場上創造的輝煌成績,當時這本書在價格相對較高的情況下仍然受到了廣大C++學習者的熱烈歡迎。幾年過去,相信已經有不少讀者通過這本書掌握了C++基礎語言。在日

原创 在windows中如何安裝Nutch

        本來有機會接一個搜索引擎項目的,但最終因價格問題雙方談崩。爲此,我感到深深的遺憾,失去了一個極好的實踐機會。但我不想因此放棄對搜索引擎的學習和實踐,在網上聽到很多人推薦Nutch。所以我打算學習一下Nutch,要學習Nut

原创 需要注意的11條要點for C++

出處     http://www.codeproject.com/     下面的這些要點是對所有的C++程序員都適用的。我之所以說它們是最重要的,是因爲這些要點中提到的是你通常在C++書中或網站上無法找

原创 C++讀書列表 (V3.0)

時隔半年,“C++讀書列表”再次更新。所列圖書均是Ada已經閱讀過的書記。目錄格式爲:作品分類、英文書名、作者、譯者、中文版出版社、簡介。排名雖然不分先後,但是Ada用紅色標出推薦讀物(推薦角度各有不同,無