原创 hadoop 學習

Hadoop 的文件系統,最重要是 FileSystem 類,以及它的兩個子類 LocalFileSystem 和 DistributedFileSystem。 這裏先分析 FileSystem。抽象類 FileSystem,提高了一系

原创 好久沒有在網上寫心情了。

   真的好久沒有在網上寫自己的心情了。   不過最近來說一切都是很順利的。我決定現在不考研,先去找工作了。  爲什麼呢?  一是因爲我現在考研的話,

原创 nutch怎樣過濾spam信息。

主  題:   nutch怎樣過濾spam信息。 作  者:   kauu (kauu) 等  級:   信 譽 值:   100 所屬論壇:   專題開發/技術/項目 搜索引擎技術 問題點數:   20 回覆次數:   4 發表時

原创 開源crawler

 Heritrix   點擊次數:3822 Heritrix是一個開源,可擴展的web爬蟲項目。Heritrix設計成嚴格按照robots.txt文件的排除指示和META robots標籤。  WebSPHINX   點擊次數:2205

原创 nutch 高亮和增加索引長度

 高亮顯示比較簡單,網上也有很多介紹代碼。修改如下: 將 org.apache.nutch.searcher.Summary 第 54行 代碼 修改爲

原创 hadoop 初記-試用

Hadoop Learning My DemoStatistic.java1. 初始化配置文件,臨時文件存放目錄,還有具體的Job。        Configuration defaults = new Configuration(

原创 給nutch .8加中文分詞

原來nutch 的分詞是用javacc的,它是一個很高效的東東哦。對於中日韓的文字是用單字分詞,所以對中文要分詞,思路當然是把中文拿出來單獨對待了。所

原创 nutch0.7.2+ictclas 成功移植到linux下。

 本來nutch 就是在linux 下跑的,可是爲了方便,也是因爲ictclas 網上只有windows 的.dll 。所以一開始大家都是在windo

原创 java JNI 初記

要把nutch 和ICTCLAS移到linux下,就要學習一下jni了。總的來說,JAVA已經爲我們做好了很多工作,我們只能用就可以了。先來一個hel

原创 Nutch 0.7.2 學習筆記

Nutch 學習筆記   我的jdk 是1.5.x ,Tomcat是5.0.x 1 下載0.7.2 版本的包:裏面已經包含了war文件,所以不需要Ant編譯了 2 安裝Cygwin,這個沒什麼好說的。 3 把Nutch借壓縮到D:/n

原创 nutch 8.x安裝與使用

作者:江南白衣     Nutch是一個基於Lucene,類似Google的完整網絡搜索引擎解決方案,基於Hadoop的分佈式處理模型保證了系統的性能

原创 新聞聚類系統---news.baidu.com

要做一個新聞聚類系統,大概就和http://news.baidu.com類似的。 可是沒有什麼想法呀!  怎麼辦呢?  這樣的新聞,  要有抓取,存到

原创 昨天被新浪害死了。

親愛的GF開了 博客我明明有好幾次評論的了,可是我用的firefox ,新浪對firefox支持很不好,提示全是亂碼!! 我也就不知道到底有沒有發表成

原创 昨天第一次面試,結果還不錯。

 昨天 第一次去面試,在浙江杭州。  公司是上海網力網絡科技有限公司。我是在回來的火車上接到公司前臺的電話的。我去之前一點都不知道這家公司的情況。而且

原创 開發垂直門戶的分佈式搜索引擎系統

最近遇到了頭疼的事情,就是開發垂直門戶的分佈式搜索引擎系統時,發現有四種不同應用的分佈式搜索引擎:1.分佈式元搜索: 擁有多個單個的搜索引擎, 中心搜索引擎是利用這些分佈的單個的搜索引擎的結果進行撮合得到完整的結果. 這樣的設計方案要