原创 Lucene.net 實現全文搜索

  忙了幾天終於實現一個簡單的全文搜索在此回顧總結一下 本文介紹一下Lucene.Net 是什麼?Lucene.Net 能作什麼?以及怎麼做的問題?最

原创 中文分詞的實現思路

 在PHPE.net論壇上給網友的回貼。現在的搜索引擎技術主要包括四個環節,網頁抓取、超鏈分析、網頁檢索和搜索服務。分詞就是把一句完整的話分成幾個詞,

原创 Lucene.Net系列一 ---simple example

What’s Lucene Lucene是一個信息檢索的函數庫(Library),利用它你可以爲你的應用加上索引和搜索的功能. Lucene的使用者不需要深入瞭解有關全文檢索的知識,僅僅學會使用庫中的一個類,你就爲你的應用實現全文檢索

原创 應用lucene.net進行搜索測試

 經過上篇我們已經對59部小說文本建立了索引,詳情可見http://www.cnblogs.com/abob/archive/2006/08/26/4

原创 用C#實現蜘蛛/爬蟲程序的多線程控制

【引自Felomeng的博客】在《爬蟲/蜘蛛程序的製作(C#語言)》一文中,已經介紹了爬蟲程序實現的基本方法,可以說,已經實現了爬蟲的功能。只是它存在一個效率問題,下載速度可能很慢。這是兩方面的原因造成的:        1.分析和下載

原创 Lucene.net多字段(Fields)、多索引目錄(IndexSearcher)搜索

Lucene.net是目前在.net環境中被普遍使用的全文索引的開源項目,這次在項目的開發中也使用它進行全文索引。在開發過程中碰到一些小問題就是對多字段和多索引目錄進行搜索。1、多字段搜索就是同時要一個以上的字段中的內容進行比較搜索,類似

原创 Lucene.Net初識(2)

  Lucene.net 系列四 --- index 下本文將介紹有關索引併發控制的問題,以結束對Lucene.net建立索引問題的討論. 1. 允許任意多的讀操作併發.即可以有任意多的用戶在同一時間對同一份索引做查詢工作. 2. 

原创 FMS3服務器端應用程序的搭建及SharedObject對象和視頻錄製方面的權限問題。

一、創建應用程序目錄       創建FMS3服務器程序很簡單, 就是創建個文件夾而已:(fms3安裝目錄)/applications/(Create應用程序文件夾)。       創建完之後,要記得同時把FMS兩個相應的服務打開:Sta

原创 搜索引擎研究---網絡蜘蛛程序算法相關資料

何用C#語言構造蜘蛛程序  "蜘蛛"(Spider)是Internet上一種很有用的程序,搜索引擎利用蜘蛛程序將Web頁面收集到數據庫,企業利用蜘蛛程序監視競爭對手的網站並跟蹤變動,個人用戶用蜘蛛程序下載Web頁面以便脫機使用,開發者

原创 搜索引擎中中文詞組分詞的實現

Lucene.net標準分詞器在英文分詞中有非常好的體驗。比喻說:在郵件,IP地址,符號處理方面,它都處理得非常好。只是很遺憾,它不支持中文詞組分詞。於是,我就通過修改裏面的核心代碼讓它擴展,支持中文的分詞。 目標:使它能夠增加對中文詞組

原创 一個C#寫的爬蟲程序

CodeProject上看見的感興趣的文章,先研究着,有空翻譯一下: 簡介      網頁爬蟲(也被稱做螞蟻或者蜘蛛)是一個自動抓取萬維網中網頁數據的程序.網頁爬蟲一般都是用於抓取大量的網頁,爲日後搜索引擎處理服務的.抓取的網頁由一

原创 中文搜索引擎技術揭密:網絡蜘蛛

 關鍵詞:中文搜索引擎技術揭密       隨着搜索經濟的崛起,人們開始越加關注全球各大搜索引擎的性能、技術和日流量。作爲企業,會根據搜索引擎的知名度以及日流量來選擇是否要投放廣告等;作爲普通網民,會根據

原创 Lucene的包結構

本文主要討論Lucene的系統結構,希望對其結構的初步分析,更深入的瞭解Lucene的運作機制,從而實現對Lucene的功能擴展。   1. Lucene的包結構     如上圖所示,Lucene源碼中共包括7個子包,每個包完成特定的功

原创 Lucene與Tag圖

Tag圖是採用了Tag作爲文章管理工具的網站經常需要呈現的一種視圖。利用Lucene的優異性能,可以出色的完成這一功能。 生成一個Tag圖,首先需要知道用於一共使用了哪些Tag,其次需要知道每個Tag被使用的次數。 對於這兩個功能,都可以

原创 使用蜘蛛程序來實現電影資料庫中的自動填寫功能

在新版的“電影資料庫”中,ajax被我大範圍嘗試,以此來提高界面的友好性,比如輸入提示效果,div模擬對話框和服務端方法異步調用。 其中,我最得意的是依靠ajax技術實現了一個類似蜘蛛程序(spider),完成表單自動填寫。所謂蜘蛛程序,