原创 利用Lucene.Net進行文檔遞歸查詢

如何在項目中分析建立索引1.添加引用lucene.net dll和名字空間using Lucene.Net.Analysis.Standard;using Lucene.Net.Documents;using Lucene.Net.Ind

原创 爬蟲/蜘蛛程序的製作(C#語言)

問題是對某一網站或所有網站進行抓取,即下載所有網頁。怎麼實現呢? 先將問題最小化(轉化的思想,轉化爲小規模,可以解決的問題):如果只有一個網頁,怎麼下載?問題變地很簡單,只要用WebClient/WebRequest(甚至OpenFile

原创 輕鬆構建網絡負載平衡羣集(組圖)

    當把一臺服務器(包括Web服務器、FTP服務器或者流媒體服務器等等)放入網絡中之後,隨着客戶端數量的不斷增加,人們往往需要功能更強大、處理速度更快的服務器。爲了解決這個問題,如果將原有的服務器替換成功能更強大、處理速度更快的服務

原创 用Lucene.net對數據庫建立索引及搜索

       最近我一直在研究 Lucene.net ,發現Lucene.net對數據庫方面建索引的文章在網上很少見,其實它是可以對數據庫進行索引的,我閒着沒事,寫了個測試程序,竟然成功了, 可以實現對數據另類查詢的一種方式(通過建索引查

原创 聚焦爬蟲技術研究綜述

隨着網絡的迅速發展,萬維網成爲大量信息的載體,如何有效地提取並利用這些信息成爲一個巨大的挑戰。搜索引擎(Search Engine),例如傳統的通用搜

原创 拆取 Web 頁

摘要: 本文討論如何收集來自 Web 的信息,並藉助 Internet Explorer 的可重用分析器組件,將它分佈到其他 Web 頁或數據庫。(打印共 7 頁) 程序員面臨的一個共同任務就是收集 Web 站點的數據,並將它分佈到數據庫

原创 Lucene.Net]基本用法

本文僅記錄一些簡單的使用方法,供初學者參考。以下例子採用 Lucene.NET 1.9 版本,可取去 Lucene.Net 下載。1. 基本應用usi

原创 網絡爬蟲程序

最近跟朋友開始研究搜索引擎的實現,下面是朋友參照jobo改的一個給予java的spider ps:裏面的英文可以略過了,這傢伙英語水平實在是爛= =       Sosoo 1.0網絡爬蟲程序---用戶開發手冊編寫人:王建華(rimen

原创 Lucene.net 系列五 --- search 上

在前面的系列我們一直在介紹有關索引建立的問題,現在是該利用這些索引來進行搜索的時候了,Lucene良好的架構使得我們只需要很少的幾行代碼就可以爲我們的應用加上搜索的功能,首先讓我們來認識一下搜索時最常用的幾個類. 查詢特定的某個概念 當

原创 Lucene.net 系列二 --- index (上)

Lucene建立Index的過程: 1.        抽取文本. 比如將PDF以及Word中的內容以純文本的形式提取出來.Lucene所支持的類型主要爲String,爲了方便同時也支持Date 以及Reader.其實如果使用這兩個類

原创 如何用C#語言構造蜘蛛程序

 "蜘蛛"(Spider)是Internet上一種很有用的程序,搜索引擎利用蜘蛛程序將Web頁面收集到數據庫,企業利用蜘蛛程序監視競爭對手的網站並跟蹤

原创 Asp.net 數據採集基類

using System;using System.Data;using System.Configuration;using System.Web;

原创 應用Lucene.net建立全文索引引擎

具體方案:1.建立索引爲60篇記事本文檔的中文小說建立索引,分析器採用Lucene.Net.Analysis.Cn.ChineseAnalyzer()

原创 Lucene.net 系列三 --- index 中

本文將進一步討論有關Lucene.net建立索引的問題: 主要包含以下主題:1.索引的權重2.利用IndexWriter 屬性對建立索引進行高級管理3.利用RAMDirectory充分發揮內存的優勢4.利用RAMDirectory並行建

原创 Lucene.Net初識(1)

Lucene.Net 系列一本文介紹了什麼是Lucene,Lucene能做什麼. 如何從一個文件夾下的所有txt文件中查找特定的詞? 本文將圍繞該個實例介紹了lucene.net的索引的建立以及如何針對索引進行搜索.最後還將給出源代碼