開源:完全自主研發搜索引擎1.0源代碼及說明,單機400萬網頁,任意50詞以內的檢索不超過 20毫秒

開源:完全自主研發搜索引擎1.0源代碼及說明,單機400萬網頁,任意50詞以內的檢索不超過 20毫秒
2011-08-02 02:08

百萬商業圈搜索引擎解決方案項目及文檔說明



1、Bwsyq.Search.Demo
    進行檢索,就是常說的搜索引擎網站。提供檢索服務。
    目前實現了:按關鍵詞進行檢索,實現了動態摘要、關鍵詞高亮顯示、自動分頁、每頁顯示條目可自定義(默認每頁顯示10條檢索結果)
    未實現功能:相關搜索關鍵詞條顯示、按相關度進行排序、快照、網頁標題、採集時間、網頁URL、並行集羣檢索
            其中:快照、網頁標題、採集時間、網頁URL 可根據實際情況自行實現
                  相關搜索關鍵詞條顯示、按相關度進行排序、並行集羣檢索 將在下一版提供
2、Bwsyq.Search.Index
    進行索引,就是常說的全文索引。
    
3、DemoDoc 目錄中的 3500個txt文檔是用來做索引測試的文檔。測試的使用請放置在:D:\index\DemoDoc 也可根據實際情況在代碼中修改  

4、index 目錄中的.idx 文件是測試建立的索引文件。 測試的使用請放置在:D:\index\index 目錄,也可根據事情情況修改配置文件
    
5、注意事項:
   A、目前索引存儲路徑是 D:\index\index\ 可在配置文件中根據實際情況對配置文件“App.config、Web.config”進行修改
      <KeyInfo Key="SEARCHIDX" Value="D:\index\index\"/>
   B、索引所需詞庫存儲路徑是 D:\index\  App_Data  可在配置文件中根據實際情況對配置文件“App.config”進行修改
   <KeyInfo Key="PhysicaPath" Value="D:\index\"/>  修改後將 App_Data文件夾及其中的文件全部拷貝到對應目錄即可
   C、檢索所需詞庫存存儲路徑是 網站項目中的 App_Data 目錄,無須修改
   D、BwsyqIndex.dll 是核心庫,採用C語言開發,可存放在system32目錄,或項目運行的目錄bin或release目錄中。
   
6、目前提供的版本是2.0版,有如下性能指標:    
   A、單機可索引400萬網頁、
   B、普通PC: AMD 2.0、 7200轉硬盤、2G內存每4分鐘可索引1000頁(已經做了html parse)的文本
   C、經實際測試任意50詞以內的檢索,檢索運算不超過 20毫秒
   D、檢索速度不會因爲索引的多少而發生任何變化,索引速度也不會因爲文檔多少或文檔大小而變慢
   E、開發工具VS2008,測試環境 windos7 + CPU(AMD 2.0)、 5400轉300G硬盤、2G內存
   注:本版本單機索引限制在 400萬網頁,超過將不在執行索引。
   
7、本版本截止開發週期業餘時間不到 3個週末和3個週日,期間還感冒了一週,所以有很多不完善的地方,請大家多指正。
   我會盡快根據大家提供的建議進行改善並提供改進後的新版本。
   
8、本軟件完全屬於本人自主創作,完全沒有任何借鑑和第三方代碼,您可以放心的用於學習和商業用途。

 

1、Bwsyq.Search.Demo
    進行檢索,就是常說的搜索引擎網站。提供檢索服務。
    目前實現了:按關鍵詞進行檢索,實現了動態摘要、關鍵詞高亮顯示、自動分頁、每頁顯示條目可自定義(默認每頁顯示10條檢索結果)
    未實現功能:相關搜索關鍵詞條顯示、按相關度進行排序、快照、網頁標題、採集時間、網頁URL、並行集羣檢索
            其中:快照、網頁標題、採集時間、網頁URL 可根據實際情況自行實現
                  相關搜索關鍵詞條顯示、按相關度進行排序、並行集羣檢索 將在下一版提供
2、Bwsyq.Search.Index
    進行索引,就是常說的全文索引。
3、DemoDoc 目錄中的 3500個txt文檔是用來做索引測試的文檔。測試的使用請放置在:D:\index\DemoDoc 也可根據實際情況在代碼中修改 

4、index 目錄中的.idx 文件是測試建立的索引文件。 測試的使用請放置在:D:\index\index 目錄,也可根據事情情況修改配置文件


5、注意事項:
   A、目前索引存儲路徑是 D:\index\index\ 可在配置文件中根據實際情況對配置文件“App.config、Web.config”進行修改
      <KeyInfo Key="SEARCHIDX" Value="D:\index\index\"/>
   B、索引所需詞庫存儲路徑是 D:\index\  App_Data  可在配置文件中根據實際情況對配置文件“App.config”進行修改
   <KeyInfo Key="PhysicaPath" Value="D:\index\"/>  修改後將 App_Data文件夾及其中的文件全部拷貝到對應目錄即可
   C、檢索所需詞庫存存儲路徑是 網站項目中的 App_Data 目錄,無須修改
   D、BwsyqIndex.dll 是核心庫,採用C語言開發,可存放在system32目錄,或項目運行的目錄bin或release目錄中。
   
6、目前提供的版本是2.0版,有如下性能指標:    
   A、單機可索引400萬網頁、
   B、普通PC: AMD 2.0、 7200轉硬盤、2G內存每4分鐘可索引1000頁(已經做了html parse)的文本
   C、經實際測試任意50詞以內的檢索,檢索運算不超過 20毫秒
   D、檢索速度不會因爲索引的多少而發生任何變化,索引速度也不會因爲文檔多少或文檔大小而變慢
   E、開發工具VS2008,測試環境 windos7 + CPU(AMD 2.0)、 5400轉300G硬盤、2G內存
   注:本版本單機索引限制在 400萬網頁,超過將不在執行索引。
   
7、本版本截止開發週期業餘時間不到 3個週末和3個週日,期間還感冒了一週,所以有很多不完善的地方,請大家多指正。
   我會盡快根據大家提供的建議進行改善並提供改進後的新版本。
   
8、本軟件完全屬於本人自主創作,完全沒有任何借鑑和第三方代碼,您可以放心的用於學習和商業用途。

推薦下載:http://ishare.iask.sina.com.cn/f/17697171.html

下載地址1:http://www.everbox.com/f/xkdvEM3eyrwYXp9yG4d2b7aawZ
下載地址2:http://www.everbox.com/f/xO8NFbNyW5frP5SXSlaTzNdDIf
下載地址3:http://www.everbox.com/f/XcC7HMzMD7PXRKkNZKEVLfLcEK
下載地址4:http://www.everbox.com/f/WXFsqChwLTbLmX2P6gQuQy1z51
下載地址5:http://www.everbox.com/f/Bi9izWoxroLcn9mBs3N2S4PBeG
下載地址6:http://www.everbox.com/f/Tf3XzMdLVXDcX233qirYPTkMvr

版權所有:未經許可不得轉載,有任何疑問請與我本人聯繫 QQ 99923309 Mail:[email protected]

 


開源:完全自主研發搜索引擎1.0源代碼及說明,單機400萬網頁,任意50詞以內的檢索不超過 20毫秒

開源:基於百萬商業圈.NET開發框架開發的並行帶分詞的採集器

百萬商業圈 .NET 開發框架2.0及開發框架API說明書(BWFW)(含並行計算及中英文分詞功能)

分享一點代碼(小型C web開發框架),用C語言實現的一個WEB 文件上傳(含全部源代碼)一

天心天字輩ERP全部PDK源代碼到了我手上的後果 - 超越天心之WEB天雲

大家看看我的BS的甘特圖排程做的如何? 無刷新Ajax甘特圖 展示生產排程結果 演示


發佈了71 篇原創文章 · 獲贊 10 · 訪問量 10萬+
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章