百萬商業圈搜索引擎解決方案項目及文檔說明
1、Bwsyq.Search.Demo
進行檢索,就是常說的搜索引擎網站。提供檢索服務。
目前實現了:按關鍵詞進行檢索,實現了動態摘要、關鍵詞高亮顯示、自動分頁、每頁顯示條目可自定義(默認每頁顯示10條檢索結果)
未實現功能:相關搜索關鍵詞條顯示、按相關度進行排序、快照、網頁標題、採集時間、網頁URL、並行集羣檢索
其中:快照、網頁標題、採集時間、網頁URL 可根據實際情況自行實現
相關搜索關鍵詞條顯示、按相關度進行排序、並行集羣檢索 將在下一版提供
2、Bwsyq.Search.Index
進行索引,就是常說的全文索引。
3、DemoDoc 目錄中的 3500個txt文檔是用來做索引測試的文檔。測試的使用請放置在:D:\index\DemoDoc 也可根據實際情況在代碼中修改
4、index 目錄中的.idx 文件是測試建立的索引文件。 測試的使用請放置在:D:\index\index 目錄,也可根據事情情況修改配置文件
5、注意事項:
A、目前索引存儲路徑是 D:\index\index\ 可在配置文件中根據實際情況對配置文件“App.config、Web.config”進行修改
<KeyInfo Key="SEARCHIDX" Value="D:\index\index\"/>
B、索引所需詞庫存儲路徑是 D:\index\ App_Data 可在配置文件中根據實際情況對配置文件“App.config”進行修改
<KeyInfo Key="PhysicaPath" Value="D:\index\"/> 修改後將 App_Data文件夾及其中的文件全部拷貝到對應目錄即可
C、檢索所需詞庫存存儲路徑是 網站項目中的 App_Data 目錄,無須修改
D、BwsyqIndex.dll 是核心庫,採用C語言開發,可存放在system32目錄,或項目運行的目錄bin或release目錄中。
6、目前提供的版本是2.0版,有如下性能指標:
A、單機可索引400萬網頁、
B、普通PC: AMD 2.0、 7200轉硬盤、2G內存每4分鐘可索引1000頁(已經做了html parse)的文本
C、經實際測試任意50詞以內的檢索,檢索運算不超過 20毫秒
D、檢索速度不會因爲索引的多少而發生任何變化,索引速度也不會因爲文檔多少或文檔大小而變慢
E、開發工具VS2008,測試環境 windos7 + CPU(AMD 2.0)、 5400轉300G硬盤、2G內存
注:本版本單機索引限制在 400萬網頁,超過將不在執行索引。
7、本版本截止開發週期業餘時間不到 3個週末和3個週日,期間還感冒了一週,所以有很多不完善的地方,請大家多指正。
我會盡快根據大家提供的建議進行改善並提供改進後的新版本。
8、本軟件完全屬於本人自主創作,完全沒有任何借鑑和第三方代碼,您可以放心的用於學習和商業用途。
1、Bwsyq.Search.Demo
進行檢索,就是常說的搜索引擎網站。提供檢索服務。
目前實現了:按關鍵詞進行檢索,實現了動態摘要、關鍵詞高亮顯示、自動分頁、每頁顯示條目可自定義(默認每頁顯示10條檢索結果)
未實現功能:相關搜索關鍵詞條顯示、按相關度進行排序、快照、網頁標題、採集時間、網頁URL、並行集羣檢索
其中:快照、網頁標題、採集時間、網頁URL 可根據實際情況自行實現
相關搜索關鍵詞條顯示、按相關度進行排序、並行集羣檢索 將在下一版提供
2、Bwsyq.Search.Index
進行索引,就是常說的全文索引。
3、DemoDoc 目錄中的 3500個txt文檔是用來做索引測試的文檔。測試的使用請放置在:D:\index\DemoDoc 也可根據實際情況在代碼中修改
4、index 目錄中的.idx 文件是測試建立的索引文件。 測試的使用請放置在:D:\index\index 目錄,也可根據事情情況修改配置文件
5、注意事項:
A、目前索引存儲路徑是 D:\index\index\ 可在配置文件中根據實際情況對配置文件“App.config、Web.config”進行修改
<KeyInfo Key="SEARCHIDX" Value="D:\index\index\"/>
B、索引所需詞庫存儲路徑是 D:\index\ App_Data 可在配置文件中根據實際情況對配置文件“App.config”進行修改
<KeyInfo Key="PhysicaPath" Value="D:\index\"/> 修改後將 App_Data文件夾及其中的文件全部拷貝到對應目錄即可
C、檢索所需詞庫存存儲路徑是 網站項目中的 App_Data 目錄,無須修改
D、BwsyqIndex.dll 是核心庫,採用C語言開發,可存放在system32目錄,或項目運行的目錄bin或release目錄中。
6、目前提供的版本是2.0版,有如下性能指標:
A、單機可索引400萬網頁、
B、普通PC: AMD 2.0、 7200轉硬盤、2G內存每4分鐘可索引1000頁(已經做了html parse)的文本
C、經實際測試任意50詞以內的檢索,檢索運算不超過 20毫秒
D、檢索速度不會因爲索引的多少而發生任何變化,索引速度也不會因爲文檔多少或文檔大小而變慢
E、開發工具VS2008,測試環境 windos7 + CPU(AMD 2.0)、 5400轉300G硬盤、2G內存
注:本版本單機索引限制在 400萬網頁,超過將不在執行索引。
7、本版本截止開發週期業餘時間不到 3個週末和3個週日,期間還感冒了一週,所以有很多不完善的地方,請大家多指正。
我會盡快根據大家提供的建議進行改善並提供改進後的新版本。
8、本軟件完全屬於本人自主創作,完全沒有任何借鑑和第三方代碼,您可以放心的用於學習和商業用途。
推薦下載:http://ishare.iask.sina.com.cn/f/17697171.html
下載地址1:http://www.everbox.com/f/xkdvEM3eyrwYXp9yG4d2b7aawZ
下載地址2:http://www.everbox.com/f/xO8NFbNyW5frP5SXSlaTzNdDIf
下載地址3:http://www.everbox.com/f/XcC7HMzMD7PXRKkNZKEVLfLcEK
下載地址4:http://www.everbox.com/f/WXFsqChwLTbLmX2P6gQuQy1z51
下載地址5:http://www.everbox.com/f/Bi9izWoxroLcn9mBs3N2S4PBeG
下載地址6:http://www.everbox.com/f/Tf3XzMdLVXDcX233qirYPTkMvr
版權所有:未經許可不得轉載,有任何疑問請與我本人聯繫 QQ 99923309 Mail:[email protected]
開源:完全自主研發搜索引擎1.0源代碼及說明,單機400萬網頁,任意50詞以內的檢索不超過 20毫秒
開源:基於百萬商業圈.NET開發框架開發的並行帶分詞的採集器
百萬商業圈 .NET 開發框架2.0及開發框架API說明書(BWFW)(含並行計算及中英文分詞功能)
分享一點代碼(小型C web開發框架),用C語言實現的一個WEB 文件上傳(含全部源代碼)一
天心天字輩ERP全部PDK源代碼到了我手上的後果 - 超越天心之WEB天雲
大家看看我的BS的甘特圖排程做的如何? 無刷新Ajax甘特圖 展示生產排程結果 演示