【開源】基於Scrapy和Lucene實現一個深圳大學搜索引擎

#搜索引擎 by深圳大學

  1. 搜索引擎讓人們平等便捷地獲取信息,找到所求。

  2. 本項目的願景是實現一個基於Scrapy和Lucene的個人搜索引擎,該搜索引擎的主要功能有:
    (1)爬蟲抓取深圳大學公文通信息(數據來源需後期增加,目前只抓公文通),進行數據預處理,數據提取,分詞,建立索引,當用戶搜索相關信息時呈現準確的信息檢索服務。
    (2)集成一些常用校內服務的入口,例如講座,課程表,校園小巴實時位置等,扮演一個信息聚合的角色。

  3. 本項目採用了Python(Scrapy), Java(Lucene), PHP(ThinkPHP),分別對應了爬蟲模塊,索引模塊,查詢模塊的功能實現,並實現了不同語言的功能模塊間的接口通訊,接口間數據交換格式爲Json文本。

  4. 本倉庫包含索引模塊和查詢模塊的源碼,爬蟲模塊源碼在另一個倉庫:szu spider

##效果圖

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章