簡介
Lucene是一款高性能的、可擴展的信息檢索工具庫。
信息檢索是指文檔搜索,文檔內信息搜索或者文檔相關的元數據搜索等操作。
Lucene只是搜索程序的核心索引和搜索模塊
搜索程序首先需要實現的功能是索引鏈, 分爲以下幾個步驟:
1. 檢索原始內容
2. 根據原始內容來創建對應的文檔
3. 對創建的文檔進行索引
Raw Content -> Acquire Content -> Build Document -> Analyze Document -> Index Docuement -> Index
爲了快速搜索大量的文本,必須首先建立針對文本索引,將文本內容轉換成能夠進行快速搜索的格式,從而消除慢速順序掃描處理帶來的影響。此過程稱爲索引操作,輸出就是索引。
索引組件:
- 獲取內容:爬蟲或者其他方式獲取待索引的文本內容,Lucene並不提供這方面支持
- 建立文檔
- 文檔分析
將文本分割成一系列被稱爲語彙單元的獨立的原子元素,這個步驟即決定文檔中的文本域如何分割成語彙單元系列。 - 文檔索引
搜索組件:
搜索質量衡量:查準率, 查全率
1. 用戶搜索界面(自己用,可以寫的搓一些)
2. 建立查詢(Luence存在默認的查詢解析器)
3. 搜索查詢
查詢檢索索引並返回與查詢語句匹配的文檔
4. 展現結果