Lucene學習總結之二：Lucene的總體架構

原創

2020-02-21 11:14

Lucene總的來說是：

一個高效的，可擴展的，全文檢索庫。
全部用Java實現，無須配置。
僅支持純文本文件的索引(Indexing)和搜索(Search)。
不負責由其他格式的文件抽取純文本文件，或從網絡中抓取文件的過程。

在Lucene in action中，Lucene 的構架和過程如下圖，

說明Lucene 是有索引和搜索的兩個過程，包含索引創建，索引，搜索三個要點。

讓我們更細一些看Lucene的各組件：

被索引的文檔用Document對象 表示。
IndexWriter 通過函數addDocument 將文檔添加到索引中，實現創建索引的過程。
Lucene 的索引是應用反向索引。
當用戶有請求時，Query 代表用戶的查詢語句。
IndexSearcher 通過函數search 搜索Lucene Index 。
IndexSearcher 計算term weight 和score 並且將結果返回給用戶。
返回給用戶的文檔集合用TopDocsCollector 表示。

那麼如何應用這些組件呢？

讓我們再詳細到對Lucene API 的調用實現索引和搜索過程。

索引過程如下：
- 創建一個IndexWriter 用來寫索引文件，它有幾個參數，INDEX_DIR 就是索引文件所存放的位置，Analyzer 便是用來對文檔進行詞法分析和語言處理的。
- 創建一個Document 代表我們要索引的文檔。
- 將不同的Field 加入到文檔中。我們知道，一篇文檔有多種信息，如題目，作者，修改時間，內容等。不同類型的信息用不同的Field 來表示，在本例子中，一共有兩類信息進行了索引，一個是文件路徑，一個是文件內容。其中FileReader 的SRC_FILE 就表示要索引的源文件。
- IndexWriter 調用函數addDocument 將索引寫到索引文件夾中。
搜索過程如下：
- IndexReader 將磁盤上的索引信息讀入到內存，INDEX_DIR 就是索引文件存放的位置。
- 創建IndexSearcher 準備進行搜索。
- 創建Analyer 用來對查詢語句進行詞法分析和語言處理。
- 創建QueryParser 用來對查詢語句進行語法分析。
- QueryParser 調用parser 進行語法分析，形成查詢語法樹，放到Query 中。
- IndexSearcher 調用search 對查詢語法樹Query 進行搜索，得到結果TopScoreDocCollector 。

以上便是Lucene API函數的簡單調用。

然而當進入Lucene的源代碼後，發現Lucene有很多包，關係錯綜複雜。

然而通過下圖，我們不難發現，Lucene的各源碼模塊，都是對普通索引和搜索過程的一種實現。

此圖是上一節介紹的全文檢索的流程對應的Lucene實現的包結構。(參照http://www.lucene.com.cn/about.htm 中文章《開放源代碼的全文檢索引擎Lucene》)

Lucene 的analysis 模塊主要負責詞法分析及語言處理而形成Term 。
Lucene 的index 模塊主要負責索引的創建，裏面有IndexWriter 。
Lucene 的store 模塊主要負責索引的讀寫。
Lucene 的QueryParser 主要負責語法分析。
Lucene 的search 模塊主要負責對索引的搜索。
Lucene 的similarity 模塊主要負責對相關性打分的實現。

瞭解了Lucene的整個結構，我們便可以開始Lucene的源碼之旅了。

另：

博客園此文鏈接爲：http://www.cnblogs.com/forfuture1978/archive/2009/12/14/1623596.html

Javaeye此文鏈接爲：http://forfuture1978.javaeye.com/blog/546808

站內首發文章

發佈了33 篇原創文章 · 獲贊 1 · 訪問量 15萬+

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

elasticsearch 監控查看活躍的search

GET _nodes/stats indexing 顯示已經索引了多少文檔。這個值是一個累加計數器。在文檔被刪除的時候，數值不會下降。還要注意的是，在發生內部索引操作的時候，這個值也會增加，比如說文檔更新。還列出了索引操作耗費

2024-04-07 13:07:02

VCL界面組件DevExpress VCL v23.2 - 圖表控件增強

DevExpress VCL是DevExpress公司旗下最老牌的用戶界面套包，所包含的控件有：數據錄入、圖表、數據分析、導航、佈局等。該控件能幫助您創建優異的用戶體驗，提供高影響力的業務解決方案，並利用您現有的VCL技能爲未來構建下一代應

2024-06-07 12:16:51

響應式界面控件DevExtreme * 更強的數據分析和可視化功能

DevExtreme擁有高性能的HTML5 / JavaScript小部件集合*使您可以利用現代Web開發堆棧*包括React*Angular*ASP.NET Core*jQuery*Knockout等*構建交互式的Web應用程序。從Ang

2024-05-31 12:32:20

關於Vearch在大模型中使用的一些實踐

背景這兩年來大模型及其熱門，不僅各大廠家的模型層出不窮，各類RGA、Agent應用也花樣繁多。這也帶火了一批基礎設施，比如Langchain、向量數據庫（也叫矢量數據庫-Vector Database）等。現在市場上的向量庫種類特別繁多

2024-05-28 11:56:14

海外媒介效果分析就這麼做！

如何在數據安全與合規的前提下，高效地追蹤海外多媒體平臺的投放流量，有效歸因分析投放效果，持續優化企業在海外媒體的一系列營銷動作？針對企業客戶的這一需求，神策數據從專業性和效率最佳兩個角度綜合考慮，接入多家第三方 MMP（Mobile

2024-05-21 21:52:18

GPT-4o 引領人機交互新風向，向量數據庫賽道沸騰了

OpenAI 發佈 ChatGPT-4o，意味着人機交互進入新的時代。Chat-GPT4o 是一個跨文本、視覺和音頻端到端訓練的新模型，所有輸入和輸出都由同一個神經網絡處理。這也在告訴所有人，GenAI 連接非結構化數據，非結構化數據之間跨

2024-05-15 21:25:59

神策數據：海外媒介效果分析就這麼做！

如何在數據安全與合規的前提下，高效地追蹤海外多媒體平臺的投放流量，有效歸因分析投放效果，持續優化企業在海外媒體的一系列營銷動作？針對企業客戶的這一需求，神策數據從專業性和效率最佳兩個角度綜合考慮，接入多家第三方 MMP（Mobile

2024-04-18 21:41:20

聚合bucket超過10000默認設置報錯

persistent 持久化的下次重啓仍然生效 transient 臨時的下次重啓失效 PUT /_cluster/settings { "persistent": { "search.max_buckets": 2147483

2024-04-07 13:07:30

不愛看視頻的有福了：AppBuilder工作流編排功能實操講解

千帆AppBuilder的工作流編排功能上線後，爲了讓用戶能夠更快地熟悉操作，我們請到了AppBuilder的產品經理爲大家直播講解。在這次直播中，PM小姐姐深入介紹並演示了工作流編排功能，通過創建多個組件，生動展示了AppBui

2024-05-16 00:15:52

k12教育常規賽倒計時3天！快來爲你心中的優秀應用打call～

⏰倒計時3天！K12教育常規賽倒計時開啓～最後的衝刺來啦！K12教育常規賽：賽題爲開放賽題，參賽者需聚焦小學、初中、高中生的學習或生活場景，使用百度智能雲千帆AppBuilder創作AI原生應用，形式、創意不限，0代碼低門檻創建應用，常

2024-04-17 23:29:39

RAG應用開發實戰02-相似性檢索的關鍵 - Embedding

1 文本Embedding 將整個文本轉化爲實數向量的技術。 Embedding優點是可將離散的詞語或句子轉化爲連續的向量，就可用數學方法來處理詞語或句子，捕捉到文本的語義信息，文本和文本的關係信息。 ◉ 優質的Embedding通常會讓語

2024-04-15 01:07:41

mysqldump 備份產生大量慢查詢，有辦法過濾麼？

MySQL 8.0.30 新功能，再也不用擔心大量無效日誌了！作者：李富強，愛可生 DBA 團隊成員，熟悉 MySQL，TiDB，OceanBase 等數據庫。相信持續把對的事情做好一點，會有不一樣的收穫。愛可生開源社區出品，原創內容

2024-04-08 23:20:09

數倉調優實戰：GUC參數調優

本文分享自華爲雲社區《GaussDB(DWS)性能調優系列實戰篇七：十八般武藝之GUC參數調優》，作者：黎明的風。 1. 前言適用版本：【8.1.1及以上】 GaussDB(DWS)性能調優系列專題文章，介紹了數據庫性能調優的思路

2024-04-07 22:32:37

AI原生應用元年：不是大模型捲不起，而是“應用”更具性價比

百度開發者中心

2024-04-07 11:28:15

100+創意AI原生應用，總有一款你感興趣的

“千帆杯AI原生應用開發挑戰賽”自開賽以來，得到上千名開發者的熱情參與，已成功舉辦2期，創作了幾百個具有實踐意義的創新AI原生應用。在此期間得到了衆多開發者的寶貴建議，爲進一步激活開發者創作熱情，提升開發者創新體驗，“千帆杯AI原生應用

百度開發者中心

2024-04-07 11:28:12

24小時熱門文章

最新文章

最新評論文章