Lucene 是一個開源、高度可擴展的搜索引擎庫,可以從 Apache Software Foundation 獲取。您可以將 Lucene 用於商業和開源應用程序。Lucene 強大的 API 主要關注文本索引和搜索。它可以用於爲各種應用程序構建搜索功能,比如電子郵件客戶端、郵件列表、Web 搜索、數據庫搜索等等。Wikipedia、TheServerSide、jGuru 和 LinkedIn 等網站都使用了 Lucene。
Lucene 還爲 Eclipse IDE、Nutch(著名的開源 Web 搜索引擎)以及 IBM®、AOL 和 Hewlett-Packard 等公司提供搜索功能。Lucene 已經兼容許多其他編程語言,包括 Perl、Python、C++ 和 .NET。到 2009 年 7 月 30 日止,用於 Java™ 編程語言的最新版 Lucene 爲 V2.4.1。
Lucene 功能衆多:
- 擁有強大、準確、有效的搜索算法。
- 計算每個文檔匹配給定查詢的分數,並根據分數返回最相關的文檔。
- 支持許多強大的查詢類型,比如 PhraseQuery、WildcardQuery、RangeQuery、FuzzyQuery、BooleanQuery 等。
- 支持解析人們輸入的豐富查詢表達式。
- 允許用戶使用定製排序、過濾和查詢表達式解析擴展搜索行爲。
- 使用基於文件的鎖定機制保護併發索引修改。
- 允許同時搜索和編制索引。
|
如圖 1 所示,使用 Lucene 構建功能全面的搜索應用程序主要涉及編制數據索引、搜索數據和顯示搜索結果幾個方面。
本文從使用 Lucene V2.4.1 和 Java 技術開發的樣例應用程序中挑選了一些代碼片段。示例應用程序爲存儲在屬性文件中一組電子郵件文檔編制索引,並展示瞭如何使用 Lucene 的查詢 API 搜索索引。該示例還讓您熟悉基本的索引操作。
|
Lucene 允許您爲任何文本格式的數據編制索引。Lucene 可以用於幾乎任何數據源以及從中提取的文本信息。您可以使用 Lucene 編制索引並搜索 HTML 文檔、Microsoft® Word 文檔、PDF 文件中存儲的數據。編制數據索引的第一步是讓數據變成一個簡單的文本格式。您可以使用定製解析器和數據轉換器實現這一點。
編制索引 是將文本數據轉換爲有利於快速搜索的格式。這類似於書本後面的索引:爲您指出主題在書中出現的位置。
Lucene 將輸入數據存儲在名爲逆序 索引的數據結構中, 該數據結構以索引文件集的形式存儲在文件系統或內存中。大部分 Web 搜索引擎都使用逆序索引。它允許用戶執行快速關鍵字查詢,查找匹配給定查詢的文檔。在將文本數據添加到索引前,由分析程序(使用分析過程)進行處理。
分析 是將文本數據轉換爲搜索基本單位(稱爲項(term) )的過程。在分析過程中,文本數據將經歷多項操作:提取單詞、移除通用單詞、忽略標點符號、將單詞變爲詞根形式、將單詞變成小寫等等。分析過程發生在編制索引和查詢解析之前。分析將文本數據轉換爲標記,這些標記將作爲項添加到 Lucene 索引中。
Lucene 有多種內置分析程序,比如 SimpleAnalyzer、StandardAnalyzer、StopAnalyzer、SnowballAnalyzer 等。它們在標記文本和應用過濾器的方式上有所區別。因爲分析在編制索引之前移除單詞,它減少了索引的大小,但是不利用精確的查詢過程。您可以使用 Lucene 提供的基本構建塊創建定製分析程序,以自己的方式控制分析過程。表 1 展示了一些內置分析程序及其處理數據的方式。
分析程序 | 對文本數據的操作 |
---|---|
WhitespaceAnalyzer | 分解空白處的標記 |
SimpleAnalyzer | 分解非字母字符的文本,並將文本轉爲小寫形式 |
StopAnalyzer | 移除虛字(stop word)—— 對檢索無用的字,並將文本轉爲小寫形式 |
StandardAnalyzer | 根據一種複雜語法(識別電子郵件地址、縮寫、中文、日文、韓文字符、字母數字等等)標記文本 將文本轉爲小寫形式 移除虛字 |
Directory
- 表示索引文件存儲位置的抽象類。有兩個常用的子類:
FSDirectory
— 在實際文件系統中存儲索引的Directory
實現。該類對於大型索引非常有用。RAMDirectory
— 在內存中存儲所有索引的實現。該類適用於較小的索引,可以完整加載到內存中,在應用程序終止之後銷燬。由於索引保存在內存中,所以速度相對較快。
Analyzer
- 正如上文所述,分析程序負責處理文本數據並將其轉換爲標記存儲在索引中。在編制索引前,
IndexWriter
接收用於標記數據的分析程序。要爲文本編制索引,您應該使用適用於該文本語言的分析程序。默認分析程序適用於英語。在 Lucene 沙盒中還有其他分析程序,包括用於中文、日文和韓文的分析程序。
IndexDeletionPolicy
- 該接口用來實現從索引目錄中定製刪除過時提交的策略。默認刪除策略是
KeepOnlyLastCommitDeletionPolicy
,該策略僅保留最近的提交,並在完成一些提交之後立即移除所有之前的提交。 IndexWriter
- 創建或維護索引的類。它的構造函數接收布爾值,確定是否創建新索引,或者打開現有索引。它提供在索引中添加、刪除和更新文檔的方法。
對索引所做的更改最初緩存在內存中,並週期性轉儲到索引目錄。
IndexWriter
公開了幾個控制如何在內存中緩存索引並寫入磁盤的字段。對索引的更改對於IndexReader
不可見,除非調用IndexWriter
的提交或關閉方法。IndexWriter
創建一個目錄鎖定文件,以通過同步索引更新保護索引不受破壞。IndexWriter
允許用戶指定可選索引刪除策略。
//Create instance of Directory where index files will be stored
Directory fsDirectory = FSDirectory.getDirectory(indexDirectory);
/* Create instance of analyzer, which will be used to tokenize
the input data */
Analyzer standardAnalyzer = new StandardAnalyzer();
//Create a new index
boolean create = true;
//Create the instance of deletion policy
IndexDeletionPolicy deletionPolicy = new KeepOnlyLastCommitDeletionPolicy();
indexWriter =new IndexWriter(fsDirectory,standardAnalyzer,create,
deletionPolicy,IndexWriter.MaxFieldLength.UNLIMITED);
將文本數據添加到索引涉及到兩個類。
Field
表示搜索中查詢或檢索的數據片。Field
類封裝一個字段名稱及其值。Lucene 提供了一些選項來指定字段是否需要編制索引或分析,以及值是否需要存儲。這些選項可以在創建字段實例時傳遞。下表展示了 Field
元數據選項的詳細信息。
選項 | 描述 |
---|---|
Field.Store.Yes | 用於存儲字段值。適用於顯示搜索結果的字段 — 例如,文件路徑和 URL。 |
Field.Store.No | 沒有存儲字段值 — 例如,電子郵件消息正文。 |
Field.Index.No | 適用於未搜索的字段 — 僅用於存儲字段,比如文件路徑。 |
Field.Index.ANALYZED | 用於字段索引和分析 — 例如,電子郵件消息正文和標題。 |
Field.Index.NOT_ANALYZED | 用於編制索引但不分析的字段。它在整體中保留字段的原值 — 例如,日期和個人名稱。 |
Document
是一個字段集合。Lucene 也支持推進文檔和字段,這在給某些索引數據賦予重要性時非常有用。給文本文件編制索引包括將文本數據封裝在字段中、創建文檔、填充字段,使用 IndexWriter
向索引添加文檔。
列表 2 展示向索引添加數據的示例。
|
|
搜索是在索引中查找單詞並查找包含這些單詞的文檔的過程。使用 Lucene 的搜索 API 構建的搜索功能非常簡單明瞭。本小節討論 Lucene 搜索 API 的主要類。
Searcher
是一個抽象基類,包含各種超負荷搜索方法。IndexSearcher
是一個常用的子類,允許在給定的目錄中存儲搜索索引。Search
方法返回一個根據計算分數排序的文檔集合。Lucene 爲每個匹配給定查詢的文檔計算分數。IndexSearcher
是線程安全的;一個實例可以供多個線程併發使用。
Term 是搜索的基本單位。它由兩部分組成:單詞文本和出現該文本的字段的名稱。Term 對象也涉及索引編制,但是可以在 Lucene 內部創建。
Query
是一個用於查詢的抽象基類。搜索指定單詞或詞組涉及到在項中包裝它們,將項添加到查詢對象,將查詢對象傳遞到 IndexSearcher
的搜索方法。
Lucene 包含各種類型的具體查詢實現,比如 TermQuery、BooleanQuery、PhraseQuery、PrefixQuery、RangeQuery、 MultiTermQuery、FilteredQuery、SpanQuery 等。以下部分討論 Lucene 查詢 API 的主查詢類。
TermQuery
- 搜索索引最基本的查詢類型。可以使用單個項構建
TermQuery
。項值應該區分大小寫,但也並非全是如此。注意,傳遞的搜索項應該與文檔分析得到的項一致,因爲分析程序在構建索引之前對原文本執行許多操作。例如,考慮電子郵件標題 “Job openings for Java Professionals at Bangalore”。假設您使用
StandardAnalyzer
編制索引。現在如果我們使用TermQuery
搜索 “Java”,它不會返回任何內容,因爲本文本應該已經規範化,並通過StandardAnalyzer
轉成小寫。如果搜索小寫單詞 “java”,它將返回所有標題字段中包含該單詞的郵件。
//Search mails having the word "java" in the subject field
Searcher indexSearcher = new IndexSearcher(indexDirectory);
Term term = new Term("subject","java");
Query termQuery = new TermQuery(term);
TopDocs topDocs = indexSearcher.search(termQuery,10); RangeQuery
- 您可以使用
RangeQuery
在某個範圍內搜索。索引中的所有項都以字典順序排列。Lucene 的RangeQuery
允許用戶在某個範圍內搜索項。該範圍可以使用起始項和最終項(包含兩端或不包含兩端均可)指定。
/* RangeQuery example:Search mails from 01/06/2009 to 6/06/2009
both inclusive */
Term begin = new Term("date","20090601");
Term end = new Term("date","20090606");
Query query = new RangeQuery(begin, end, true); PrefixQuery
- 您可以使用
PrefixQuery
通過前綴單詞進行搜索,該方法用於構建一個查詢,該查詢查找包含以指定單詞前綴開始的詞彙的文檔。
//Search mails having sender field prefixed by the word 'job'
PrefixQuery prefixQuery = new PrefixQuery(new Term("sender","job"));
PrefixQuery query = new PrefixQuery(new Term("sender","job")); BooleanQuery
- 您可以使用
BooleanQuery
組合任何數量的查詢對象,構建強大的查詢。它使用query
和一個關聯查詢的子句,指示查詢是應該發生、必須發生還是不得發生。在BooleanQuery
中,子句的最大數量默認限制爲 1,024。您可以調用setMaxClauseCount
方法設置最大子句數。
// Search mails have both 'java' and 'bangalore' in the subject field
Query query1 = new TermQuery(new Term("subject","java"));
Query query2 = new TermQuery(new Term("subject","bangalore"));
BooleanQuery query = new BooleanQuery();
query.add(query1,BooleanClause.Occur.MUST);
query.add(query2,BooleanClause.Occur.MUST); PhraseQuery
- 您可以使用
PhraseQuery
進行短語搜索。PhraseQuery
匹配包含特定單詞序列的文檔。PhraseQuery
使用索引中存儲的項的位置信息。考慮匹配的項之間的距離稱爲 slop 。默認情況下,slop 的值爲零,這可以通過調用setSlop
方法進行設置。PhraseQuery
還支持多個項短語。
/* PhraseQuery example: Search mails that have phrase 'job opening j2ee'
in the subject field.*/
PhraseQuery query = new PhraseQuery();
query.setSlop(1);
query.add(new Term("subject","job"));
query.add(new Term("subject","opening"));
query.add(new Term("subject","j2ee")); WildcardQuery
WildcardQuery
實現通配符搜索查詢,這允許您搜索 arch*(可以查找包含 architect、architecture 等)之類的單詞。使用兩個標準通配符:-
*
表示零個以上 -
?
表示一個以上
//Search for 'arch*' to find e-mail messages that have word 'architect' in the subject
field./
Query query = new WildcardQuery(new Term("subject","arch*"));-
FuzzyQuery
- 您可以使用
FuzzyQuery
搜索類似項,該類匹配類似於指定單詞的單詞。類似度測量基於 Levenshtein(編輯距離)算法進行。在列表 9 中,FuzzyQuery
用於查找與拼錯的單詞 “admnistrtor” 最接近的項,儘管這個錯誤單詞沒有索引。
/* Search for emails that have word similar to 'admnistrtor' in the
subject field. Note we have misspelled admnistrtor here.*/
Query query = new FuzzyQuery(new Term("subject", "admnistrtor")); QueryParser
QueryParser
對於解析人工輸入的查詢字符非常有用。您可以使用它將用戶輸入的查詢表達式解析爲 Lucene 查詢對象,這些對象可以傳遞到IndexSearcher
的搜索方法。它可以解析豐富的查詢表達式。QueryParser
內部將人們輸入的查詢字符串轉換爲一個具體的查詢子類。您需要使用反斜槓(/
)將*
、?
等特殊字符進行轉義。您可以使用運算符AND
、OR
和NOT
構建文本布爾值查詢。QueryParser queryParser = new QueryParser("subject",new StandardAnalyzer());
// Search for emails that contain the words 'job openings' and '.net' and 'pune'
Query query = queryParser.parse("job openings AND .net AND pune");
|
IndexSearcher
返回一組對分級搜索結果(如匹配給定查詢的文檔)的引用。您可以使用 IndexSearcher
的搜索方法確定需要檢索的最優先搜索結果數量。可以在此基礎上構建定製分頁。您可以添加定製 Web 應用程序或桌面應用程序來顯示搜索結果。檢索搜索結果涉及的主要類包括 ScoreDoc
和 TopDocs
。
ScoreDoc
- 搜索結果中包含一個指向文檔的簡單指針。這可以封裝文檔索引中文檔的位置以及 Lucene 計算的分數。
TopDocs
- 封裝搜索結果以及
ScoreDoc
的總數。
以下代碼片段展示瞭如何檢索搜索結果中包含的文檔。
/* First parameter is the query to be executed and |
基本的索引操作包括移除和提升文檔。
應用程序常常需要使用最新的數據更新索引並移除較舊的數據。例如,在 Web 搜索引擎中,索引需要定期更新,因爲總是需要添加新網頁,移除不存在的網頁。Lucene 提供了 IndexReader
接口允許您對索引執行這些操作。
IndexReader
是一個提供各種方法訪問索引的抽象類。Lucene 內部引用文檔時使用文檔編號,該編號可以在向索引添加或從中移除文檔時更改。文檔編號用於訪問索引中的文檔。IndexReader
不得用於更新目錄中的索引,因爲已經打開了
IndexWriter
。IndexReader
在打開時總是搜索索引的快照。對索引的任何更改都可以看到,直到再次打開 IndexReader
。使用 Lucene 重新打開它們的 IndexReader
可以看到最新的索引更新。
// Delete all the mails from the index received in May 2009. |
有時您需要給某些索引數據更高的重要級別。您可以通過設置文檔或字段的提升因子實現這一點。默認情況下,所有文檔和字段的默認提升因子都是 1.0。
if(subject.toLowerCase().indexOf("pune") != -1){ |
|
Lucene 提供一個稱爲排序 的高級功能。您可以根據指示文檔在索引中相對位置的字段對搜索結果進行排序。用於排序的字段必須編制索引但不得標記。搜索字段中可以放入 4 種可能的項值:整數值、long 值、浮點值和字符串。
還可以通過索引順序排序搜索結果。Lucene 通過降低相關度(比如默認的計算分數)對結果排序。排序的順序是可以更改的。
/* Search mails having the word 'job' in subject and return results |
Filtering
是限制搜索空間,只允許某個文檔子集作爲搜索範圍的過程。您可以使用該功能實現對搜索結果進行再次搜索,或者在搜索結果上實現安全性。Lucene
帶有各種內置的過濾器,比如
BooleanFilter、CachingWrapperFilter、ChainedFilter、DuplicateFilter、
PrefixFilter、QueryWrapperFilter、RangeFilter、RemoteCachingWrapperFilter、
SpanFilter 等。Filter
可以傳遞到 IndexSearcher
的搜索方法,以過濾匹配篩選標準的篩選文檔。
/*Filter the results to show only mails that have sender field |
|
Lucene 是來自 Apache 的一個非常流行的開源搜索庫, 它爲應用程序提供了強大的索引編制和搜索功能。它提供了一個簡單易用的 API,只需要稍微瞭解索引編制和搜索的原理即可使用。在本文中,您學習了 Lucene 架構及其核心 API。
Lucene 爲許多知名網站和組織提供了各種強大的搜索功能。它還兼容許多其他編程語言。Lucene 有一個活躍的大型技術用戶社區。如果您需要一些易用、可擴展以及高性能的開源搜索庫,Apache Lucene 是一個極佳的選擇。
|
描述 | 名字 | 大小 | 下載方法 |
---|---|---|---|
Lucene 代碼示例 | os-apache-lucenesearch-SampleApplication.zip | 755KB | HTTP |
關於下載方法的信息 |
學習
- 瞭解所有有關
Apache Lucene
的內容,包括最新新聞。
- Lucene in Action
(作者:Erik Hatcher 和
Otis Gospodnetic)是 Lucene 的權威指南。它描述瞭如何編制數據索引,包括您必須瞭解的幾種類型,比如 MS Word、PDF、HTML 和 XML。它介紹瞭如何搜索、排序、過濾和高亮顯示搜索結果。
-
要收聽面向軟件開發人員的有趣訪談和討論,請查看 developerWorks 播客
。
- 隨時關注 developerWorks 技術活動
和網絡廣播
。
-
查閱最近將在全球舉辦的面向 IBM 開放源碼開發人員的研討會、交易展覽、網絡廣播和其他 活動
。
-
訪問 developerWorks 開放源碼專區
,獲得豐富的 how-to 信息、工具和項目更新,幫助您用開放源碼技術進行開發,並與 IBM 產品結合使用。
-
查看免費的 developerWorks 演示中心
,觀看並瞭解 IBM 及開源技術和產品功能。
獲得產品和技術
-
使用 IBM 產品評估試用版軟件
改進您的下一個開發項目,這些軟件可以通過下載獲得。
- 下載 IBM 產品評估試用版軟件 或 IBM SOA Sandbox for Reuse ,並開始使用來自 DB2®、Lotus®、Rational®、Tivoli® 和 WebSphere® 的應用程序開發工具和中間件產品。
討論
- 參與 developerWorks 博客 並加入 developerWorks 社區。