lucene實現搜索淺談

原創

神雕摩卡之2

2020-06-24 22:03

項目中實現檢索功能是現在許多網站項目都存在的功能，比如cms系統等。

現在我就以cms系統爲例簡單的說一下實現關鍵詞檢索功能，當我們在系統中發佈一篇文章之後怎麼能夠讓我們利用lucene可以檢索出來呢i？

其實是這樣的，當我們把一篇文章的系統保存到數據庫之後同時實現把該文章的所有系統生成一系列的檢索文件，這樣在網站上的搜索就相當與在document中搜索關鍵字一樣了，然後對文章的刪改的同時對所生成的檢索文件根據具體的索引進行相應的刪改。下面說明lucene的幾個關鍵的屬性：

Document
Document 是用來描述文檔的，這裏的文檔可以指一個 HTML 頁面，一封電子郵件，或者是一個文本文件。一個 Document 對象由多個 Field 對象組成的。可以把一個 Document 對象想象成數據庫中的一個記錄，而每個 Field 對象就是記錄的一個字段。
Field
Field 對象是用來描述一個文檔的某個屬性的，比如一封電子郵件的標題和內容可以用兩個 Field 對象分別描述。
Analyzer
在一個文檔被索引之前，首先需要對文檔內容進行分詞處理，這部分工作就是由 Analyzer 來做的。Analyzer 類是一個抽象類，它有多個實現。針對不同的語言和應用需要選擇適合的 Analyzer。Analyzer 把分詞後的內容交給 IndexWriter 來建立索引。
IndexWriter
IndexWriter 是 Lucene 用來創建索引的一個核心的類，他的作用是把一個個的 Document 對象加到索引中來。
Directory
這個類代表了 Lucene 的索引的存儲的位置，這是一個抽象類，它目前有兩個實現，第一個是 FSDirectory，它表示一個存儲在文件系統中的索引的位置。第二個是 RAMDirectory，它表示一個存儲在內存當中的索引的位置。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

elasticsearch 監控查看活躍的search

GET _nodes/stats indexing 顯示已經索引了多少文檔。這個值是一個累加計數器。在文檔被刪除的時候，數值不會下降。還要注意的是，在發生內部索引操作的時候，這個值也會增加，比如說文檔更新。還列出了索引操作耗費

2024-04-07 13:07:02

微信全文搜索耗時降94%？我們用了這種方案

導語 |微信終端涉及到大量文本搜索的業務場景，主要包括聯繫人搜索、聊天記錄搜索和收藏搜索等。近期微信團隊對 IOS 微信的全文搜索技術進行了一次全面升級，本文將分享其選型與優化思路，詳細解析全文搜索的應用數據庫表格式、索引更新和搜索邏輯的

騰訊雲開發者社區

2023-02-21 11:45:35

O2OA平臺2022年度壓軸新版本v7.3已發佈

O2OA自產品發佈以來，我們收到了很多夥伴對產品的寶貴建議和意見，在2022年的最後一個版本里，我們爲夥伴們又提供了新的能力，v7.3版本正式發佈，對平臺做了更多的優化。本年度壓軸新版本v7.3 一、平臺架構新增帶權限的全文檢索

2023-01-10 10:36:09

微信iOS端的最新全文檢索技術優化實踐

本文由微信開發團隊工程師“ qiuwenchen”分享，發佈於WeMobileDev公衆號，有修訂。 1、引言全文搜索是使用倒排索引進行搜索的一種搜索方式。倒排索引也稱爲反向索引，是指對輸入的內容中的每個Token建立一個索引，索引中保

2022-04-30 11:51:28

Elasticsearch8/7/6各版本特性

Elasticsearch8/7/6各版本特性 - MyOldTime的個人空間 - OSCHINA - 中文開源技術交流社區版本新特性說明 8.1 Doc-values-only search on numeric, d

2022-04-30 05:37:14

Elasticsearch數據類型和mapping

說明 ElasticSearch有着豐富的數據類型規則和數據屬性設置，數據類型決定數據規則，特別字符串類型，text默認分詞，keyword不分詞，這將直接影響查詢方式和結果，同樣，mapping可以設置哪些字段建立索引，原始數據是否存儲

2021-12-25 21:31:01

ElasticSearch的REST APIs 之索引的監控(monitoring)

基於ES7.7 官方文檔內容包括: 索引的統計信息 (Index stats) 索引的段 (Index segments) 索引的恢復信息 (Index recovery) 索引分片的存儲 (Index shard stores)

2021-12-25 21:22:56

ElasticSearch的REST APIs 之索引的狀態管理

基於ES7.7 官方文檔內容包括: 清空緩存 ( Clear cache ) 更新索引以讓新文檔可以被搜索 ( Refresh ) 將內存緩衝區中的文檔寫入磁盤 ( Flush ) 同步Flush ( Synced flush )

2021-12-25 21:22:56

Lucene 和 Elasticsearch 有什麼區別 - What is the difference between Lucene and Elasticsearch

問題：我知道 ElasticSearch 是基於 Apache Lucene 構建的，但我想知道兩者之間的顯着差異。解決方案：參考一： https://en.stackoom.com/question/1scPp 參考二： h

2021-10-23 09:25:55

[轉]:ElasticSearch: Index 和 Type 的區別

原文: Index vs. Type By Adrien Grand 譯者: fengchang 對於 ES 的新用戶來說，有一個常見的問題：要存儲一批新的數據時，應該在已有 index 裏新建一個 type，還是給它新建一個 index？

2021-09-17 21:36:00

Android 開發的盡頭就是 Linux 系統~

如今的軟件開發行業，服務器端市場基本被 Linux 系統佔領了。移動端中的 Android 系統是基於 Linux 內核開發的，那些很火的虛擬化、消息隊列、雲計算、大數據等技術，都默認支持 Linux 操作系統。而對軟件工程師來說，也

音視頻開發進階

2021-09-09 21:21:12

Elastic Meetup 2021 深圳站回顧

Elastic Meetup 2 0 2 1 深圳

2021-08-27 21:41:49

Elastic 線下 Meetup 深圳站來了！

Elastic中文社區聯合騰訊雲大數據，騰訊雲+社區，將於2021年8月21日在騰訊濱海大廈舉辦本年度首次線下（線上同步直播）技術交流活動。本次活動的交流內容主要圍繞Elastic Stack 產品（Elasticsearch

2021-08-17 21:42:04

ElasticSearch 億級數據檢索深度優化

數據平臺已迭代三個版本，從頭開始遇到很多常見的難題，終於有片段時間整理一些已完善的文檔，在此分享以供所需朋友的實現參考，少走些彎路，在此篇幅中偏重於ES的優化。 - 需求說明 - 項目背景

大數據技術與架構

2021-08-09 21:16:50

Elasticsearch 修改mapping

舊索引信息如下： index：test_v1 type：item alias：item_alias mapping： { "properties": { "itemId": { "type": "long"

2021-04-29 21:19:59

24小時熱門文章

最新文章

最新評論文章