lucene series 1 document 文档索引创建

原創

2020-02-24 03:22

此图为lucene 获取数据建立索引 Understanding the indexing process

lucene 建立索引步骤

1，Extracting text and creating the document 提取数据，创建文档

2，Analysis 分析获取的内容，采用分词过滤stop word（非关键字）

3，add to the index 添加分析后的结果到 index

在此步把索引分块存储，为了检索给力，这就是为什么lucene index中为啥有那么多小文件的原因吧

代码提现：

 protected String[] ids = {"1", "2"};
  protected String[] unindexed = {"Netherlands", "Italy"};
  protected String[] unstored = {"Amsterdam has lots of bridges",
                                 "Venice has lots of canals"};
  protected String[] text = {"Amsterdam", "Venice"};
  private Directory directory;
  protected void setUp() throws Exception {
    directory = new RAMDirectory();  //内存字典
    IndexWriter writer = getWriter(); //io操作，需要输出流，理所当然
    for (int i = 0; i < ids.length; i++) 
{
      Document doc = new Document();
      doc.add(new Field("id", ids[i],      
                        Field.Store.YES, 
                        Field.Index.NOT_ANALYZED)); //id 没有必要分词
      doc.add(new Field("country", unindexed[i],
                        Field.Store.YES,
                        Field.Index.NO));
      doc.add(new Field("contents", unstored[i],
                        Field.Store.NO,
                        Field.Index.ANALYZED));//内容分词
      doc.add(new Field("city", text[i],  /**获取数据**/
                        Field.Store.YES,
                        Field.Index.ANALYZED)); /**分析数据**/

	writer.addDocument(doc);   /**加入文档**/

writer.close();  /**生成index**/

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

elasticsearch 监控查看活跃的search

GET _nodes/stats indexing 顯示已經索引了多少文檔。這個值是一個累加計數器。在文檔被刪除的時候，數值不會下降。還要注意的是，在發生內部索引操作的時候，這個值也會增加，比如說文檔更新。還列出了索引操作耗費

2024-04-07 13:07:02

微信全文搜索耗时降94%？我们用了这种方案

導語 |微信終端涉及到大量文本搜索的業務場景，主要包括聯繫人搜索、聊天記錄搜索和收藏搜索等。近期微信團隊對 IOS 微信的全文搜索技術進行了一次全面升級，本文將分享其選型與優化思路，詳細解析全文搜索的應用數據庫表格式、索引更新和搜索邏輯的

騰訊雲開發者社區

2023-02-21 11:45:35

O2OA平台2022年度压轴新版本v7.3已发布

O2OA自產品發佈以來，我們收到了很多夥伴對產品的寶貴建議和意見，在2022年的最後一個版本里，我們爲夥伴們又提供了新的能力，v7.3版本正式發佈，對平臺做了更多的優化。本年度壓軸新版本v7.3 一、平臺架構新增帶權限的全文檢索

2023-01-10 10:36:09

微信iOS端的最新全文检索技术优化实践

本文由微信開發團隊工程師“ qiuwenchen”分享，發佈於WeMobileDev公衆號，有修訂。 1、引言全文搜索是使用倒排索引進行搜索的一種搜索方式。倒排索引也稱爲反向索引，是指對輸入的內容中的每個Token建立一個索引，索引中保

2022-04-30 11:51:28

Elasticsearch8/7/6各版本特性

Elasticsearch8/7/6各版本特性 - MyOldTime的個人空間 - OSCHINA - 中文開源技術交流社區版本新特性說明 8.1 Doc-values-only search on numeric, d

2022-04-30 05:37:14

Elasticsearch数据类型和mapping

說明 ElasticSearch有着豐富的數據類型規則和數據屬性設置，數據類型決定數據規則，特別字符串類型，text默認分詞，keyword不分詞，這將直接影響查詢方式和結果，同樣，mapping可以設置哪些字段建立索引，原始數據是否存儲

2021-12-25 21:31:01

ElasticSearch的REST APIs 之索引的监控(monitoring)

基於ES7.7 官方文檔內容包括: 索引的統計信息 (Index stats) 索引的段 (Index segments) 索引的恢復信息 (Index recovery) 索引分片的存儲 (Index shard stores)

2021-12-25 21:22:56

ElasticSearch的REST APIs 之索引的状态管理

基於ES7.7 官方文檔內容包括: 清空緩存 ( Clear cache ) 更新索引以讓新文檔可以被搜索 ( Refresh ) 將內存緩衝區中的文檔寫入磁盤 ( Flush ) 同步Flush ( Synced flush )

2021-12-25 21:22:56

Lucene 和 Elasticsearch 有什么区别 - What is the difference between Lucene and Elasticsearch

問題：我知道 ElasticSearch 是基於 Apache Lucene 構建的，但我想知道兩者之間的顯着差異。解決方案：參考一： https://en.stackoom.com/question/1scPp 參考二： h

2021-10-23 09:25:55

[转]:ElasticSearch: Index 和 Type 的区别

原文: Index vs. Type By Adrien Grand 譯者: fengchang 對於 ES 的新用戶來說，有一個常見的問題：要存儲一批新的數據時，應該在已有 index 裏新建一個 type，還是給它新建一個 index？

2021-09-17 21:36:00

Android 开发的尽头就是 Linux 系统~

如今的軟件開發行業，服務器端市場基本被 Linux 系統佔領了。移動端中的 Android 系統是基於 Linux 內核開發的，那些很火的虛擬化、消息隊列、雲計算、大數據等技術，都默認支持 Linux 操作系統。而對軟件工程師來說，也

音視頻開發進階

2021-09-09 21:21:12

Elastic Meetup 2021 深圳站回顾

Elastic Meetup 2 0 2 1 深圳

2021-08-27 21:41:49

Elastic 线下 Meetup 深圳站来了！

Elastic中文社區聯合騰訊雲大數據，騰訊雲+社區，將於2021年8月21日在騰訊濱海大廈舉辦本年度首次線下（線上同步直播）技術交流活動。本次活動的交流內容主要圍繞Elastic Stack 產品（Elasticsearch

2021-08-17 21:42:04

ElasticSearch 亿级数据检索深度优化

數據平臺已迭代三個版本，從頭開始遇到很多常見的難題，終於有片段時間整理一些已完善的文檔，在此分享以供所需朋友的實現參考，少走些彎路，在此篇幅中偏重於ES的優化。 - 需求說明 - 項目背景

大數據技術與架構

2021-08-09 21:16:50

Elasticsearch 修改mapping

舊索引信息如下： index：test_v1 type：item alias：item_alias mapping： { "properties": { "itemId": { "type": "long"

2021-04-29 21:19:59

24小時熱門文章

最新文章

最新評論文章