Lucene實現自定義相似度計算公式

原創

_飞翔的企鹅_

2020-02-22 18:13

假如我們在特殊的應用場景中，需要忽略tf、df所產生的影響，可以如下實現：

1、實現自己的相似度計算方式：

public class MySimilarity extends DefaultSimilarity {
	  @Override
	  public float tf(float freq) {
	    return 1.0f;
	  }

	  /** Implemented as <code>log(numDocs/(docFreq+1)) + 1</code>. */
	  @Override
	  public float idf(long docFreq, long numDocs) {
	    return 1.0f;
	  }
}

2、在創建索引時IndexWriterConfig中指定相似度計算方式如下：

		Analyzer analyzer = new MyAnalyzer(0);
		MySimilarity sim = new MySimilarity();
		
		IndexWriterConfig iwc = new IndexWriterConfig(Version.LUCENE_48, analyzer);
		iwc.setOpenMode(OpenMode.CREATE);
		iwc.setSimilarity(sim);

		IndexWriter writer = new IndexWriter(indexDir, iwc);

3、在搜索時指定相似度計算方式：

                MySimilarity sim = new MySimilarity();
		IndexSearcher searcher = new IndexSearcher(reader);
		searcher.setSimilarity(sim);

_飛翔的企鵝_

發佈了69 篇原創文章 · 獲贊 56 · 訪問量 44萬+

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

elasticsearch 監控查看活躍的search

GET _nodes/stats indexing 顯示已經索引了多少文檔。這個值是一個累加計數器。在文檔被刪除的時候，數值不會下降。還要注意的是，在發生內部索引操作的時候，這個值也會增加，比如說文檔更新。還列出了索引操作耗費

2024-04-07 13:07:02

微信全文搜索耗時降94%？我們用了這種方案

導語 |微信終端涉及到大量文本搜索的業務場景，主要包括聯繫人搜索、聊天記錄搜索和收藏搜索等。近期微信團隊對 IOS 微信的全文搜索技術進行了一次全面升級，本文將分享其選型與優化思路，詳細解析全文搜索的應用數據庫表格式、索引更新和搜索邏輯的

騰訊雲開發者社區

2023-02-21 11:45:35

O2OA平臺2022年度壓軸新版本v7.3已發佈

O2OA自產品發佈以來，我們收到了很多夥伴對產品的寶貴建議和意見，在2022年的最後一個版本里，我們爲夥伴們又提供了新的能力，v7.3版本正式發佈，對平臺做了更多的優化。本年度壓軸新版本v7.3 一、平臺架構新增帶權限的全文檢索

2023-01-10 10:36:09

微信iOS端的最新全文檢索技術優化實踐

本文由微信開發團隊工程師“ qiuwenchen”分享，發佈於WeMobileDev公衆號，有修訂。 1、引言全文搜索是使用倒排索引進行搜索的一種搜索方式。倒排索引也稱爲反向索引，是指對輸入的內容中的每個Token建立一個索引，索引中保

2022-04-30 11:51:28

Elasticsearch8/7/6各版本特性

Elasticsearch8/7/6各版本特性 - MyOldTime的個人空間 - OSCHINA - 中文開源技術交流社區版本新特性說明 8.1 Doc-values-only search on numeric, d

2022-04-30 05:37:14

Elasticsearch數據類型和mapping

說明 ElasticSearch有着豐富的數據類型規則和數據屬性設置，數據類型決定數據規則，特別字符串類型，text默認分詞，keyword不分詞，這將直接影響查詢方式和結果，同樣，mapping可以設置哪些字段建立索引，原始數據是否存儲

2021-12-25 21:31:01

ElasticSearch的REST APIs 之索引的監控(monitoring)

基於ES7.7 官方文檔內容包括: 索引的統計信息 (Index stats) 索引的段 (Index segments) 索引的恢復信息 (Index recovery) 索引分片的存儲 (Index shard stores)

2021-12-25 21:22:56

ElasticSearch的REST APIs 之索引的狀態管理

基於ES7.7 官方文檔內容包括: 清空緩存 ( Clear cache ) 更新索引以讓新文檔可以被搜索 ( Refresh ) 將內存緩衝區中的文檔寫入磁盤 ( Flush ) 同步Flush ( Synced flush )

2021-12-25 21:22:56

Lucene 和 Elasticsearch 有什麼區別 - What is the difference between Lucene and Elasticsearch

問題：我知道 ElasticSearch 是基於 Apache Lucene 構建的，但我想知道兩者之間的顯着差異。解決方案：參考一： https://en.stackoom.com/question/1scPp 參考二： h

2021-10-23 09:25:55

[轉]:ElasticSearch: Index 和 Type 的區別

原文: Index vs. Type By Adrien Grand 譯者: fengchang 對於 ES 的新用戶來說，有一個常見的問題：要存儲一批新的數據時，應該在已有 index 裏新建一個 type，還是給它新建一個 index？

2021-09-17 21:36:00

Android 開發的盡頭就是 Linux 系統~

如今的軟件開發行業，服務器端市場基本被 Linux 系統佔領了。移動端中的 Android 系統是基於 Linux 內核開發的，那些很火的虛擬化、消息隊列、雲計算、大數據等技術，都默認支持 Linux 操作系統。而對軟件工程師來說，也

音視頻開發進階

2021-09-09 21:21:12

Elastic Meetup 2021 深圳站回顧

Elastic Meetup 2 0 2 1 深圳

2021-08-27 21:41:49

Elastic 線下 Meetup 深圳站來了！

Elastic中文社區聯合騰訊雲大數據，騰訊雲+社區，將於2021年8月21日在騰訊濱海大廈舉辦本年度首次線下（線上同步直播）技術交流活動。本次活動的交流內容主要圍繞Elastic Stack 產品（Elasticsearch

2021-08-17 21:42:04

ElasticSearch 億級數據檢索深度優化

數據平臺已迭代三個版本，從頭開始遇到很多常見的難題，終於有片段時間整理一些已完善的文檔，在此分享以供所需朋友的實現參考，少走些彎路，在此篇幅中偏重於ES的優化。 - 需求說明 - 項目背景

大數據技術與架構

2021-08-09 21:16:50

Elasticsearch 修改mapping

舊索引信息如下： index：test_v1 type：item alias：item_alias mapping： { "properties": { "itemId": { "type": "long"

2021-04-29 21:19:59

24小時熱門文章

最新文章

最新評論文章