Lucene 如何做多個拉鍊的交集

原創

2020-06-18 23:26

背景

網上的文章各式各樣，還不如看看源碼

參考

比較靠譜的一個博主

他的一本“書“ 寫的比較明白，可供參考：

看上面這個博客基本可以看懂原理。建議大家先讀一讀，配圖也比較豐富，比較好理解。

但是這個博客已經比較老了，不禁讓人懷疑新的版本Lucene還是不是這麼搞的

那就擼源碼吧

看的代碼是2020-06-11直接從github 搞下來的。

也可以參考官方文檔

按照書上的說法，直接找到Conjunctionxxx 相關的代碼。

發現了一個新的神奇類：
org.apache.lucene.search.ConjunctionDISI
DISI 意思是DocIdSetIterator 文檔id迭代器

核心代碼在這兒：跟書裏說的意思是差不多的。

核心函數：iter.advance(doc) ：在iter這個posting_list中，找到第一個大於等於doc的docId。（這裏面會用到跳錶加速查詢）

核心算法：
先找出兩個posting_list （lead1和lead2）讓他倆找到公共節點，找不到就一直循環到找到位置
當找到了公共節點，再在別的節點中找（others）；如果找到一個比當前doc大的（圖中215行），說明當前doc不是所有posting_list的公共節點（不是交集），回到lead1跳回去重新找下一個。

這部分建議自己畫幾個posting_list跟着代碼走一遍，神清氣爽，秒啊

比如

lead1	lead2	other1	other2
1	2	4	3
5	4	5	5
^	5	^	^

這樣取出來的交集應該是5

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

關於Vearch在大模型中使用的一些實踐

背景這兩年來大模型及其熱門，不僅各大廠家的模型層出不窮，各類RGA、Agent應用也花樣繁多。這也帶火了一批基礎設施，比如Langchain、向量數據庫（也叫矢量數據庫-Vector Database）等。現在市場上的向量庫種類特別繁多

2024-05-28 11:56:14

海外媒介效果分析就這麼做！

如何在數據安全與合規的前提下，高效地追蹤海外多媒體平臺的投放流量，有效歸因分析投放效果，持續優化企業在海外媒體的一系列營銷動作？針對企業客戶的這一需求，神策數據從專業性和效率最佳兩個角度綜合考慮，接入多家第三方 MMP（Mobile

2024-05-21 21:52:18

GPT-4o 引領人機交互新風向，向量數據庫賽道沸騰了

OpenAI 發佈 ChatGPT-4o，意味着人機交互進入新的時代。Chat-GPT4o 是一個跨文本、視覺和音頻端到端訓練的新模型，所有輸入和輸出都由同一個神經網絡處理。這也在告訴所有人，GenAI 連接非結構化數據，非結構化數據之間跨

2024-05-15 21:25:59

神策數據：海外媒介效果分析就這麼做！

如何在數據安全與合規的前提下，高效地追蹤海外多媒體平臺的投放流量，有效歸因分析投放效果，持續優化企業在海外媒體的一系列營銷動作？針對企業客戶的這一需求，神策數據從專業性和效率最佳兩個角度綜合考慮，接入多家第三方 MMP（Mobile

2024-04-18 21:41:20

聚合bucket超過10000默認設置報錯

persistent 持久化的下次重啓仍然生效 transient 臨時的下次重啓失效 PUT /_cluster/settings { "persistent": { "search.max_buckets": 2147483

2024-04-07 13:07:30

elasticsearch 監控查看活躍的search

GET _nodes/stats indexing 顯示已經索引了多少文檔。這個值是一個累加計數器。在文檔被刪除的時候，數值不會下降。還要注意的是，在發生內部索引操作的時候，這個值也會增加，比如說文檔更新。還列出了索引操作耗費

2024-04-07 13:07:02

Vision Pro開發實踐（一）

簡介 Vision Pro是蘋果公司的首款頭戴式“空間計算”顯示設備，於2023年6月6日在“WWDC2023”正式發佈，同時推出的還有專爲Vision Pro打造的操作系統平臺visionOS，以及一整套“新的”開發工具，之所以打引號，

2024-04-07 11:15:26

引領向量數據庫技術新變革，Milvus 2.4 正式上線！

備受關注的 Milvus 2.4 正式上線！作爲向量數據庫賽道的領軍者，Zilliz 一直致力於推動向量技術的進步與創新。本次發佈中，Milvus 新增支持基於 NVIDIA 的 GPU 索引—— CUDA 加速圖形索引（CAGRA），

2024-03-25 21:26:35

提示詞示例-角色扮演法

美股投資分析助手角色：數據分析助手我的主要目標是爲用戶提供專家級的數據分析建議。利用詳盡的數據資源，告訴我您想要分析的股票（提供股票代碼）。我將以專家的身份，爲您的股票進行基礎分析、技術分析、市場情緒分析以及宏觀經濟分析。技能技能1

2024-03-07 01:16:11

揭祕 LLMs 時代向量數據庫的 3 大實用場景

過去一年，ChatGPT 和其他大語言模型（LLMs）的爆火也帶動了向量數據庫的發展。許多用戶在搭建檢索增強生成（RAG）系統過程中選擇了使用向量數據庫 Zilliz Cloud ，但 Zilliz Cloud 的功能不止於此

2024-02-23 14:52:22

PWN學習之格式化字符串及CTF常見利用手法

格式化字符串的基本漏洞點格式化字符串漏洞是一種常見的安全漏洞類型。它利用了程序中對格式化字符串的處理不當，導致可以讀取和修改內存中的任意數據。格式化字符串漏洞通常發生在使用 C 或類似語言編寫的程序中，其中 printf、sprint

2024-02-19 11:34:47

Suggest效果

<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN"> <html> <head> <title>AJAX</title> <met

2020-07-08 02:35:54

Find your Root File System with MTD

Once a brave soul finally gets the kernel to compile for their system. Their high hopes for immediate gratification an

2020-07-08 01:38:11

loaders& linkers

今天把chinalinux翻譯的loaders & linkers 大致翻了一下，想找到一些關於前兩天編譯調試中的問題，總算是有點收穫的。 .text .data .bss這三個大段都是由各目標文件的相應段組合而成的。在寫鏈接腳本文件的時

2020-07-08 00:25:02

數據庫存儲過程及簡單分頁知識

定義存儲過程 CREATE PROCEDURE [擁有者存儲過程名[;程序編號利用SQL的語言可以編寫對於數據庫訪問的存儲過程，其語法如下： CREATE PROC[EDURE] procedure_name [;number

2020-07-07 21:56:35

24小時熱門文章

最新文章

最新評論文章