談談lucene中的BytesRefHash

原創

2018-12-03 21:08

lucene中很多的數據結構都採用了個性化的實現，而且沒有利用一些通用的開源的其它框架，主要的目的還是爲了靈活可控、保證高效率、節約內存，BytesRefHash就是其中一個基本的、重要的、核心的數據結構。

根據lucene中給出的註釋，BytesRefHash是一個類似於HashMap的數據結構，但我個人認爲它更像一個ArrayList與HashSet的混合物。因爲它並不能像傳統的HashMap一樣存儲任意的key和value，只能基於元素的索引號與元素值進行一些簡單的讀取、判斷元素是否存在等功能。基於元素的索引號讀取元素類似於ArrayList，判斷元素是否存在（內部實現通過哈希算法實現）類似於HashSet。

在其內部有一個核心的類就是ByteBlockPool，基於該類可以保證數據在物理上的連續性，帶來的好處是提高數據的訪問效率，並節約內存空間。

關於提高數據的訪問效率比較好理解，因爲物理上連續的數據能更好的利用cpu cache。能節約內存空間主要是因爲java對象的內存佈局主要包含3個部分：對象頭、數據域和padding，而BytesRefHash主要是對BytesRef字節對象進行處理，通過對字節對象的合併連續存儲能夠減少對象頭和padding佔用的空間，從而節約內存。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

談談lucene中的BytesRefHash

一個開源且全面的C#算法實戰教程

C語言--右移左移

12款高效開源Wiki系統推薦，打造團隊知識管理利器

dotnet 基於 DirectML 控制檯運行 Phi-3 模型

常用的 Git 指令

sm4加密工具類

談談lucene的數據域存儲

談談lucene中的BytesRefHash

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結