前幾天在一個羣裏看到有人討論hashmap中的加載因子爲什麼是默認0.75。

HashMap源碼中的加載因子

static final float DEFAULT_LOAD_FACTOR = 0.75f;

當時想到的是應該是“哈希衝突”和“空間利用率”矛盾的一個折衷。
跟數據結構要麼查詢快要麼插入快一個道理，hashmap就是一個插入慢、查詢快的數據結構。

加載因子是表示Hsah表中元素的填滿的程度。
加載因子越大,填滿的元素越多,空間利用率越高，但衝突的機會加大了。
反之,加載因子越小,填滿的元素越少,衝突的機會減小,但空間浪費多了。

衝突的機會越大,則查找的成本越高。反之,查找的成本越小。

因此,必須在 "衝突的機會"與"空間利用率"之間尋找一種平衡與折衷。

但是爲什麼一定是0.75？而不是0.8，0.6###

本着不嫌事大的精神繼續深挖，在此之前先簡單補充點本文需要的基礎知識：

1.衝突定義：假設哈希表的地址集爲［0，ｎ），衝突是指由關鍵字得到的哈希地址爲j（0<=j<=n-1）的位置上已經有記錄。在關鍵字得到的哈希地址上已經有記錄，那麼就稱之爲衝突

2.處理衝突：就是爲該關鍵字的記錄扎到另一個“空”的哈希地址。即在處理哈希地址的衝突時，若得到的另一個哈希地址H1仍然發生衝突，則再求下一個地址H2，若H2仍然衝突，再求的H3，直至Hk不發生衝突爲止，則Hk爲記錄在表中的地址。

處理衝突的幾種方法：#

一、開放定址法

Hi=(H(key) + di) MOD m i=1,2,...k(k<=m-1)其中H(key)爲哈希函數；m爲哈希表表長；di爲增量序列。

開放定址法根據步長不同可以分爲３種：

1）線性探查法(Linear Probing)：di=1,2,3,...,m-1
　簡單地說就是以當前衝突位置爲起點，步長爲１循環查找，直到找到一個空的位置就把元素插進去，循環完了都找不到說明容器滿了。就像你去一條街上的店裏喫飯，問了第一家被告知滿座，然後挨着一家家去問是否有位置一樣。

2）線性補償探測法：di=Ｑ　下一個位置滿足 Hi=(H(key) + Ｑ) mod m i=1,2,...k(k<=m-1) ，要求 Q 與 m 是互質的，以便能探測到哈希表中的所有單元。
繼續用上面的例子，現在你不是挨着一家家去問了，拿出計算器算了一下，然後隔Ｑ家問一次有沒有位置。

3）僞隨機探測再散列：di=僞隨機數序列。還是那個例子，這是完全根據心情去選一家店來問了

缺點：

這種方法建立起來的hash表當衝突多的時候數據容易堆聚在一起，這時候對查找不友好；
刪除結點不能簡單地將被刪結點的空間置爲空，否則將截斷在它之後填人散列表的同義詞結點的查找路徑。因此在用開放地址法處理衝突的散列表上執行刪除操作，只能在被刪結點上做刪除標記，而不能真正刪除結點
當空間滿了，還要建立一個溢出表來存多出來的元素。

二、再哈希法

Hi = RHi（key），i=1,2,...k
RHi均是不同的哈希函數，即在同義詞產生地址衝突時計算另一個哈希函數地址，直到不發生衝突爲止。這種方法不易產生聚集，但是增加了計算時間。

缺點：增加了計算時間。

三、建立一個公共溢出區

假設哈希函數的值域爲[0,m-1]，則設向量HashTable[0...m-1]爲基本表，每個分量存放一個記錄，另設立向量OverTable[0....v]爲溢出表。所有關鍵字和基本表中關鍵字爲同義詞的記錄，不管他們由哈希函數得到的哈希地址是什麼，一旦發生衝突，都填入溢出表。

簡單地說就是搞個新表存衝突的元素。

四、鏈地址法（拉鍊法）

將所有關鍵字爲同義詞的記錄存儲在同一線性鏈表中，也就是把衝突位置的元素構造成鏈表。

拉鍊法的優點:

拉鍊法處理衝突簡單，且無堆積現象，即非同義詞決不會發生衝突，因此平均查找長度較短；
由於拉鍊法中各鏈表上的結點空間是動態申請的，故它更適合於造表前無法確定表長的情況；
在用拉鍊法構造的散列表中，刪除結點的操作易於實現。只要簡單地刪去鏈表上相應的結點即可。

拉鍊法的缺點：

指針需要額外的空間，故當結點規模較小時，開放定址法較爲節省空間，而若將節省的指針空間用來擴大散列表的規模，可使裝填因子變小，這又減少了開放定址法中的衝突，從而提高平均查找速度

Java中HashMap的數據結構#

HashMap實際上是一個“鏈表散列”的數據結構，即數組和鏈表的結合體。

看圖就可以知道Java中的hashMap使用了拉鍊法處理衝突。
HashMap有一個初始容量大小，默認是16

static final int DEFAULT_INITIAL_CAPACITY = 1 << 4; // aka 16

爲了減少衝突的概率，當hashMap的數組長度到了一個臨界值就會觸發擴容，把所有元素rehash再放到擴容後的容器中，這是一個非常耗時的操作。

而這個臨界值由【加載因子】和當前容器的容量大小來確定：DEFAULT_INITIAL_CAPACITY*DEFAULT_LOAD_FACTOR ，即默認情況下是16x0.75=12時，就會觸發擴容操作。

所以使用hash容器時儘量預估自己的數據量來設置初始值。具體代碼實現自行去研究HashMap的源碼。

基礎知識補充完畢，回到正題，爲什麼加載因子要默認是0.75？
從hashmap源碼註釋裏找到了這一段

Ideally, under random hashCodes, the frequency of

nodes in bins follows a Poisson distribution
(http://en.wikipedia.org/wiki/Poisson_distribution) with a
parameter of about 0.5 on average for the default resizing
threshold of 0.75, although with a large variance because of
resizing granularity. Ignoring variance, the expected
occurrences of list size k are (exp(-0.5) * pow(0.5, k) /
factorial(k)). The first values are:
0: 0.60653066
1: 0.30326533
2: 0.07581633
3: 0.01263606
4: 0.00157952
5: 0.00015795
6: 0.00001316
7: 0.00000094
8: 0.00000006
more: less than 1 in ten million

注意wiki鏈接中的關鍵字：Poisson_distribution
泊淞分佈啊

簡單翻譯一下就是在理想情況下,使用隨機哈希碼,節點出現的頻率在hash桶中遵循泊松分佈，同時給出了桶中元素個數和概率的對照表。

從上面的表中可以看到當桶中元素到達8個的時候，概率已經變得非常小，也就是說用0.75作爲加載因子，每個碰撞位置的鏈表長度超過８個是幾乎不可能的。

好了，再深挖就要挖到統計學那邊去了，就此打住，重申一下使用hash容器請儘量指定初始容量，且是2的冪次方。

關於泊淞分佈的知識請看

http://www.ruanyifeng.com/blog/2015/06/poisson-distribution.html#comment-356111

作者：Eric新之助
鏈接：https://www.jianshu.com/p/dff8f4641814
來源：簡書

補充

爲什麼部位是1或者是0.5

首先說寫一下hash的額數據結構，jdk1.8以前是數組+鏈表，jdk1.8以後是數組+鏈表+紅黑色。

當負載因子是1.0的時候，也就意味着，只有當數組的8個值（這個圖表示了8個）全部填充了，纔會發生擴容。這就帶來了很大的問題，因爲Hash衝突時避免不了的。當負載因子是1.0的時候，意味着會出現大量的Hash的衝突，底層的紅黑樹變得異常複雜。對於查詢效率極其不利。這種情況就是犧牲了時間來保證空間的利用率。

負載因子是0.5的時候，這也就意味着，當數組中的元素達到了一半就開始擴容，既然填充的元素少了，Hash衝突也會減少，那麼底層的鏈表長度或者是紅黑樹的高度就會降低。查詢效率就會增加。

負載因子是0.75的時候，空間利用率比較高，而且避免了相當多的Hash衝突，使得底層的鏈表或者是紅黑樹的高度比較低，提升了空間效率。

補充

1、書籍項目：

codeGoogler/ProgramBooks

2：視頻教程：

程序員必讀Java書籍SpringBoot、Spring、Mybatis、Redis、RabbitMQ、SpringCloud、高併發

覺得不錯的小夥伴記得點贊和蒐藏哦，後續會持續更新精選技術文章！

HashMap的負載因子爲什麼默認是0.75？這篇文章告訴你答案

但是爲什麼一定是0.75？而不是0.8，0.6###

處理衝突的幾種方法：#

一、開放定址法

二、再哈希法

三、建立一個公共溢出區

四、鏈地址法（拉鍊法）

Java中HashMap的數據結構#

補充

爲什麼部位是1或者是0.5

補充

移位操作搞定兩數之商

如何基於surging跨網關跨語言進行緩存降級

2024合集

程序員天天 CURD，怎麼才能成長，職業發展的思考(2)

教你用Perl實現Smgp協議

如何通過前端表格控件在10分鐘內完成一張分組報表？

win11關閉自動檢測病毒刪文件

通用代碼生成器簡介

lightdb 單機模式下數據庫平移

千兆寬帶實際網速能到達多少？

Github重磅教程！從0到1，邊學邊實戰！

關於Redis主從複製原理，史上講解最好的一篇文章！

HashMap的負載因子爲什麼默認是0.75？這篇文章告訴你答案

如何設計短網址系統?

30k的大佬告訴你怎麼入門編程行業？

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結

HashMap的負載因子爲什麼默認是0.75？這篇文章告訴你答案

但是爲什麼一定是0.75？而不是0.8，0.6###

處理衝突的幾種方法：#

一、 開放定址法

二、再哈希法

三、建立一個公共溢出區

四、鏈地址法（拉鍊法）

Java中HashMap的數據結構#

補充

爲什麼部位是1或者是0.5

補充

一、開放定址法