HashMap中的hash算法中的幾個疑問

原創

2019-07-18 13:23

HashMap中哈希算法的關鍵代碼

//重新計算哈希值
static final int hash(Object key) {
    int h;
    return (key == null) ? 0 : (h = key.hashCode()) ^ (h >>> 16);//key如果是null 新hashcode是0 否則 計算新的hashcode
}

//計算數組槽位
 (n - 1) & hash

HashMap的細節我們不談，只看這個哈希算法的細節(h = key.hashCode()) ^ (h >>> 16)

^按位異或運算，只要位不同結果爲1，不然結果爲0；
>>> 無符號右移：右邊補0

爲什麼要無符號右移16位後做異或運算

根據上面的說明我們做一個簡單演練

將h無符號右移16爲相當於將高區16位移動到了低區的16位，再與原hashcode做異或運算，可以將高低位二進制特徵混合起來

從上文可知高區的16位與原hashcode相比沒有發生變化，低區的16位發生了變化

我們可知通過上面(h = key.hashCode()) ^ (h >>> 16)進行運算可以把高區與低區的二進制特徵混合到低區，那麼爲什麼要這麼做呢？

我們都知道重新計算出的新哈希值在後面將會參與hashmap中數組槽位的計算，計算公式：(n - 1) & hash，假如這時數組槽位有16個，則槽位計算如下：

仔細觀察上文不難發現，高區的16位很有可能會被數組槽位數的二進制碼鎖屏蔽，如果我們不做剛纔移位異或運算，那麼在計算槽位時將丟失高區特徵

也許你可能會說，即使丟失了高區特徵不同hashcode也可以計算出不同的槽位來，但是細想當兩個哈希碼很接近時，那麼這高區的一點點差異就可能導致一次哈希碰撞，所以這也是將性能做到極致的一種體現

使用異或運算的原因

異或運算能更好的保留各部分的特徵，如果採用&運算計算出來的值會向1靠攏，採用|運算計算出來的值會向0靠攏

爲什麼槽位數必須使用2^n

1、爲了讓哈希後的結果更加均勻

這個原因我們繼續用上面的例子來說明

假如槽位數不是16，而是17，則槽位計算公式變成：(17 - 1) & hash

從上文可以看出，計算結果將會大大趨同，hashcode參加&運算後被更多位的0屏蔽，計算結果只剩下兩種0和16，這對於hashmap來說是一種災難

2、可以通過位運算e.hash & (newCap - 1)來計算，a % (2^n) 等價於 a & (2^n - 1) ，位運算的運算效率高於算術運算，原因是算術運算還是會被轉化爲位運算

說了這麼多點，上面提到的所有問題，最終目的還是爲了讓哈希後的結果更均勻的分部，減少哈希碰撞，提升hashmap的運行效率

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

HashMap中的hash算法中的幾個疑問

HashMap中哈希算法的關鍵代碼

爲什麼要無符號右移16位後做異或運算

使用異或運算的原因

爲什麼槽位數必須使用2^n

NETCore中實現一個輕量無負擔的極簡任務調度ScheduleTask

docker使用特定的網絡

使用c#強大的表達式樹實現對象的深克隆之解決循環引用的問題

GPT-4o 引領人機交互新風向，向量數據庫賽道沸騰了

free AI online tools All In One

痞子衡嵌入式：恩智浦i.MX RT1xxx系列MCU啓動那些事（12.A）- uSDHC eMMC啓動時間(RT1170)

基於Ubuntu-22.04安裝K8s-v1.28.2實驗（二）使用kube-vip實現集羣VIP訪問

基於Ubuntu-22.04安裝K8s-v1.28.2實驗（三）數據卷掛載NFS（網絡文件系統）

企業大模型如何成爲自己數據的“百科全書”？

本地SSL證書過期輸入命令在IIS自動生成

Deep3DFaceRecon 2D圖像轉3D模型實戰

記錄一次redis分佈式鎖的坑

springboot+mybatis 雙數據源配置

神經網絡學習脈絡梳理

kafka日誌文件體系梳理

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結