hashmap源碼的理解

ThreadLocalMap是使用開放地址法來解決衝突問題的，而我們今天的主角HashMap是採用了鏈表法來處理衝突的,什麼是鏈表法呢?

數據結構

在散列表中，每個 “ 桶(bucket)” 或者 “ 槽(slot)” 會對應一條鏈表，所有散列值相同的元素我們都放到相同槽位對應的鏈表中。

jdk8和jdk7不一樣，jdk7中沒有紅黑樹,數組中只掛載鏈表。而jdk8中在桶容量大於等於64且鏈表節點數大於等於8的時候轉換爲紅黑樹。當紅黑樹節點數量小於6時又會轉換爲鏈表。

插入

但插入的時候,我們只需要通過散列函數計算出對應的槽位,將其插入到對應鏈表或者紅黑樹即可。如果此時元素數量超過了一定值則會進行擴容，同時進行rehash.

查找或者刪除

通過散列函數計算出對應的槽，然後遍歷鏈表或者刪除

鏈表爲什麼會轉爲紅黑樹?

上一篇文章有提到過通過裝載因子來判定空閒槽位還有多少，如果超過裝載因子的值就會動態擴容,HashMap會擴容爲原來的兩倍大小(初始容量爲16,即槽(數組)的大小爲16)。但是無論負載因子和散列函數設得再合理，也避免不了鏈表過長的情況，一旦鏈表過長查找和刪除元素就比較耗時，影響HashMap性能,所以JDK8中對其進行了優化，當鏈表長度大於等於8的時候將鏈表轉換爲紅黑樹，利用紅黑樹的特點(查找、插入、刪除的時間複雜度最壞爲O(logn))，可以提高HashMap的性能。當節點個數少於6個的時候，又會將紅黑樹轉化爲鏈表。因爲在數據量較小的情況下，紅黑樹要維持平衡，比起鏈表來，性能上的優勢並不明顯，而且編碼難度比鏈表要大上不少。

源碼分析

構造方法以及重要屬性

public HashMap(int initialCapacity, float loadFactor);

public HashMap(int initialCapacity);

public HashMap();

HashMap的構造方法中可以分別指定初始化容量(bucket大小)以及負載因子，如果不指定默認值分別是16和0.75.它幾個重要屬性如下：

// 初始化容量，必須要2的n次冪
static final int DEFAULT_INITIAL_CAPACITY = 1 << 4; // aka 16

// 負載因子默認值
static final float DEFAULT_LOAD_FACTOR = 0.75f;

// 需要從鏈表轉換爲紅黑樹時,鏈表節點的最小長度
static final int TREEIFY_THRESHOLD = 8;

// 轉換爲紅黑樹時數組的最小容量
static final int MIN_TREEIFY_CAPACITY = 64;

// resize操作時,紅黑樹節點個數小於6則轉換爲鏈表。
static final int UNTREEIFY_THRESHOLD = 6;

// HashMap閾值，用於判斷是否需要擴容(threshold = 容量*loadFactor)
int threshold;

// 負載因子
final float loadFactor;

// 鏈表節點
static class Node<K,V> implements Map.Entry<K,V> {
  final int hash;
  final K key;
  V value;
  Node<K,V> next;

}

// 保存數據的數組
transient Node<K,V>[] table;

// 紅黑樹節點
static final class TreeNode<K,V> extends LinkedHashMap.Entry<K,V> {
  TreeNode<K,V> parent;  // red-black tree links
  TreeNode<K,V> left;
  TreeNode<K,V> right;
  TreeNode<K,V> prev;    // needed to unlink next upon deletion
  boolean red;
}

上面的table就是存儲數據的數組(可以叫做桶或者槽),數組掛載的是鏈表或者紅黑樹。值得一提的是構造HashMap的時候並沒有初始化數組容量，而是在第一次put元素的時候才進行初始化的。

hash函數的設計

int hash = (key == null) ? 0 : (h = key.hashCode()) ^ (h >>> 16);
int index = hash & (tab.length-1);

從上面可以看出,key爲null是時候放到數組中的第一個位置的,我們一般定位key應當存放在數組哪個位置的時候一般是這樣做的 key.hashCode() % tab.length。但是當tab.length是2的n次冪的時候，就可以轉換爲 A % B = A & (B-1);所以 index = hash & (tab.length-1)就可以理解了。

這裏是使用了除留餘數法的理念來設計的,可以可能減少hash衝突
除留餘數法 : 用關鍵字K除以某個不大於hash表長度m的數p,將所得餘數作爲hash表地址
比如x/8=x>>3,即把x右移3位，得到了x/8的商，被移掉的部分(後三位)，則是x%8，也就是餘數。

而對於hash值的運算爲什麼是(h = key.hashCode()) ^ (h >>> 16)呢？也就是爲什麼要向右移16位呢?直接使用 key.hashCode() & (tab.length -1)不好嗎？
如果這樣做，由於tab.length肯定是遠遠小於hash值的,所以位運算的時候只有低位才參與運算，而高位毫無作爲，會帶來hash衝突的風險。

而hashcode本身是一個32位整形值，向右移位16位之後再進行異或運行計算出來的整形將具有高位和低位的性質，就可以得到一個非常隨機的hash值，在通過除留餘數法，得到的index就更低概率的減少了衝突。

插入數據

final V putVal(int hash, K key, V value, boolean onlyIfAbsent,
                  boolean evict) {

 Node<K,V>[] tab; Node<K,V> p; int n, i;

 // 1. 如果數組未初始化,則初始化數組
 if ((tab = table) == null || (n = tab.length) == 0)
    n = (tab = resize()).length;

 // 2. 如果當前節點未被插入數據(未碰撞),則直接new一個節點進行插入
 if ((p = tab[i = (n - 1) & hash]) == null)
    tab[i] = newNode(hash, key, value, null);
 else {
    Node<K,V> e; K k;

    // 3. 碰撞了,已存在相同的key,則進行覆蓋
   if (p.hash == hash &&
       ((k = p.key) == key || (key != null && key.equals(k))))
       e = p;
   else if (p instanceof TreeNode)
        // 4. 碰撞後發現爲樹結構，則掛載在樹上
       e = ((TreeNode<K,V>)p).putTreeVal(this, tab, hash, key, value);
   else {
       for (int binCount = 0; ; ++binCount) {
            // 5. 進行尾插入,如果鏈表節點數達到上線則轉換爲紅黑樹
           if ((e = p.next) == null) {
               p.next = newNode(hash, key, value, null);
               if (binCount >= TREEIFY_THRESHOLD - 1) // -1 for 1st
                   treeifyBin(tab, hash);
               break;
           }
           // 6. 鏈表中碰撞了
           if (e.hash == hash &&
               ((k = e.key) == key || (key != null && key.equals(k))))
               break;
           p = e;
       }
     }
     // 7. 用新value替換舊的value
     if (e != null) { // existing mapping for key
       V oldValue = e.value;
       if (!onlyIfAbsent || oldValue == null)
           e.value = value;
       afterNodeAccess(e);
       return oldValue;
     }
 }
 ++modCount;

 // 8. 操作閾值則進行擴容
 if (++size > threshold)
     resize();

 // 給LinkedHashMap實現
 afterNodeInsertion(evict);
 return null;
}

簡述下put的邏輯，它主要分爲以下幾個步驟:

首先判斷是否初始化，如果未初始化則初始化數組,初始容量爲16
通過hash&(n-1)獲取數組下標，如果該位置爲空，表示未碰撞，直接插入數據
發生碰撞且存在相同的key，則在後面處理中直接進行覆蓋
碰撞後發現爲樹結構，則直接掛載到紅黑樹上
碰撞後發現爲鏈表結構，則進行尾插入，當鏈表容量大於等於8的時候轉換爲樹節點
發現在鏈表中進行碰撞了，則在後面處理直接覆蓋
發現之前存在相同的key,只直接用新值替換舊值
map的容量(存儲元素的數量)大於閾值則進行擴容，擴容爲之前容量的2倍

擴容

resize()方法中，如果發現當前數組未初始化，則會初始化數組。如果已經初始化，則會將數組容量擴容爲之前的兩倍，同時進行rehash(將舊數組的數據移動到新的數組).JDK8的rehash過程很有趣，相比JDK7做了不少優化，我們來看下這裏的rehash過程。


// 數組擴容爲之前2倍大小的代碼省略，這裏主要分析rehash過程。

if (oldTab != null) {
 // 遍歷舊數組
 for (int j = 0; j < oldCap; ++j) {
   Node<K,V> e;
   if ((e = oldTab[j]) != null) {
     oldTab[j] = null;

     // 1. 如果舊數組中不存在碰撞,則直接移動到新數組的位置
     if (e.next == null)
        newTab[e.hash & (newCap - 1)] = e;
     else if (e instanceof TreeNode)
        // 2. 如果存在碰撞，且節點類型是樹節點，則進行樹節點拆分(掛載到擴容後的數組中或者轉爲鏈表)
        ((TreeNode<K,V>)e).split(this, newTab, j, oldCap);
     else { // preserve order

        // 3. 處理衝突是鏈表的情況,會保留原有節點的順序

       Node<K,V> loHead = null, loTail = null;
       Node<K,V> hiHead = null, hiTail = null;
       Node<K,V> next;
       do {
         next = e.next;
         // 4. 判斷擴容後元素是否在原有的位置(這裏非常巧妙,下面會分析)
         if ((e.hash & oldCap) == 0) {
           if (loTail == null)
               loHead = e;
           else
               loTail.next = e;
           loTail = e;
         }

         // 5. 元素不是在原有位置
         else {
           if (hiTail == null)
               hiHead = e;
           else
               hiTail.next = e;
           hiTail = e;
         }
       } while ((e = next) != null);

       // 6. 將擴容後未改變index的元素複製到新數組
       if (loTail != null) {
         loTail.next = null;
         newTab[j] = loHead;
       }

       // 7. 將擴容後改變了index位置的元素複製到新數組
       if (hiTail != null) {
         hiTail.next = null;
         // 8. index改變後,新的下標是j+oldCap,這裏也很巧妙，下面會分析
         newTab[j + oldCap] = hiHead;
       }
     }
   }
 }
}

上面的代碼中展現了整個rehash的過程，先遍歷舊數組中的元素，接着做下面的事情

如果舊數組中不存在數據碰撞(未掛載鏈表或者紅黑樹),那麼直接將元素賦值到新數組中，其中index=e.hash & (newCap - 1)。
如果存在碰撞，且節點類型是樹節點，則進行樹節點拆分(掛載到擴容後的數組中或者轉爲鏈表)
如果存在碰撞，且節點是鏈表，則處理鏈表的情況,rehash過程會保留節點原始順序(JDK7中不會保留，這也是導致jdk7中多線程出現死循環的原因)
判斷元素在擴容後是否還處於原有的位置，這裏通過(e.hash & oldCap) == 0判斷,oldCap表示擴容前數組的大小。
發現元素不是在原有位置，更新hiTail和hiHead的指向關係
將擴容後未改變index的元素複製到新數組
將擴容後改變了index位置的元素複製到新數組，新數組的下標是 j + oldCap。

其中第4點和第5點中將鏈表的元素分爲兩部分(do..while部分)，一部分是rehash後index未改變的元素，一部分是index被改變的元素。分別用兩個指針來指向頭尾節點。

比如當oldCap=8時,1-->9-->17都掛載在tab[1]上,而擴容後，1-->17掛載在tab[1]上,9掛載在tab[9]上。

那麼是如何確定rehash後index是否被改變呢？改變之後的index又變成了多少呢？

這裏的設計很是巧妙，還記得HashMap中數組大小是2的n次冪嗎?當我們計算索引位置的時候，使用的是 e.hash & (tab.length -1)。

這裏我們討論數組大小從8擴容到16的過程。

tab.length -1 = 7   0 0 1 1 1
e.hashCode = x      0 x x x x
==============================
                    0 0 y y y

可以發現在擴容前index的位置由hashCode的低三位來決定。那麼擴容後呢？

tab.length -1 = 15   0 1 1 1 1
e.hashCode = x       x x x x x
==============================
                     0 z y y y

擴容後，index的位置由低四位來決定,而低三位和擴容前一致。也就是說擴容後index的位置是否改變是由高字節來決定的,也就是說我們只需要將hashCode和高位進行運算即可得到index是否改變。

而剛好擴容之後的高位和oldCap的高位一樣。如上面的15二進制是1111,而8的二進制是1000,他們的高位都是一樣的。所以我們通過e.hash & oldCap運算的結果即可判斷index是否改變。

同理，如果擴容後index該變了。新的index和舊的index的值也是高位不同，其新值剛好是 oldIndex + oldCap的值。所以當index改變後,新的index是 j + oldCap。

至此,resize方法結束,元素被插入到了該有的位置。

get()

get()的方法就相對來說要簡單一些了，它最重要的就是找到key是存放在哪個位置

final Node<K,V> getNode(int hash, Object key) {
  Node<K,V>[] tab; Node<K,V> first, e; int n; K k;

  // 1. 首先(n-1) & hash確定元素位置
  if ((tab = table) != null && (n = tab.length) > 0 &&
      (first = tab[(n - 1) & hash]) != null) {

      // 2. 判斷第一個元素是否是我們需要找的元素
      if (first.hash == hash &&
          ((k = first.key) == key || (key != null && key.equals(k))))
          return first;
      if ((e = first.next) != null) {
        // 3. 節點如果是樹節點,則在紅黑樹中尋找元素
        if (first instanceof TreeNode)
            return ((TreeNode<K,V>)first).getTreeNode(hash, key);
        4. 在鏈表中尋找對應的節點
        do {
            if (e.hash == hash &&
                ((k = e.key) == key || (key != null && key.equals(k))))
                return e;
        } while ((e = e.next) != null);
      }
  }
  return null;
}

remove

remove方法尋找節點的過程和get()方法尋找節點的過程是一樣的，這裏我們主要分析尋找到節點後是如何處理的

if (node != null && (!matchValue || (v = node.value) == value ||
    (value != null && value.equals(v)))) {
    // 1. 刪除樹節點,刪除時如果不平衡會重新移動節點位置
    if (node instanceof TreeNode)
        ((TreeNode<K,V>)node).removeTreeNode(this, tab, movable);
    // 刪除的節點是鏈表第一個節點,則直接將第二個節點賦值爲第一個節點
    else if (node == p)
        tab[index] = node.next;
    // 刪除的節點是鏈表的中間節點，這裏的p爲node的prev節點
    else
        p.next = node.next;
    ++modCount;
    --size;
    afterNodeRemoval(node);
    return node;
}

remove方法中，最爲複雜的部分應該是removeTreeNode部分，因爲刪除紅黑樹節點後，可能需要退化爲鏈表節點，還可能由於不滿足紅黑樹特點，需要移動節點位置。
代碼也比較多，這裏就不貼上來了。但也因此佐證了爲什麼不全部使用紅黑樹來代替鏈表。

JDK7擴容時導致的死循環問題

/**
* Transfers all entries from current table to newTable.
*/
void transfer(Entry[] newTable) {
 Entry[] src = table;
 int newCapacity = newTable.length;
 for (int j = 0; j < src.length; j++) {
   Entry<K,V> e = src[j];
   if (e != null) {
       src[j] = null;
       do {
           // B線程執行到這裏之後就暫停了
           Entry<K,V> next = e.next;
           int i = indexFor(e.hash, newCapacity);
           e.next = newTable[i];
           // 會把元素放到鏈表頭，所以擴容後數據會被倒置
           newTable[i] = e;
           e = next;
       } while (e != null);
   }
 }
}

擴容時上面的代碼容易導致死循環,是怎樣導致的呢？假設有兩個線程A和B都在執行這一段代碼，數組大小由2擴容到4,在擴容前tab[1]=1-->5-->9。

擴容前

當B線程執行到 next = e.next時讓出時間片,A線程執行完整段代碼但是還沒有將內部的table設置爲新的newTable時，線程B繼續執行。

此時A線程執行完成之後，掛載在tab[1]的元素是9-->5-->1,注意這裏的順序被顛倒了。此時e = 1, next = 5;

tab[i]的按照循環次數變更順序, 1. tab[i]=1, 2. tab[i]=5-->1, 3. tab[i]=9-->5-->1

線程A執行完成後

同樣B線程我們也按照循環次數來分析

第一次循環執行完成後,newTable[i]=1, e = 5
第二次循環完成後: newTable[i]=5-->1, e = 1。
第三次循環,e沒有next,所以next指向null。當執行e.next = newTable[i](1-->5)的時候,就形成了 1-->5-->1的環,再執行newTable[i]=e,此時newTable[i] = 1-->5-->1。

當在數組該位置get尋找對應的key的時候，就發生了死循環,引起CPU 100%問題。

線程B執行擴容過程

而JDK8就不會出現這個問題,它在這裏就有一個優化，它使用了兩個指針來分別指向頭節點和尾節點，而且還保證了元素原本的順序。
當然HashMap仍然是不安全的,所以在多線程併發條件下推薦使用ConcurrentHashMap

總結

1.HashMap原理，內部數據結構？

底層使用哈希表（數組加鏈表）來存儲，鏈表過長會將鏈表轉成紅黑樹，以實現在O(logn)時間複雜度內查找

2.講一下HashMap中的put方法過程？

對key求哈希值然後計算下標
如果沒有哈希碰撞則直接放入槽中
如果碰撞了以鏈表的形式鏈接到後面
如果鏈表長度超過閾值（默認閾值是8），就把鏈表轉成紅黑樹
如果節點已存在就替換舊值
如果槽滿了（容量*加載因子），就需要resize

3.HashMap中哈希函數是怎麼實現的？還有哪些hash實現方式？

高16bit不變，低16bit和高16bit做異或
（n-1）&hash獲得下標
還有哪些哈希實現方式？（查資料和博客）

4.HashMap如何解決衝突，講一下擴容過程。如果一個值在原數組中，擴容後移動到了新數組，位置肯定改變了，如何定位到這個值在新數組中的位置？

將節點加到鏈表後
容量擴充爲原來的兩倍，然後對每個節點重新計算哈希值
這個值只可能在兩個地方：一種是在原下標位置，另一種是在下標爲<原下標+原容量>的位置

5.拋開HashMap，哈希衝突有哪些解決方法？

開放地址法，鏈地址法

6.針對HashMap中某個Entry鏈太長，查找的時間複雜度可能達到O(n)，如何優化？

將鏈表轉爲紅黑樹，JDK1.8已經實現

hashmap源碼的理解

插入

查找或者刪除

鏈表爲什麼會轉爲紅黑樹?

源碼分析

hash函數的設計

插入數據

擴容

get()

remove

JDK7擴容時導致的死循環問題

1.HashMap原理，內部數據結構？

2.講一下HashMap中的put方法過程？

3.HashMap中哈希函數是怎麼實現的？還有哪些hash實現方式？

4.HashMap如何解決衝突，講一下擴容過程。如果一個值在原數組中，擴容後移動到了新數組，位置肯定改變了，如何定位到這個值在新數組中的位置？

5.拋開HashMap，哈希衝突有哪些解決方法？

6.針對HashMap中某個Entry鏈太長，查找的時間複雜度可能達到O(n)，如何優化？

容器中nginx無法使用同一個網絡下的容器域名

Python: SunMoonTimeCalculator

「Pygors跨平臺GUI」1：Pygors跨平臺GUI應用研究

NETCore中實現一個輕量無負擔的極簡任務調度ScheduleTask

docker使用特定的網絡

使用c#強大的表達式樹實現對象的深克隆之解決循環引用的問題

「Pygors跨平臺GUI」2：安裝MinGW-w64、MSYS2還是WSL2

nodejs學習07——API

避免DbContext同時在多個線程調用

GPT-4o 引領人機交互新風向，向量數據庫賽道沸騰了

ES集羣（elasticsearch）

Explain執行計劃中各個字段的含義

對Spring事務傳播行爲的理解

點贊功能，用 MySQL 還是 Redis 好

Thread釋放鎖和CPU

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結