【數據結構】8.java源碼關於HashMap

1.hashmap的底層數據結構

衆所皆知map的底層結構是類似鄰接表的結構，但是進入1.8之後，鏈表模式再一定情況下又會轉換爲紅黑樹
在JDK8中，當鏈表長度達到8，並且hash桶容量超過64(MIN_TREEIFY_CAPACITY)，會轉化成紅黑樹，以提升它的查詢、插入效率底層哈希桶的數據結構是數組，所以也會涉及到擴容的問題。
當MyHashMap的容量達到threshold域值時，就會觸發擴容。擴容前後，哈希桶的長度一定會是2的次方。

1.1 爲什麼用紅黑樹

那麼爲什麼用紅黑樹呢？之前都是用的鏈表，之前的文章有提到鏈表的隨機訪問效率是很低的，因爲需要從head一個個往後面找，那麼時間複雜度就是O(n),但是如果是紅黑樹因爲紅黑樹是平衡二叉樹，說白了就是可以索引的，那麼時間複雜度只有O(logn),這樣效率就可以得到很大的提高
也許有人就想問了，那爲什麼還搞個鏈表啊，直接用紅黑樹不就完了：
1.鏈表比紅黑樹簡單，構造一個紅黑樹要比構造鏈表複雜多了，所以在鏈表不多的情況下，整體性能上來看，當鏈表不長的時候紅黑樹的性能不一定有鏈表高
2.還有一個節點的添加和刪除的時候，需要對紅黑樹進行旋轉，着色等操作，這個就比鏈表的操作複雜多了
3.所以爲鏈表設置一個閾值用來界定什麼時候進行樹化，什麼時候維持鏈表，從中間取得一個均衡是很重要的

1.2 爲什麼閾值是64，鏈表長度到8

剛剛講到紅黑樹查找效率是O(logn)那麼8的log是3，而使用鏈表，我們之前也有提到，源碼會進行折半查找（參考之前linkedlist源碼分析）那就是8/2 = 4 平均查找長度是4，所以在8的時候是比較合適的因爲3比4小
再比如鏈表長度爲6的時候，紅黑樹會退化爲鏈表同理：6=》log=2~3 和8類似，但是6/2=3也很快，而且紅黑樹很複雜，所以是用的鏈表，至於其中的數字7的作用是緩衝一下，避免再長度爲7，8徘徊的時候會頻繁修改爲紅黑樹和鏈表
還有爲什麼是64，參考網上記錄是：再低於64的時候容量比較小，hash碰撞的機率比較大，這種時候出現長鏈表的可能性比較大，這種原因導致的長鏈表我們應該避免，而是採用擴容的策略避免不必要的樹化

接下來我們觀察一下hashmap的繼承結構，瞭解一下

1.3 還有個問題負載因子的作用

0.75f負載因子過高會導致鏈表過長，查找鍵值對時間複雜度就會增高，負載因子過低會導致hash桶的個數過多，空間複雜度變高

注意構造函數：

hash桶沒有再構造函數中進行初始化，而是再第一次存儲鍵值的時候進行初始化，initialCapacity返回一個大於等於初始化容量大小的最小2的冪次方

2.hashmap的增長策略

2.1 插入數據

1.插入數據的時候首先會判斷hash桶是否爲空，如果爲空會進行初始化，這是避免調用構造函數之後沒有數據導致，而且再初始化的時候會調用擴容策略這個後面再講
通過剛剛的學習我們知道hashmap有三種數據存放模式：數組，鏈表，紅黑樹
判斷是否爲空，如果爲空，直接數組存放
這裏有個細節

hash(key)和(n - 1) & hash 的使用
第一個對key進行hash取值

2.1.1 爲什麼要用hash(key)，當然hash肯定是必須的，不然object對象怎麼定位數組索引但是hashcode不行麼？

這裏是因爲hashcode是32位的數據，用hashcode和n相與的時候，如果n比較小，那麼高位的數據基本就沒用到(2的16次冪以上的數據)，那麼就會導致hash碰撞的概率加大
這裏hash（key）的操作是吧hashcode右移16位在和原來的hashcode進行異或操作，相當於是吧高位的信息合併到低位上，然後在和n做與運算，這樣高位低位的信息全部都有，綜合的話hash碰撞的概率相應減低

2.1.2 (n-1)&hash是什麼操作hash%n不行麼？

------------------------------------------------------------------------------------------------------------------------------------
說明一下，這兩個操作都是取餘操作，之前有人說是取模，這裏科普一下，取模和取餘是不一樣的
取模（百度百科）：取模運算（“Module Operation”）和取餘運算（“Complementation ”）兩個概念有重疊的部分但又不完全一致。主要的區別在於對負整數進行除法運算時操作不同。取模主要是用於計算機術語中。取餘則更多是數學概念。模運算在數論和程序設計中都有着廣泛的應用，從奇偶數的判別到素數的判別，從模冪運算到最大公約數的求法，從孫子問題到凱撒密碼問題，無不充斥着模運算的身影。雖然很多數論教材上對模運算都有一定的介紹，但多數都是以純理論爲主，對於模運算在程序設計中的應用涉及不多。
7 mod 4 = 3（商 = 1 或 2，1<2，取商=1）
-7 mod 4 = 1（商 = -1 或 -2，-2<-1，取商=-2）
7 mod -4 = -1（商 = -1或-2，-2<-1，取商=-2）
-7 mod -4 = -3（商 = 1或2，1<2，取商=1）
R = a -c*b
比如-7 mod 4 => -7 = 1 -2 * 4
求模運算和求餘運算在第一步不同: 取餘運算在取c的值時，向0 方向舍入(fix()函數)；而取模運算在計算c的值時，向負無窮方向舍入(floor()函數)。

符號相同時，兩者不會衝突。比如，7/3=2.3，產生了兩個商2和37=3*2+1或7=3*3+（-2）。因此，7rem3=1，7mod3=1。符號不同時，兩者會產生衝突。比如，7/（-3）=-2.3，產生了兩個商-2和-37=（-3）*（-2）+1或7=（-3）*（-3）+（-2）。因此，7rem（-3）=1，7mod（-3）=（-2）

------------------------------------------------------------------------------------------------------------------------------------

好的，我們繼續討論(n-1)&hash和hash%n的問題

之前也有說到hashmap的擴容策略是大於等於初始化容量大小的最小2的冪次方，那麼也就是說n是2的倍數，轉換成2進制也就是最低位是0，再進行-1，那就是奇數
而且進行&操作

這裏注意我們的n是2的多次冪，那麼就是000100000000類似這樣的二進制，減一的結果就是除了最高位其餘一下都是1也就是：000011111111111
這個時候和原來的數據hash做&操作，就會把超出這個length範圍的數據全部設置爲0，也就是這個範圍以內的數據不會變

Example：

8 =》 0000 0000 0000 1000
8 - 1 =》 0000 0000 0000 0111
然後不論什麼數據與8-1做&操作，那麼範圍都在 0111之內，也就是7以內包含7範圍再0~7，這樣懂了吧，比如1000000&（7-1）結果就是0~7
當然出現這種情況有個必要的條件就是長度必須是2的n次冪，這樣再二進制數列中，永遠只有一個位置是1，其餘位置是0，-1之後，這個位置一下的數據全包含再裏面&就是截取低位的數據，吧高位去掉，相當於是取餘了
因爲不論什麼數字都是x = a1*2^(n-1) + a2*2^(n-2) + … + a(n-1)*2^(1) + a(n)*2^(0),高位的肯定都是2的y次冪的倍數，所以去掉倍數，剩下的就是餘數，不知道我這麼說大家有沒有理解。。。
大家還可以看看我之前的博客：https://www.cnblogs.com/cutter-point/p/11091727.html

如果不爲空那麼就要進行鏈表化或者樹化了

2.1.3 如何鏈表化

說白了就是再hash桶的數組上獲取這個位置上的node節點，然後循環遍歷獲取到最後一個節點，然後插入到節點末尾

//鏈表存放
for (int binCount = 0; ; ++binCount) {
    if ((e = p.next) == null) {
        //鏈表尾部插入，p的next判斷是否爲空
        p.next = newNode(hash, key, value, null);
        //當鏈表的長度大於等於樹化閥值，並且hash桶的長度大於等於MIN_TREEIFY_CAPACITY，鏈表轉化爲紅黑樹
//                        if (binCount >= TREEIFY_THRESHOLD - 1) // -1 for 1st
//                            treeifyBin(tab, hash);
        break;
    }
    //鏈表中包含鍵值對
    if (e.hash == hash &&
            ((k = e.key) == key || (key != null && key.equals(k))))
        break;
    p = e;
}

2.1.4 構造紅黑樹樹化

紅黑樹的變換規則可以參考我之前的博客：https://www.cnblogs.com/cutter-point/p/10976416.html

我們什麼時候會進行樹化呢？？？
就是當我們的鏈表長度超過或等於8個的時候

至於如何吧這個鏈表組建爲紅黑樹，這個以後單獨開章節細細探討。。。。

2.2 擴容策略resize

//數組擴容
public Node<K,V>[] resize() {
    Node<K,V>[] oldTab = table;
    int oldCap = (oldTab == null) ? 0 : oldTab.length;
    int oldThr = threshold;
    int newCap, newThr = 0;
    //如果舊hash桶不爲空
    if (oldCap > 0) {
        ////超過hash桶的最大長度，將閥值設爲最大值
        if (oldCap >= MAXIMUM_CAPACITY) {
            threshold = Integer.MAX_VALUE;
            return oldTab;
        }
        //新的hash桶的長度2被擴容沒有超過最大長度，將新容量閥值擴容爲以前的2倍
        //擴大一倍之後，小於最大值，並且大於最小值
        else if ((newCap = oldCap << 1) < MAXIMUM_CAPACITY &&
                oldCap >= DEFAULT_INITIAL_CAPACITY)
            //左移1位，也就是擴大2倍
            newThr = oldThr << 1;
    }
    else if (oldThr > 0) //如果舊的容量爲空，判斷閾值是否大於0，如果是那麼就把容量設置爲當前閾值
        newCap = oldThr;
    else {               // zero initial threshold signifies using defaults
        newCap = DEFAULT_INITIAL_CAPACITY;
        newThr = (int)(DEFAULT_LOAD_FACTOR * DEFAULT_INITIAL_CAPACITY);
    }

    //如果閾值還是0,重新計算閾值
    if (newThr == 0) {
        //當HashMap的數據大小>=容量*加載因子時，HashMap會將容量擴容
        float ft = (float)newCap * loadFactor;
        //如果容量還沒超MAXIMUM_CAPACITY的loadFactor時候，那麼就返回ft，否則就是反饋int的最大值
        newThr = (newCap < MAXIMUM_CAPACITY && ft < (float)MAXIMUM_CAPACITY ?
                (int)ft : Integer.MAX_VALUE);
    }
    //hash桶的閾值
    threshold = newThr;
    //初始化hash桶
    @SuppressWarnings({"rawtypes","unchecked"})
    Node<K,V>[] newTab = (Node<K,V>[])new Node[newCap];
    table = newTab;

    if (oldTab != null) {
        //遍歷舊數組
        for (int j = 0; j < oldCap; ++j) {
            Node<K,V> e;
            //如果舊的hash桶不爲空，需要將舊的hash表裏的鍵值對重新映射到新的hash桶中
            if ((e = oldTab[j]) != null) {
                oldTab[j] = null;
                //只有一個節點，通過索引位置直接映射
                if (e.next == null)
                    newTab[e.hash & (newCap - 1)] = e;  //取餘
                    //如果是紅黑樹，需要進行樹拆分然後映射
//                    else if (e instanceof TreeNode)
//                        ((TreeNode<K,V>)e).split(this, newTab, j, oldCap);
                else { // preserve order
                    //如果是多個節點的鏈表，將原鏈表拆分爲兩個鏈表，兩個鏈表的索引位置，一個爲原索引，一個爲原索引加上舊Hash桶長度的偏移量
                    Node<K,V> loHead = null, loTail = null;
                    Node<K,V> hiHead = null, hiTail = null;
                    Node<K,V> next;
                    do {
                        next = e.next;
//                            在遍歷原hash桶時的一個鏈表時，因爲擴容後長度爲原hash表的2倍，假設把擴容後的hash表分爲兩半，分爲低位和高位，
//                            如果能把原鏈表的鍵值對， 一半放在低位，一半放在高位，這樣的索引效率是最高的
                        //這裏的方式是e.hash & oldCap，
                        //經過rehash之後，元素的位置要麼是在原位置，要麼是在原位置再移動2次冪的位置。對應的就是下方的resize的註釋
                        //爲什麼是移動2次冪呢？？注意我們計算位置的時候是hash&(length - 1) 那麼如果length * 2 相當於左移了一位
                        //也就是截取的就高了一位，如果高了一位的那個二進制正好爲1，那麼結果也相當於加了2倍
                        //hash & (length * 2 - 1) = length & hash + (length - 1) & hash
                        if ((e.hash & oldCap) == 0) {
                            //如果這個爲0，那麼就放到lotail鏈表
                            if (loTail == null)
                                loHead = e;
                            else
                                loTail.next = e;
                            loTail = e;
                        }
                        else {
                            //如果length & hash 不爲0，說明擴容之後位置不一樣了
                            if (hiTail == null)
                                hiHead = e;
                            else
                                hiTail.next = e;
                            hiTail = e;
                        }
                    } while ((e = next) != null);
                    if (loTail != null) {
                        loTail.next = null;
                        //而這個loTail鏈表就放在原來的位置上
                        newTab[j] = loHead;
                    }
                    if (hiTail != null) {
                        hiTail.next = null;
                        //因爲擴容了2倍，那麼新位置就可以是原來的位置，右移一倍原始容量的大小
                        newTab[j + oldCap] = hiHead;
                    }
                }
            }
        }
    }
    return newTab;
}

總結就是擴容的時候吧數組大小擴大一倍，相當於左移1位，並且要重新計算hash散列值，找對應的位置填充
鏈表也要進行拆分，鏈表的拆分主要就體現在：
如果原來hash索引的位置就是這裏，那麼還是連接再原來的節點上，如果取餘到對應的位置的節點，數組擴大一倍，我們原來的計算方式是hash&(n - 1)
那麼如果我們大小擴大一倍結果就是：hash&(2n - 1)=hash&n + hash&(n-1)因爲n是2的n次冪，除了對應的位置爲1其餘位置都爲0
那麼這裏就可以轉換爲hash&(2n - 1)=hash&n + hash&(n-1) => n + hash&(n-1) => oldIndex + oldCap 也就是舊索引位置加上舊的容量大小

3.hashmap查找數據

查找對於紅黑樹部分我們略過：
至於其他部分，也就是跟之前大同小異了，還是hash取位置，然後取餘獲取對應的索引下標
首先檢查是不是第一個，如果是那就直接返回了
如果不是循環遍歷鏈表找到對應的key爲止

final Node<K,V> getNode(int hash, Object key) {
    Node<K,V>[] tab; Node<K,V> first, e; int n; K k;
    //注意這一步中(n - 1) & hash 的值 等同於 hash(k)%table.length
    if ((tab = table) != null && (n = tab.length) > 0 &&
            //這裏是計算相當於是取餘的索引位置(n - 1) & hash 等價於hash % n
            //而且由於hashmap中的length再tableSizeFor的時候，就把長度設置爲2的n次冪了，那麼n-1之後的值，就是最高位全都是0，下面位數全是1
            //這個也就是取hash的低位的值
            (first = tab[(n - 1) & hash]) != null) {
        if (first.hash == hash && // always check first node
                ((k = first.key) == key || (key != null && key.equals(k))))
            return first;
        if ((e = first.next) != null) {
            //暫時不考慮紅黑樹
//                if (first instanceof TreeNode)
//                    return ((TreeNode<K,V>)first).getTreeNode(hash, key);
            do {
                if (e.hash == hash &&
                        ((k = e.key) == key || (key != null && key.equals(k))))
                    return e;
            } while ((e = e.next) != null);
        }
    }
    return null;
}

4.hashmap刪除數據

4.1 樹形退化
紅黑樹，我們就略過吧，這裏篇幅有限不做探討。。。。

5.關於hashmap的特殊操作

這裏可以講講hashmap的特殊地方了
1.hashmap是允許null鍵和值的，而hashtable就不允許了

參考：
https://juejin.im/post/5a7719456fb9a0633e51ae14
https://blog.csdn.net/xingfei_work/article/details/79637878
https://juejin.im/post/5bed97616fb9a049b77fefbf
https://www.zhihu.com/question/30526656
https://juejin.im/post/5cb09c85e51d456e3428c0cf

【數據結構】8.java源碼關於HashMap

1.hashmap的底層數據結構

1.1 爲什麼用紅黑樹

1.2 爲什麼閾值是64，鏈表長度到8

1.3 還有個問題負載因子的作用

2.hashmap的增長策略

2.1 插入數據

2.1.1 爲什麼要用hash(key)，當然hash肯定是必須的，不然object對象怎麼定位數組索引但是hashcode不行麼？

2.1.2 (n-1)&hash是什麼操作hash%n不行麼？

2.1.3 如何鏈表化

2.1.4 構造紅黑樹樹化

2.2 擴容策略resize

3.hashmap查找數據

4.hashmap刪除數據

5.關於hashmap的特殊操作

【面試準備】又一次失敗的面試經歷，題目離譜～資深軟件測試工程師

dotnet 8 版本與銀河麒麟V10和UOS系統的 glibc 兼容性

【collection】6.collection源碼剖析

【collection】5.Map關鍵子類源碼剖析

【collection】4.java容器之LinkedList，Stack，CopyOnWriteArrayList

【collection】3.java容器之ArrayList

【collection】2.java容器之HashMap&LinkedHashMap&Hashtable2

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結