高级架构进阶之HashMap源码就该这么学

引言--面试常见的问题

问：“你用过HashMap，你能跟我说说它吗？”

“当然用过，HashMap是一种的存储结构，能够快速将key的数据put方式存储起来，然后很快的通过get取出来”，然后说“HashMap不是线程安全的，答：HashTable是线程安全的，通过synchronized实现的。HashMap取值非常快”等等。这个时候说明他已经很熟练使用HashMap的工具了。

问：“你知道HashMap 在put和get的时候是怎么工作的吗？”

答：“HashMap是通过key计算出Hash值，然后将这个Hash值映射到对象的引用上，get的时候先计算key的hash值，然后找到对象”。这个时候已经显得不自信了。

问：“HashMap的key为什么一般用字符串比较多，能用其他对象，或者自定义的对象吗？为什么？”

答：“这个没研究过，一般习惯用String。”

问：“你刚才提到HashMap不是线程安全的，你怎么理解线程安全。原理是什么？几种方式避免线程安全的问题。”

答：“线程安全就是多个线程去访问的时候，会对对象造成不是预期的结果，一般要加锁才能线程安全。”HashMap的面试问题能够考察面试者的线程问题、Java内存模型问题、线程可见与不可变问题、Hash计算问题、链表结构问题、二进制的&、|、<<、>>等问题。所以一个HashMap就能考验一个人的技术功底了。

一、数据结构

HashMap是数组+链表+红黑树（JDK1.8增加了红黑树部分）实现的，如下所示

// Node<K,V> 类用来实现数组及链表的数据结构
　 static class Node<K,V> implements Map.Entry<K,V> {
        final int hash; //保存节点的 hash　值
        final K key; //保存节点的　key　值
        V value;　//保存节点的　value 值
        Node<K,V> next;　//指向链表结构下的当前节点的　next 节点，红黑树　TreeNode　节点中也有用到

        Node(int hash, K key, V value, Node<K,V> next) {
            this.hash = hash;
            this.key = key;
            this.value = value;
            this.next = next;
        }

        public final K getKey()        { }
        public final V getValue()      { }
        public final String toString() { }

        public final int hashCode() { }

        public final V setValue(V newValue) { }

        public final boolean equals(Object o) { }
    }

    public class LinkedHashMap<K,V> {
          static class Entry<K,V> extends HashMap.Node<K,V> {
                Entry<K,V> before, after;
                Entry(int hash, K key, V value, Node<K,V> next) {
                    super(hash, key, value, next);
                }    
          }
    }    

　// TreeNode<K,V> 继承 LinkedHashMap.Entry<K,V>，用来实现红黑树相关的存储结构
    static final class TreeNode<K,V> extends LinkedHashMap.Entry<K,V> {
        TreeNode<K,V> parent;  // 存储当前节点的父节点
        TreeNode<K,V> left;　//存储当前节点的左孩子
        TreeNode<K,V> right;　//存储当前节点的右孩子
        TreeNode<K,V> prev;    // 存储当前节点的前一个节点
        boolean red;　// 存储当前节点的颜色（红、黑）
        TreeNode(int hash, K key, V val, Node<K,V> next) {
            super(hash, key, val, next);
        }

        final TreeNode<K,V> root() { }

        static <K,V> void moveRootToFront(Node<K,V>[] tab, TreeNode<K,V> root) { }

        final TreeNode<K,V> find(int h, Object k, Class<?> kc) { }

        final void treeify(Node<K,V>[] tab) { }

        final Node<K,V> untreeify(HashMap<K,V> map) { }

        final TreeNode<K,V> putTreeVal(HashMap<K,V> map, Node<K,V>[] tab,int h, K k, V v) { }

        final void removeTreeNode(HashMap<K,V> map, Node<K,V>[] tab, boolean movable) { }

        final void split(HashMap<K,V> map, Node<K,V>[] tab, int index, int bit) { }

        /* ------------------------------------------------------------ */
        // Red-black tree methods, all adapted from CLR
        // 红黑树相关操作
        static <K,V> TreeNode<K,V> rotateLeft(TreeNode<K,V> root,TreeNode<K,V> p) {}

        static <K,V> TreeNode<K,V> rotateRight(TreeNode<K,V> root,TreeNode<K,V> p) { }

        static <K,V> TreeNode<K,V> balanceInsertion(TreeNode<K,V> root, TreeNode<K,V> x) {}

        static <K,V> TreeNode<K,V> balanceDeletion(TreeNode<K,V> root,TreeNode<K,V> x) {}       

        static <K,V> boolean checkInvariants(TreeNode<K,V> t) {}

    }

二、成员属性

//创建 HashMap 时未指定初始容量情况下的默认容量   
    static final int DEFAULT_INITIAL_CAPACITY = 1 << 4; 

　  //HashMap 的最大容量
    static final int MAXIMUM_CAPACITY = 1 << 30;

    //HashMap 默认的装载因子,当 HashMap 中元素数量超过 容量*装载因子 时，进行　resize()　操作
    static final float DEFAULT_LOAD_FACTOR = 0.75f;

    //用来确定何时将解决 hash 冲突的链表转变为红黑树
    static final int TREEIFY_THRESHOLD = 8;

    // 用来确定何时将解决 hash 冲突的红黑树转变为链表
    static final int UNTREEIFY_THRESHOLD = 6;

    /* 当需要将解决 hash 冲突的链表转变为红黑树时，需要判断下此时数组容量，若是由于数组容量太小（小于　MIN_TREEIFY_CAPACITY　）导致的 hash 冲突太多，则不进行链表转变为红黑树操作，转为利用　resize() 函数对　hashMap 扩容　*/
    static final int MIN_TREEIFY_CAPACITY = 64;


    //保存Node<K,V>节点的数组
    transient Node<K,V>[] table;

    //由　hashMap 中 Node<K,V>　节点构成的 set
    transient Set<Map.Entry<K,V>> entrySet;

    //记录 hashMap 当前存储的元素的数量
    transient int size;

    //记录　hashMap 发生结构性变化的次数（注意　value 的覆盖不属于结构性变化）
    transient int modCount;

    //threshold的值应等于 table.length * loadFactor, size 超过这个值时进行　resize()扩容
    int threshold;

    //记录 hashMap 装载因子
    final float loadFactor;

1、loadFactor参数

如果内存富余，那么建议把loadFactor设置的小一点，但是要注意初始size的设置，如果不合适会导致频繁的 resize 严重影响插入的效率。
如果内存比较吃紧，就可以把loadFactor设置的大一些，但是loadFactor设置大的话，键值对以链表的形式存储的概率就提高，平均的查询时间变慢，但是对于插入而言，虽然没有直接的影响，但是loadFactor提高，

三、构造方法

//构造方法１，指定初始容量及装载因子
public HashMap(int initialCapacity, float loadFactor) {
        if (initialCapacity < 0)
            throw new IllegalArgumentException("Illegal initial capacity: " +
                                               initialCapacity);
        if (initialCapacity > MAXIMUM_CAPACITY)
            initialCapacity = MAXIMUM_CAPACITY;
        if (loadFactor <= 0 || Float.isNaN(loadFactor))
            throw new IllegalArgumentException("Illegal load factor: " +
                                               loadFactor);
        this.loadFactor = loadFactor;
    　/* tableSizeFor(initialCapacity)　方法返回的值是最接近 initialCapacity 的2的幂，若指定初始容量为９，则实际 hashMap 容量为16*/
    　//注意此种方法创建的 hashMap 初始容量的值存在　threshold 中
        this.threshold = tableSizeFor(initialCapacity);
}
//tableSizeFor(initialCapacity)　方法返回的值是最接近 initialCapacity 的2的幂
static final int tableSizeFor(int cap) {
        int n = cap - 1;
        n |= n >>> 1;// >>> 代表无符号右移
        n |= n >>> 2;
        n |= n >>> 4;
        n |= n >>> 8;
        n |= n >>> 16;
        return (n < 0) ? 1 : (n >= MAXIMUM_CAPACITY) ? MAXIMUM_CAPACITY : n + 1;
}
//构造方法２，仅指定初始容量，装载因子的值采用默认的　0.75
public HashMap(int initialCapacity) {
        this(initialCapacity, DEFAULT_LOAD_FACTOR);
}
//构造方法３，所有参数均采用默认值
public HashMap() {
        this.loadFactor = DEFAULT_LOAD_FACTOR; // all other fields defaulted
}

四、put方法

当我们往HashMap中put元素的时候，先根据key的hashCode重新计算hash值，根据hash值得到这个元素在数组中的位置（即下标），如果数组该位置上已经存放有其他元素了，那么在这个位置上的元素将以链表的形式存放，新加入的放在链头，最先加入的放在链尾，数组中存储的是最后插入的元素。如果数组该位置上没有元素，就直接将该元素放到此数组中的该位置上。

public V put(K key, V value) {
        return putVal(hash(key), key, value, false, true); 
    }

　　final V putVal(int hash, K key, V value, boolean onlyIfAbsent,  　　　　　　　　//这里onlyIfAbsent表示只有在该key对应原来的value为null的时候才插入，也就是说如果value之前存在了，就不会被新put的元素覆盖。
                   boolean evict) {                                              //evict参数用于LinkedHashMap中的尾部操作，这里没有实际意义。
        Node<K,V>[] tab; Node<K,V> p; int n, i;　　　　　　　　　　　　　　　　　　　　//定义变量tab是将要操作的Node数组引用，p表示tab上的某Node节点，n为tab的长度，i为tab的下标。
        if ((tab = table) == null || (n = tab.length) == 0)　　　                 //判断当table为null或者tab的长度为0时，即table尚未初始化，此时通过resize()方法得到初始化的table。             　　　　　　　　　　　
            n = (tab = resize()).length;　　　　　　　　　　　　　　　　　　　　　　　　//这种情况是可能发生的，HashMap的注释中提到：The table, initialized on first use, and resized as necessary。
        if ((p = tab[i = (n - 1) & hash]) == null)                               //此处通过（n - 1） & hash 计算出的值作为tab的下标i，并另p表示tab[i]，也就是该链表第一个节点的位置。并判断p是否为null。
            tab[i] = newNode(hash, key, value, null);　　　　　　　　　　　　　　　　 //当p为null时，表明tab[i]上没有任何元素，那么接下来就new第一个Node节点，调用newNode方法返回新节点赋值给tab[i]。
        else {　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　                //下面进入p不为null的情况，有三种情况：p为链表节点；p为红黑树节点；p是链表节点但长度为临界长度TREEIFY_THRESHOLD，再插入任何元素就要变成红黑树了。
            Node<K,V> e; K k;　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　 //定义e引用即将插入的Node节点，并且下文可以看出 k = p.key。
            if (p.hash == hash &&　　　　　　　　　　　　　　　　　　　　　　　　　　　　 //HashMap中判断key相同的条件是key的hash相同，并且符合equals方法。这里判断了p.key是否和插入的key相等，如果相等，则将p的引用赋给e。
                ((k = p.key) == key || (key != null && key.equals(k))))           //这一步的判断其实是属于一种特殊情况，即HashMap中已经存在了key，于是插入操作就不需要了，只要把原来的value覆盖就可以了。
                e = p;　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　  //这里为什么要把p赋值给e，而不是直接覆盖原值呢？答案很简单，现在我们只判断了第一个节点，后面还可能出现key相同，所以需要在最后一并处理。
            else if (p instanceof TreeNode)                                       //现在开始了第一种情况，p是红黑树节点，那么肯定插入后仍然是红黑树节点，所以我们直接强制转型p后调用TreeNode.putTreeVal方法，返回的引用赋给e。
                e = ((TreeNode<K,V>)p).putTreeVal(this, tab, hash, key, value);   //你可能好奇，这里怎么不遍历tree看看有没有key相同的节点呢？其实，putTreeVal内部进行了遍历，存在相同hash时返回被覆盖的TreeNode，否则返回null。
            else {　　　　　　　　　　　　       　　　　　　　　                       //接下里就是p为链表节点的情形，也就是上述说的另外两类情况：插入后还是链表/插入后转红黑树。另外，上行转型代码也说明了TreeNode是Node的一个子类。
                for (int binCount = 0; ; ++binCount) {　　　　　　　　　　　　　　　　 //我们需要一个计数器来计算当前链表的元素个数，并遍历链表，binCount就是这个计数器。
                    if ((e = p.next) == null) {　　　　　　　　　　　　　　　　　　　　 //遍历过程中当发现p.next为null时，说明链表到头了，直接在p的后面插入新的链表节点，即把新节点的引用赋给p.next，插入操作就完成了。注意此时e赋给p。
                        p.next = newNode(hash, key, value, null);　　　　　　　　　　//最后一个参数为新节点的next，这里传入null，保证了新节点继续为该链表的末端。
                        if (binCount >= TREEIFY_THRESHOLD - 1) // -1 for 1st 　　  //插入成功后，要判断是否需要转换为红黑树，因为插入后链表长度加1，而binCount并不包含新节点，所以判断时要将临界阈值减1。
                            treeifyBin(tab, hash);　　　　　　　　　　　　　　　　     //当新长度满足转换条件时，调用treeifyBin方法，将该链表转换为红黑树。
                        break;　　　　　　　　　　　　　　　　　　　　　　　　　　　　　   //当然如果不满足转换条件，那么插入数据后结构也无需变动，所有插入操作也到此结束了，break退出即可。
                    }
                    if (e.hash == hash &&　　　　　　　　　　　　　　　　　　　　　　　　 //在遍历链表的过程中，我之前提到了，有可能遍历到与插入的key相同的节点，此时只要将这个节点引用赋值给e，最后通过e去把新的value覆盖掉就可以了。
                        ((k = e.key) == key || (key != null && key.equals(k))))　　 //老样子判断当前遍历的节点的key是否相同。
                        break;　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　  //找到了相同key的节点，那么插入操作也不需要了，直接break退出循环进行最后的value覆盖操作。
                    p = e;　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　 //在第21行我提到过，e是当前遍历的节点p的下一个节点，p = e 就是依次遍历链表的核心语句。每次循环时p都是下一个node节点。
                }
            }
            if (e != null) { // existing mapping for key　　　　　　　　　　　　　　　　//左边注释为jdk自带注释，说的很明白了，针对已经存在key的情况做处理。
                V oldValue = e.value;　　　　　　　　　　　　　　　　　　　　　　　　　　　//定义oldValue，即原存在的节点e的value值。
                if (!onlyIfAbsent || oldValue == null)　　　　　　　　　　　　　　　　　//前面提到，onlyIfAbsent表示存在key相同时不做覆盖处理，这里作为判断条件，可以看出当onlyIfAbsent为false或者oldValue为null时，进行覆盖操作。
                    e.value = value;　　　　　　　　　　　　　　　　　　　　　　　　      //覆盖操作，将原节点e上的value设置为插入的新value。
                afterNodeAccess(e);　　　　　　　　　　　　　　　　　　　　　　　　　　　　//这个函数在hashmap中没有任何操作，是个空函数，他存在主要是为了linkedHashMap的一些后续处理工作。
                return oldValue;　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　//这里很有意思，他返回的是被覆盖的oldValue。我们在使用put方法时很少用他的返回值，甚至忘了它的存在，这里我们知道，他返回的是被覆盖的oldValue。
            }
        }　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　 
        ++modCount;　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　 //收尾工作，值得一提的是，对key相同而覆盖oldValue的情况，在前面已经return，不会执行这里，所以那一类情况不算数据结构变化，并不改变modCount值。
        if (++size > threshold)　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　 //同理，覆盖oldValue时显然没有新元素添加，除此之外都新增了一个元素，这里++size并与threshold判断是否达到了扩容标准。
            resize();　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　 //当HashMap中存在的node节点大于threshold时，hashmap进行扩容。
        afterNodeInsertion(evict);　　　　　　　　　　　　　　　　　　　　　　　　　　　　　//这里与前面的afterNodeAccess同理，是用于linkedHashMap的尾部操作，HashMap中并无实际意义。1
        return null;　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　   　　　    //最终，对于真正进行插入元素的情况，put函数一律返回null。
    }

①.判断键值对数组table[i]是否为空或为null，否则执行resize()进行扩容；
②.根据键值key计算hash值得到插入的数组索引i，如果table[i]==null，直接新建节点添加，转向⑥，如果table[i]不为空，转向③；
③.判断table[i]的首个元素是否和key一样，如果相同直接覆盖value，否则转向④，这里的相同指的是hashCode以及equals；
④.判断table[i] 是否为treeNode，即table[i] 是否是红黑树，如果是红黑树，则直接在树中插入键值对，否则转向⑤；
⑤.遍历table[i]，判断链表长度是否大于8，大于8的话把链表转换为红黑树，在红黑树中执行插入操作，否则进行链表的插入操作；遍历过程中若发现key已经存在直接覆盖value即可；
⑥.插入成功后，判断实际存在的键值对数量size是否超多了最大容量threshold，如果超过，进行扩容。

五、resize方法

// Initializes or doubles table size，两倍扩容并初始化table  
final Node<K,V>[] resize() {  
        Node<K,V>[] oldTab = table;  
        int oldCap = (oldTab == null) ? 0 : oldTab.length;  
        int oldThr = threshold;  
        int newCap, newThr = 0; // 新容量，新阀值  
        if (oldCap > 0) {  
            if (oldCap >= MAXIMUM_CAPACITY) {  
                threshold = Integer.MAX_VALUE;  
                return oldTab; //到达极限，无法扩容  
            }  
            else if((newCap = oldCap << 1) < MAXIMUM_CAPACITY &&  
                     oldCap >= DEFAULT_INITIAL_CAPACITY)  
                newThr = oldThr << 1; // double threshold阀值  
       }  
      // oldCap=0 ,oldThr>0，threshold(新的扩容resize临界值)  
       else if (oldThr > 0)   
           newCap = oldThr; //新容量=旧阀值（扩容临界值）  
       else {     // oldCap=0 ,oldThr=0，调用默认值来初始化  
         newCap = DEFAULT_INITIAL_CAPACITY;  
         newThr=(int)(DEFAULT_LOAD_FACTOR * DEFAULT_INITIAL_CAPACITY);  
        }  
        if (newThr== 0) { //新阀值为0，则需要计算新的阀值   
           float ft = (float)newCap * loadFactor;  
           newThr = (newCap < MAXIMUM_CAPACITY && ft < (float)MAXIMUM_CAPACITY ?(int)ft : Integer.MAX_VALUE);  
        }  
        threshold = newThr; //设置新的阀值  
        @SuppressWarnings({"rawtypes","unchecked"})  
            Node<K,V>[] newTab = (Node<K,V>[])new Node[newCap]; //创建新的桶  
        table = newTab;   
         // table初始化,bucket copy到新bucket，分链表和红黑树  
        if (oldTab != null) { // 不为空则挨个copy，影响效率！！！  
            for (int j = 0; j < oldCap; ++j) {  
               Node<K,V> e;  
               if ((e = oldTab[j]) != null) { //先赋值再判断  
                  oldTab[j] = null; //置null，主动GC  
                  //如果该桶只有一个元素，重新计算桶位，则直接赋到新的桶里面  
                  if (e.next == null)   
                //1.6的indexFor，计算key;tableSizeFor性能优化  
                    newTab[e.hash &(newCap - 1)]= e; //hash&(length-1)  
                  else if (e instanceof TreeNode) // 红黑树  
                     ((TreeNode<K,V>)e).split(this, newTab, j, oldCap);  
                  else { //链表，preserve order保持顺序  
                        //一个桶中有多个元素，遍历将它们移到新的bucket或原bucket  
                        Node<K,V> loHead = null,loTail = null;//lo原bucket的链表指针  
                        Node<K,V> hiHead = null, hiTail = null;//hi新bucket的链表指针  
                        Node<K,V> next;  
                        do {  
                            next = e.next;  
                            if ((e.hash & oldCap) == 0) {//还放在原来的桶  
                                if (loTail == null)  
                                    loHead = e;  
                                else  
                                    loTail.next = e;  
                                loTail = e; //更新尾指针  
                            }  
                            else {//放在新桶  
                                if (hiTail == null)  
                                    hiHead = e;  
                                else  
                                    hiTail.next = e;  
                                hiTail = e;  
                            }  
                        } while ((e = next) != null); //  
                        if (loTail != null) { //原bucket位置的尾指针不为空(即还有node)  
                            loTail.next = null; //链表最后得有个null  
                            newTab[j] = loHead;//链表头指针放在新桶的相同下标(j)处  
                        }  
                        if (hiTail != null) {  //放在桶 j+oldCap  
                            hiTail.next = null;  
                            newTab[j + oldCap] = hiHead;//j+oldCap见下  
                        }  
                    }  
                }  
            }  
        }  
        return newTab;  
    }

六、treeifyBin方法

// 转化为树节点
    final void treeifyBin(Node<K,V>[] tab, int hash) {
        /*int n, index; Node<K,V> e;
        // 如果hash为空，或者键值对总数不够，则扩容
        if (tab == null || (n = tab.length) < MIN_TREEIFY_CAPACITY)
            resize();
        // 加入的node不为空
        else if ((e = tab[index = (n - 1) & hash]) != null) {
            TreeNode<K,V> hd = null, tl = null;
            // 该循环把原本的单向链表，改成使用红黑树节点链接的双向链表
            do {
                // 单向链表节点转化为红黑树节点
                TreeNode<K,V> p = replacementTreeNode(e, null);
                // 此处类似构造一个双向链表
                if (tl == null)
                    // hd为头节点
                    hd = p;
                else {
                    p.prev = tl;
                    tl.next = p;
                }
                tl = p;
            // 遍历单向链表
            } while ((e = e.next) != null);
            if ((tab[index] = hd) != null)
                hd.treeify(tab);
        }*/
    }

更多内容请关注微信公众号：it_haha

高级架构进阶之HashMap源码就该这么学

引言--面试常见的问题

问：“你用过HashMap，你能跟我说说它吗？”

问：“你知道HashMap 在put和get的时候是怎么工作的吗？”

问：“HashMap的key为什么一般用字符串比较多，能用其他对象，或者自定义的对象吗？为什么？”

问：“你刚才提到HashMap不是线程安全的，你怎么理解线程安全。原理是什么？几种方式避免线程安全的问题。”

一、数据结构

二、成员属性

1、loadFactor参数

三、构造方法

四、put方法

五、resize方法

六、treeifyBin方法

10分钟搞定Mysql主从部署配置

如何使用 JS 判断用户是否处于活跃状态

「Pygors跨平台GUI」2：安装MinGW-w64、MSYS2还是WSL2

[转帖]

python列出centos7内存使用前50的进程信息

「Pygors跨平台GUI」1：Pygors跨平台GUI应用研究

一键自动化博客发布工具,用过的人都说好(掘金篇)

lightdb数据库超时相关控制参数

lightdb秒级增加列和删除列（not null带默认值）

Java ThreadPoolShutdown

spring AOP

京東商品詳情頁應對“雙11”大流量的技術實踐

美團外賣訂單中心的演進

消息隊列設計精要

【Getty】Java NIO框架設計與實現

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結