從源碼分析ConcurrentHashMap

介紹

作爲線程安全的HashMap,Java提供了Hashtable和ConcurrentHashMap兩種實現,而Hashtable控制線程安全的方式僅僅是用synchronized對方法加鎖,這種低效且過時的方法已經不適合如今的開發

在JDK5中,就已經出現了ConcurrentHashMap作爲Hashtable的高效替代品。在JDK7及之前,ConcurrentHashMap還是使用分段鎖的技術來提高效率,而在JDK8中,則大量採用CAS方式來保證併發安全性,接下來就會講到ConcurrentHashMap是如何高效地解決併發衝突問題

屬性結構分析

ConcurrentHashMap中諸如最大長度、負載因子等屬性和HashMap中一致,不多贅述,見之前的這篇博客:從源碼分析HashMap

這裏我們只看重點

    private static int RESIZE_STAMP_BITS = 16;
    private static final int MAX_RESIZERS = (1 << (32 - RESIZE_STAMP_BITS)) - 1;
    private static final int RESIZE_STAMP_SHIFT = 32 - RESIZE_STAMP_BITS;

上面這3個屬性在HashMap中沒有出現,我們注意到這些屬性中都有一個RESIZE,看來是和擴容有關的,至於怎麼操作,我們一會兒說到的時候再看

	// 保存鍵值對數據的數組
	transient volatile Node<K,V>[] table;	
	// 擴容時的輔助數組
	private transient volatile Node<K,V>[] nextTable;

上面這兩個屬性很好理解,我們要注意的就是前面都加上了volatile關鍵字,以保證併發時的可見性

	// 元素個數
	private transient volatile long baseCount;
	// Map中table的狀態標識
	private transient volatile int sizeCtl;
	// 擴容時的分界位置
	private transient volatile int transferIndex;
	// 額外待統計的元素個數
	private transient volatile CounterCell[] counterCells;

後面兩個屬性是不是搞不懂用處是什麼,沒關係一會兒就會講到,我們先看前兩個屬性

第一個屬性baseCount顯而易見就是指元素的個數,如果我們看源碼中的註釋,會發現這裏的baseCount實際指當沒有發生線程爭用時的元素個數,同時還作爲初始化的後備屬性

第二個屬性sizeCtl有以下的幾種情況

  • 爲正數
    – 如果未初始化,表示table需要初始化的大小
    – 如果已初始化,表示table的容量(總大小的0.75倍)
  • 爲負數
    – 值爲-1時,表示正在初始化
    – 值爲-N時,表示有N-1個線程正在初始化

然後我們來看最常用的兩個構造函數,如下

    public ConcurrentHashMap() {
    }
    
    public ConcurrentHashMap(int initialCapacity) {
        if (initialCapacity < 0)
            throw new IllegalArgumentException();
        int cap = ((initialCapacity >= (MAXIMUM_CAPACITY >>> 1)) ?
                   MAXIMUM_CAPACITY :
                   tableSizeFor(initialCapacity + (initialCapacity >>> 1) + 1));
        this.sizeCtl = cap;
    }

正如我們所說,sizeCtl在未初始化table時,等於table需要初始化的大小,順便說一下,ConcurrentHashMap和HashMap一樣,都將第一次初始化延遲到了第一次put操作,這麼做避免了無謂的初始化操作

輔助方法

initTable() —— 初始化table
    private final Node<K,V>[] initTable() {
        Node<K,V>[] tab; int sc;
        // 只要table是空的就一直進行初始化操作
        while ((tab = table) == null || tab.length == 0) {
            if ((sc = sizeCtl) < 0)	// 如果table已經處在初始化過程中,就讓當前線程讓出cpu
                Thread.yield(); 
            else if (U.compareAndSwapInt(this, SIZECTL, sc, -1)) {
            	// 通過CAS操作對sizeCtl賦值-1(表示table正在初始化)
                try {
                	// 再次進行判斷table是否爲空(雙檢鎖)
                    if ((tab = table) == null || tab.length == 0) {
                        int n = (sc > 0) ? sc : DEFAULT_CAPACITY;
                        Node<K,V>[] nt = (Node<K,V>[])new Node<?,?>[n];
                        table = tab = nt;
                        sc = n - (n >>> 2);
                    }
                } finally {
                    sizeCtl = sc;
                }
                break;
            }
        }
        return tab;
    }

配合註釋可以很容易理解,在初始化方法中,通過兩次檢查table是否爲空以及CAS賦值操作保證了多線程下的安全性

tabAt()和casTabAt() —— 獲取/設置table索引位置值
    static final <K,V> Node<K,V> tabAt(Node<K,V>[] tab, int i) {
        return (Node<K,V>)U.getObjectVolatile(tab, ((long)i << ASHIFT) + ABASE);
    }

    static final <K,V> boolean casTabAt(Node<K,V>[] tab, int i,
                                        Node<K,V> c, Node<K,V> v) {
        return U.compareAndSwapObject(tab, ((long)i << ASHIFT) + ABASE, c, v);
    }

這裏都調用了Unsafe對象提供的native方法,也許有人會想爲什麼不用table[index]來獲值/賦值,要注意,ConcurrentHashMap是爲了應對多線程併發的情況而存在的,在多線程下,我們並不能保證table[index]一定能獲得即時的屬性值,如果是修改操作則會發生修改覆蓋的情況

transfer() —— 數組擴容

這個方法代碼相當長,希望配合註釋耐心看完

    /**
     * @param tab 擴容前的數組(當前數組)
     * @param nextTab 擴容後的數組
     */
    private final void transfer(Node<K,V>[] tab, Node<K,V>[] nextTab) {
        int n = tab.length, stride;
        // NCPU爲虛擬機可用的處理器數量,stride表示每個處理器需要處理的區間個數,最少爲16
        if ((stride = (NCPU > 1) ? (n >>> 3) / NCPU : n) < MIN_TRANSFER_STRIDE)
            stride = MIN_TRANSFER_STRIDE;
        // 如果輔助數組爲空(這個數組僅在擴容時不爲空)
        if (nextTab == null) {
            try {
            	// 默認擴容兩倍
                Node<K,V>[] nt = (Node<K,V>[])new Node<?,?>[n << 1];
                nextTab = nt;
            } catch (Throwable ex) {
                sizeCtl = Integer.MAX_VALUE;
                return;
            }
            nextTable = nextTab;
            // 轉移下標(下一次處理的數組段分界位置)
            transferIndex = n;
        }
        int nextn = nextTab.length;
        // ForwardingNode是Node的子類, 其中包含一個Node類型的數組
        // 做佔位使用,可以讓別的線程檢查是否有其他線程在使用數組
        ForwardingNode<K,V> fwd = new ForwardingNode<K,V>(nextTab);
        boolean advance = true;
        // 判斷擴容是否完成
        boolean finishing = false;
        // bound標記當前線程處理的區間段的最小下標
        for (int i = 0, bound = 0;;) {
            Node<K,V> f; int fh;
            while (advance) {
                int nextIndex, nextBound;
                if (--i >= bound || finishing)
                    advance = false;
                // 轉移下標小於等於0,說明所有的區間段都處理完畢
                else if ((nextIndex = transferIndex) <= 0) {
                    i = -1;
                    advance = false;
                }
                // CAS操作賦值失敗後advance值不變,會再次循環
                else if (U.compareAndSwapInt
                         (this, TRANSFERINDEX, nextIndex,
                          nextBound = (nextIndex > stride ?
                                       nextIndex - stride : 0))) {
                 	// bound爲當前區段的最小下標
                    bound = nextBound;
                    // i爲當前區段的最大下標
                    i = nextIndex - 1;
                    advance = false;
                }
            }
            // n爲原數組長度,nextn爲新數組的長度
            if (i < 0 || i >= n || i + n >= nextn) {
                int sc;
                // 如果擴容完成,就把nextTab賦值給table,然後結束
                if (finishing) {
                    nextTable = null;
                    table = nextTab;
                    sizeCtl = (n << 1) - (n >>> 1);
                    return;
                }
                // 嘗試將當前擴容的線程數+1(不懂爲什麼的,翻到上面看sizeCtl的含義)
                if (U.compareAndSwapInt(this, SIZECTL, sc = sizeCtl, sc - 1)) {
                	// 如果沒有線程在幫助擴容,說明擴容結束
                    if ((sc - 2) != resizeStamp(n) << RESIZE_STAMP_SHIFT)
                        return;
                    finishing = advance = true;
                    i = n; // recheck before commit
                }
            }
            // 如果i索引處爲空,就用一個fwd來進行佔位
            else if ((f = tabAt(tab, i)) == null)
                advance = casTabAt(tab, i, null, fwd);
            // 如果已經被別的線程處理過了
            else if ((fh = f.hash) == MOVED)
                advance = true;
            else {
            	// 給當前索引位置節點加鎖
                synchronized (f) {
                	// 再次檢查一遍索引位置的值是否改變
                    if (tabAt(tab, i) == f) {
                        Node<K,V> ln, hn;
                        // 如果索引節點的hash值大於等於0(紅黑樹節點的hash值爲-2)
                        if (fh >= 0) {
                        	// 獲取在新數組上的hash索引值
                            int runBit = fh & n;
                            Node<K,V> lastRun = f;
                            // 遍歷節點鏈表,更新其hash值
                            for (Node<K,V> p = f.next; p != null; p = p.next) {
                                int b = p.hash & n;
                                if (b != runBit) {
                                	// runBit記錄最後一個擁有不同的新hash值的節點
                                    runBit = b;
                                    // lastRun和其之後的節點擁有和p相同的新hash值
                                    lastRun = p;
                                }
                            }
                            if (runBit == 0) {
                                ln = lastRun;
                                hn = null;
                            }
                            else {
                                hn = lastRun;
                                ln = null;
                            }
                            // 對於新hash不同的節點,根據取餘結果分爲ln和hn兩條鏈表
                            for (Node<K,V> p = f; p != lastRun; p = p.next) {
                                int ph = p.hash; K pk = p.key; V pv = p.val;
                                if ((ph & n) == 0)
                                    ln = new Node<K,V>(ph, pk, pv, ln);
                                else
                                    hn = new Node<K,V>(ph, pk, pv, hn);
                            }
                            // 將低位鏈表放到i索引處
                            setTabAt(nextTab, i, ln);
                            // 將高位鏈表放到i+n索引處
                            setTabAt(nextTab, i + n, hn);
                            // 在舊鏈表處設置佔位符,表示該索引節點已經被處理過
                            setTabAt(tab, i, fwd);
                            advance = true;
                        }
                        // 如果f是樹節點
                        else if (f instanceof TreeBin) {
                            TreeBin<K,V> t = (TreeBin<K,V>)f;
                            TreeNode<K,V> lo = null, loTail = null;
                            TreeNode<K,V> hi = null, hiTail = null;
                            int lc = 0, hc = 0;
                            for (Node<K,V> e = t.first; e != null; e = e.next) {
                                int h = e.hash;
                                TreeNode<K,V> p = new TreeNode<K,V>
                                    (h, e.key, e.val, null, null);
                                if ((h & n) == 0) {
                                    if ((p.prev = loTail) == null)
                                        lo = p;
                                    else
                                        loTail.next = p;
                                    loTail = p;
                                    ++lc;
                                }
                                else {
                                    if ((p.prev = hiTail) == null)
                                        hi = p;
                                    else
                                        hiTail.next = p;
                                    hiTail = p;
                                    ++hc;
                                }
                            }
                            ln = (lc <= UNTREEIFY_THRESHOLD) ? untreeify(lo) :
                                (hc != 0) ? new TreeBin<K,V>(lo) : t;
                            hn = (hc <= UNTREEIFY_THRESHOLD) ? untreeify(hi) :
                                (lc != 0) ? new TreeBin<K,V>(hi) : t;
                            setTabAt(nextTab, i, ln);
                            setTabAt(nextTab, i + n, hn);
                            setTabAt(tab, i, fwd);
                            advance = true;
                        }
                    }
                }
            }
        }
    }

算法很長,如果看註釋看不懂的話,我在這裏再解釋一下

將整個部分分爲三塊:

  • 預處理部分(計算需要處理的區間個數,設置新數組容量等)
  • 分段部分(計算每個線程需要處理的區間段)
  • 處理部分(將舊數組的節點轉移到新數組的對應位置上)

在ConcurrentHashMap的擴容方法中,核心代碼的最外層是一個循環,每次分配數組的一段給線程,然後通過設置佔位符的方法,變相地告知其他線程某個索引位置正在處理,這樣就保證了併發安全性。在處理時,通過將索引位置鏈表上的節點按hash取餘結果分爲低位高位兩種,高位節點放在新數組的高位處,低位節點則放在原數組的對應位置,最終完成了數組的轉移

addCount() —— 增加元素個數

這個方法並不是像方法表面意義那樣像table中添加元素,在調用這個方法的時候我們的元素早就已經添加到table中了。實際上,這個方式是在添加元素之後,增加元素個數統計值,同時承擔了判斷是否擴容的職責,如下

	/**
     * @param x 要增加的元素個數
     * @param check 當小於0時,不檢查是否進行擴容,
     * 當小於等於1時,只在非競爭狀態下檢查是否需要擴容
     */
    private final void addCount(long x, int check) {
        CounterCell[] as; long b, s;
        // 當counterCells爲空,且直接增加baseCount的值成功,就跳過這一步
        if ((as = counterCells) != null ||
            !U.compareAndSwapLong(this, BASECOUNT, b = baseCount, s = b + x)) {
            CounterCell a; long v; int m;
            // 判斷是否發生競爭的標誌量
            boolean uncontended = true;
            // 當發生以下幾種情況之一時,需要進一步操作
            // 1. counterCells爲空
            // 2. counterCells中取一個隨機位置:
            // 		- 這個位置的值爲空
            // 		- 或者給這個位置的值通過CAS操作加上【要增加的元素個數值】失敗
            if (as == null || (m = as.length - 1) < 0 ||
                (a = as[ThreadLocalRandom.getProbe() & m]) == null ||
                !(uncontended =
                  U.compareAndSwapLong(a, CELLVALUE, v = a.value, v + x))) {
                // 相當於加強版的addCount,裏面通過死循環來進行賦值
                fullAddCount(x, uncontended);
                return;
            }
            if (check <= 1)
                return;
            // s爲當前元素總數
            s = sumCount();
        }
        // 檢查是否需要擴容
        if (check >= 0) {
            Node<K,V>[] tab, nt; int n, sc;
            // 如果元素總數超過容量,或數組爲空,就進行擴容
            while (s >= (long)(sc = sizeCtl) && (tab = table) != null &&
                   (n = tab.length) < MAXIMUM_CAPACITY) {
                int rs = resizeStamp(n);
                // 說明正在進行擴容
                if (sc < 0) {
                	// 發生擴容結束、線程上限或者屬性被修改等異常,結束循環
                    if ((sc >>> RESIZE_STAMP_SHIFT) != rs || sc == rs + 1 ||
                        sc == rs + MAX_RESIZERS || (nt = nextTable) == null ||
                        transferIndex <= 0)
                        break;
                    // 嘗試給擴容線程數+1,表示增加了一個線程幫助擴容
                    // 這裏我不是很理解爲什麼+1,sc小於0時的+1操作不是表示減少一個擴容線程嗎
                    if (U.compareAndSwapInt(this, SIZECTL, sc, sc + 1))
                        transfer(tab, nt);
                }
                // 如果不是負數,就左移16位然後+2,變成一個負數,高16位是標識符,低16位是2
                else if (U.compareAndSwapInt(this, SIZECTL, sc,
                                             (rs << RESIZE_STAMP_SHIFT) + 2))
                    transfer(tab, null);
                s = sumCount();
            }
        }
    }

這個方法相對而言就好理解多了,分爲以下幾步:

  1. 檢查計數盒是否爲空,如果不爲空,轉到第3步
  2. addCount方法會嘗試修改baseCount,如果不成功,就進入下一步
  3. 給計數盒上的隨機索引位置處,加上需要增加的個數,如果失敗,就循環重試
  4. 如果需要檢查擴容,就調用transfer方法進行擴容
sumCount() —— 統計元素個數

這裏的統計元素方法並不是簡單地返回baseCount或者遍歷table計算,如下

    final long sumCount() {
        CounterCell[] as = counterCells; CounterCell a;
        long sum = baseCount;
        if (as != null) {
            for (int i = 0; i < as.length; ++i) {
                if ((a = as[i]) != null)
                    sum += a.value;
            }
        }
        return sum;
    }

我們會發現元素的總數相當於baseCount + counterCells數組非空元素值之和,現在我們就能知道couterCells是什麼意思了。在addCount方法中,我們發現本來應加在baseCount上的值,有一部分加在了counterCells數組中,也就是說元素總數應該爲baseCount和couterCells數組的所有值之和

常用方法

get()

方法和HashMap有很大類似,我們直接看如下代碼

    public V get(Object key) {
        Node<K,V>[] tab; Node<K,V> e, p; int n, eh; K ek;
        int h = spread(key.hashCode());
        // 如果輸入不爲空且索引節點也不爲空
        if ((tab = table) != null && (n = tab.length) > 0 &&
            (e = tabAt(tab, (n - 1) & h)) != null) {
            if ((eh = e.hash) == h) {
                if ((ek = e.key) == key || (ek != null && key.equals(ek)))
                    return e.val;
            }
            // 說明是樹節點
            else if (eh < 0)
                return (p = e.find(h, key)) != null ? p.val : null;
            // 通過循環從鏈表中找
            while ((e = e.next) != null) {
                if (e.hash == h &&
                    ((ek = e.key) == key || (ek != null && key.equals(ek))))
                    return e.val;
            }
        }
        return null;
    }

瞭解過HashMap的get函數之後,這裏的代碼就不難理解了。爲了保證併發安全性,通過**tabAt()**方法獲取某索引節點的值

整段代碼的流程和HashMap中的get函數基本一致:

  • 檢查數組是否爲空,如果不爲空,進入下一步
  • 獲取索引位置的節點
  • 檢查key值是否一致,如果一致則直接返回,否則進入下一步
  • 如果是樹節點,按照樹節點的方法查找並返回指定key值節點
  • 否則說明是鏈表,通過循環來遍歷查找
  • 如果還找不到,說明節點不存在,返回null
put()

因爲put()方法和HashMap中的put()方法類似,都是在內部調用了一個putVal方法,所以我們就直接來看下面的putVal()方法

	/** 
	 * @param onlyIfAbsent 爲true表示不覆蓋原值
	 */
    final V putVal(K key, V value, boolean onlyIfAbsent) {
        if (key == null || value == null) throw new NullPointerException();
        int hash = spread(key.hashCode());
        int binCount = 0;
        for (Node<K,V>[] tab = table;;) {
            Node<K,V> f; int n, i, fh;
            // 理論上這裏是第一次調用initTable()方法的地方
            if (tab == null || (n = tab.length) == 0)
                tab = initTable();
            // 如果索引位置爲空,則直接賦值
            else if ((f = tabAt(tab, i = (n - 1) & hash)) == null) {
                if (casTabAt(tab, i, null,
                             new Node<K,V>(hash, key, value, null)))
                    break;                   // no lock when adding to empty bin
            }
            // 如果節點正在轉移中,則通過helpTransfer()方法加速轉移
            else if ((fh = f.hash) == MOVED)
                tab = helpTransfer(tab, f);
            else {
                V oldVal = null;
                // 查找時先給節點加對象鎖
                synchronized (f) {
                	// 如果索引位置上的節點和f相等
                    if (tabAt(tab, i) == f) {
                    	// 如果hash值大於0
                        if (fh >= 0) {
                        	// 記錄經過的鏈表上的節點個數
                            binCount = 1;
                            for (Node<K,V> e = f;; ++binCount) {
                                K ek;
                                // 找到指定的節點
                                if (e.hash == hash &&
                                    ((ek = e.key) == key ||
                                     (ek != null && key.equals(ek)))) {
                                    oldVal = e.val;
                                    // 如果設置了覆蓋原值,就用新值替換舊值
                                    if (!onlyIfAbsent)
                                        e.val = value;
                                    break;
                                }
                                Node<K,V> pred = e;
                                // 沿着鏈表找
                                if ((e = e.next) == null) {
                                    pred.next = new Node<K,V>(hash, key,
                                                              value, null);
                                    break;
                                }
                            }
                        }
                        // 如果是樹節點,就用樹節點的方法來找
                        else if (f instanceof TreeBin) {
                            Node<K,V> p;
                            binCount = 2;
                            if ((p = ((TreeBin<K,V>)f).putTreeVal(hash, key,
                                                           value)) != null) {
                                oldVal = p.val;
                                if (!onlyIfAbsent)
                                    p.val = value;
                            }
                        }
                    }
                }
                if (binCount != 0) {
                	// 超過了閾值(8)之後就將鏈表轉換成紅黑樹
                    if (binCount >= TREEIFY_THRESHOLD)
                        treeifyBin(tab, i);
                    if (oldVal != null)
                        return oldVal;
                    break;
                }
            }
        }
        // 總結點數加1
        addCount(1L, binCount);
        return null;
    }

流程和HashMap中的put方法基本一致,我們重點是控制併發安全的方法。在ConcurrentHashMap中,有以下幾部分是與併發相關的:

  • 最外層是一個死循環,表示賦值失敗會再次進行嘗試
  • 通過tabAt()/casTabAt() 方法 獲取/設置索引位置的值
  • 如果發現節點正在轉移中(擴容時需要轉移節點),通過helpTransfer()方法協助擴容
  • 先給索引位置的首節點加對象鎖,再查找節點
其餘方法

其餘的常用方法對併發安全的體現就不如以上方法明顯,所以在這裏就不再贅述

總結

ConcurrentHashMap相比於JDK7中的分段鎖,採用了volatile+CAS+synchronized的機制,將當前數組的狀態在線程間相互傳遞,實現了各種高效的操作。當然,由於爲了保證操作能夠完成,在方法中大量使用了死循環判斷,所以在多線程競爭激烈的情況下還是有可能發生線程阻塞的情況

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章