java集合框架分析-HashMap(加載因子及初始容量深入分析)

《java集合框架分析-HashMap》一文對 Java 的 HashMap 進行了簡單分析，本篇繼續深入瞭解其中涉及到的一些重要內容。

源碼環境

JDK1.6

加載因子 loadfactor

     /**
     * 默認的初始化的容量，必須是2的冪次數<br>
     * The default initial capacity - MUST be a power of two.
     */
    static final int DEFAULT_INITIAL_CAPACITY = 16;

    /**
     * 默認的加載因子
     */
    static final float DEFAULT_LOAD_FACTOR = 0.75f;

    /**
     * 閾值。等於容量乘以加載因子。<br>
     * 也就是說，一旦容量到了這個數值，HashMap將會擴容。
     * The next size value at which to resize (capacity * load factor).
     * @serial
     */
    int threshold;

以下圖片來自於網上，這是關於 HashMap 底層的數據結構，也就是散列表。

默認的容量是 16，而 threshold 是 16*0.75 = 12;

加載因子 loadfactor 是表示 Hsah 表中元素的填滿的程度.若:加載因子越大,填滿的元素越多,好處是,空間利用率高了,但:衝突的機會加大了.反之,加載因子越小,填滿的元素越少,好處是:衝突的機會減小了,但:空間浪費多了.

衝突的機會越大,則查找的成本越高.反之,查找的成本越小.因而,查找時間就越小.

因此,必須在 “衝突的機會”與”空間利用率”之間尋找一種平衡與折衷. 這種平衡與折衷本質上是數據結構中有名的”時-空”矛盾的平衡與折衷.

put 方法

public V put(K key, V value) {
        // 省略部分代碼...
        // 這裏增加了一個Entry
        addEntry(hash, key, value, i); 
        return null;
    }

    //插入一條數據
    void addEntry(int hash, K key, V value, int bucketIndex) {
    Entry<K,V> e = table[bucketIndex];
        table[bucketIndex] = new Entry<K,V>(hash, key, value, e);
        // 這裏是關鍵，一旦大於等於threshold的數值
        if (size++ >= threshold) {
            // 將會引起容量2倍的擴大
            resize(2 * table.length); 

        }
    }

    //擴容
    void resize(int newCapacity) {
        Entry[] oldTable = table;
        int oldCapacity = oldTable.length;
        if (oldCapacity == MAXIMUM_CAPACITY) {
            threshold = Integer.MAX_VALUE;
            return;
        }

        Entry[] newTable = new Entry[newCapacity];  
        transfer(newTable); 
        table = newTable;

        // 重新計算threshold的值
        threshold = (int)(newCapacity * loadFactor);
    }

在 put 方法中，首先會判斷容量是否夠，如果一旦超過閾值的話，則就進行2倍擴容。

初始容量

初始容量 DEFAULT_INITIAL_CAPACITY 必須是2的冪次數，也就是說必須是正整數，爲何要如此設計呢？

public HashMap(int initialCapacity, float loadFactor) {

        // Find a power of 2 >= initialCapacity
        // 重新查找不比指定數值大的最小的2的冪次數
        int capacity = 1;
        while (capacity < initialCapacity)
            //左移一位，擴大兩倍，獲取最合適的初始容量值
            capacity <<= 1;
        // 其它的初始化代碼 ...
    }

上面是 HashMap 進行初始化時的構造方法裏面關於初始容量的內容，主要就是找到合適的初始容量。

爲何是2的冪次數？這就涉及到哈希表中元素的均勻散列了。


//indexFor返回hash值和table數組長度減1的與運算結果。
public static int indexFor(int h, int length) {
    return h & (length-1);   
}

對於查找 hash 表中的數據時需要用到以上的方法，我們一般對哈希表的散列很自然地會想到用hash值對length取模（即除法散列法），Hashtable 中也是這樣實現的，這種方法基本能保證元素在哈希表中散列的比較均勻，但取模會用到除法運算，效率很低，HashMap 中則通過 h&(length-1) 的方法來代替取模，同樣實現了均勻的散列，但效率要高很多，這也是 HashMap 對 Hashtable 的一個改進。

接下來，我們分析下爲什麼哈希表的容量一定要是2的整數次冪。首先，length 爲2的整數次冪的話，h&(length-1) 就相當於對 length 取模，這樣便保證了散列的均勻，同時也提升了效率；其次，length 爲2的整數次冪的話，爲偶數，這樣 length-1 爲奇數，奇數的最後一位是1，這樣便保證了 h&(length-1) 的最後一位可能爲0，也可能爲1（這取決於h的值），即與後的結果可能爲偶數，也可能爲奇數，這樣便可以保證散列的均勻性，而如果 length 爲奇數的話，很明顯 length-1 爲偶數，它的最後一位是0，這樣 h&(length-1) 的最後一位肯定爲0，即只能爲偶數，這樣任何hash值都只會被散列到數組的偶數下標位置上，這便浪費了近一半的空間，因此，length 取2的整數次冪，是爲了使不同 hash 值發生碰撞的概率較小，這樣就能使元素在哈希表中均勻地散列。

java集合框架分析-HashMap(加載因子及初始容量深入分析)

源碼環境

加載因子 loadfactor

put 方法

初始容量

Java集合框架分析(六)-Iterator迭代器分析

Java學習總結-註解

Android 事件分發機制源碼解析-ViewGroup層

Java集合框架分析(一)綜合概述

Java集合框架分析(二)ArrayList分析

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結