說明: 源碼分析基於 JDK1.7&&JDK1.8
簡介
HashMap
是基於哈希表的Map
接口實現,以key-value的形式存在,常用的Java集合之一。
JDK1.8 之前 HashMap
由 數組+鏈表 組成的,數組是 HashMap
的主體,鏈表則是主要爲了解決哈希衝突而存在的(“拉鍊法”解決衝突)。JDK1.8 以後在解決哈希衝突時有了較大的變化,當鏈表長度大於閾值(默認爲 8)時,將鏈表轉化爲紅黑樹,以減少搜索時間。
HashMap
允許放入key
爲null
的元素,也允許插入value
爲null
的元素;除該類未實現同步外,其餘跟Hashtable
大致相同;跟TreeMap
不同,該容器不保證元素順序,根據需要該容器可能會對元素重新哈希,元素的順序也會被重新打散,因此不同時間迭代同一個HashMap的順序可能會不同。根據對衝突的處理方式不同,哈希表有兩種實現方式,一種開放地址方式(Open addressing)[發生衝突,繼續尋找下一塊未被佔用的存儲地址],另一種是衝突鏈表方式(Separate chaining with linked lists),而HashMap
即是採用了衝突鏈表方式,也就是數組+鏈表的方式。
HashMap的數據結構如下圖所示:
Map
接口的架構如下圖所示:
背景 - 哈希衝突
完美 Hash 函數
: 對於每個對象 X 和 Y,如果當且僅當 X.equals(Y) 爲 false,使得 X.hashCode()!= Y.hashCode() 爲 true。
當哈希函數對兩個不同的數據項產生了相同的hash值時,這就稱爲哈希衝突
。
基於對象中變化的字段,我們可以很容易地構造一個完美哈希函數,但是這需要無限的內存大小,這種假設顯然是不可能的。hashCode()
函數的返回值是 int 型,根據鴿籠理論
,當我們的對象超過一定樣本數量後,這些對象會發生哈希衝突。
源碼分析
HashMap
實現的接口如下:
public class HashMap<K,V> extends AbstractMap<K,V>
implements Map<K,V>, Cloneable, Serializable
HashMap
是一個散列表,它存儲的內容是鍵值對(key-value)映射。
HashMap
繼承於AbstractMap
,實現了Map
、Cloneable
、java.io.Serializable
接口。
HashMap
的實現不是同步的,這意味着它不是線程安全的。它的key、value都可以爲null。此外,HashMap
中的映射不是有序的。
構造函數:
/**
* 構造一個使用默認初始容量(16)和默認加載因子(0.75)的HashMap
*/
public HashMap() {
this.loadFactor = DEFAULT_LOAD_FACTOR; // all other fields defaulted
}
/**
* 構造一個指定初始容量的HashMap
*/
public HashMap(int initialCapacity) {
this(initialCapacity, DEFAULT_LOAD_FACTOR);
}
/**
* 構造一個指定初始容量和加載因子的HashMap
*/
public HashMap(int initialCapacity, float loadFactor) {
if (initialCapacity < 0)
throw new IllegalArgumentException("Illegal initial capacity: " +
initialCapacity);
if (initialCapacity > MAXIMUM_CAPACITY)
initialCapacity = MAXIMUM_CAPACITY;
if (loadFactor <= 0 || Float.isNaN(loadFactor))
throw new IllegalArgumentException("Illegal load factor: " +
loadFactor);
this.loadFactor = loadFactor;
this.threshold = tableSizeFor(initialCapacity);
}
/**
* 構造一個指定map的HashMap,所創建HashMap使用默認加載因子(0.75)和足以容納指定map的初始容量。
*/
public HashMap(Map<? extends K, ? extends V> m) {
this.loadFactor = DEFAULT_LOAD_FACTOR;
putMapEntries(m, false);
}
final void putMapEntries(Map<? extends K, ? extends V> m, boolean evict) {
int s = m.size();
if (s > 0) {
if (table == null) { // pre-size
float ft = ((float)s / loadFactor) + 1.0F;
int t = ((ft < (float)MAXIMUM_CAPACITY) ?
(int)ft : MAXIMUM_CAPACITY);
if (t > threshold)
threshold = tableSizeFor(t);
}
else if (s > threshold)
resize();
for (Map.Entry<? extends K, ? extends V> e : m.entrySet()) {
K key = e.getKey();
V value = e.getValue();
putVal(hash(key), key, value, false, evict);
}
}
}
HashMap
提供了四個構造函數:
-
HashMap()
:構造一個具有默認初始容量 (16) 和默認加載因子 (0.75) 的空HashMap。 -
HashMap(int initialCapacity)
:構造一個帶指定初始容量和默認加載因子 (0.75) 的空HashMap。 -
HashMap(int initialCapacity, float loadFactor)
:構造一個帶指定初始容量和加載因子的空HashMap。 -
HashMap(Map<? extends K, ? extends V> m)
:包含“子Map”的構造函數。
HashMap
屬性:
// 默認初始容量爲16,必須爲2的n次冪
static final int DEFAULT_INITIAL_CAPACITY = 1 << 4; // aka 16
// 最大容量爲2的30次方
static final int MAXIMUM_CAPACITY = 1 << 30;
// 默認加載因子爲0.75f
static final float DEFAULT_LOAD_FACTOR = 0.75f;
// Entry數組,長度必須爲2的n次冪
transient Node<K,V>[] table;
// 已存儲元素的數量
transient int size;
// 下次擴容的臨界值,size >= threshold就會擴容,threshold等於capacity * loadFactor
int threshold;
// 加載因子
final float loadFactor;
兩個重要的靜態內部類。
單向鏈表的節點Node
static class Node<K,V> implements Map.Entry<K,V> {
final int hash; //用來定位數組索引位置
final K key;
V value;
Node<K,V> next; //鏈表的下一個node
Node(int hash, K key, V value, Node<K,V> next) { ... }
public final K getKey(){ ... }
public final V getValue() { ... }
public final String toString() { ... }
public final int hashCode() { ... }
public final V setValue(V newValue) { ... }
public final boolean equals(Object o) { ... }
}
紅黑樹的節點TreeNode:
static final class TreeNode<K,V> extends LinkedHashMap.Entry<K,V> {
TreeNode<K,V> parent; // red-black tree links
TreeNode<K,V> left;
TreeNode<K,V> right;
TreeNode<K,V> prev; // needed to unlink next upon deletion
boolean red;
TreeNode(int hash, K key, V val, Node<K,V> next) {
super(hash, key, val, next);
}
/** * Returns root of tree containing this node. */
final TreeNode<K,V> root() {
for (TreeNode<K,V> r = this, p;;) {
if ((p = r.parent) == null)
return r;
r = p;
}
}
……
}
常用API
put(K key, V value)
- 判斷鍵值對數組table[i]是否爲空或爲null,否則執行resize()進行擴容;
- 根據鍵值key計算hash值得到插入的數組索引i,如果table[i]==null,直接新建節點添加,轉向6,如果table[i]不爲空,轉向3;
- 判斷table[i]的首個元素是否和key一樣,如果相同直接覆蓋value,否則轉向4,這裏的相同指的是hashCode以及equals;
- 判斷table[i] 是否爲treeNode,即table[i] 是否是紅黑樹,如果是紅黑樹,則直接在樹中插入鍵值對,否則轉向5;
- 遍歷table[i],判斷鏈表長度是否大於8,大於8的話把鏈表轉換爲紅黑樹,在紅黑樹中執行插入操作,否則進行鏈表的插入操作;遍歷過程中若發現key已經存在直接覆蓋value即可;
- 插入成功後,判斷實際存在的鍵值對數量size是否超多了最大容量threshold,如果超過,進行擴容。
public V put(K key, V value) {
return putVal(hash(key), key, value, false, true);
}
final V putVal(int hash, K key, V value, boolean onlyIfAbsent,
boolean evict) {
Node<K,V>[] tab; Node<K,V> p; int n, i;
if ((tab = table) == null || (n = tab.length) == 0)
// 步驟①:tab爲空則創建
n = (tab = resize()).length;
if ((p = tab[i = (n - 1) & hash]) == null)
// 步驟②:計算index,並對null做處理
tab[i] = newNode(hash, key, value, null);
else {
Node<K,V> e; K k;
if (p.hash == hash &&
((k = p.key) == key || (key != null && key.equals(k))))
// 步驟③:節點key存在,直接覆蓋value
e = p;
else if (p instanceof TreeNode)
// 步驟④:判斷該鏈爲紅黑樹
e = ((TreeNode<K,V>)p).putTreeVal(this, tab, hash, key, value);
else {
// 步驟⑤:該鏈爲鏈表
for (int binCount = 0; ; ++binCount) {
if ((e = p.next) == null) {
p.next = newNode(hash, key, value, null);
if (binCount >= TREEIFY_THRESHOLD - 1) // -1 for 1st
//鏈表長度大於8轉換爲紅黑樹進行處理
treeifyBin(tab, hash);
break;
}
if (e.hash == hash &&
((k = e.key) == key || (key != null && key.equals(k))))
break;
p = e;
}
}
// key已經存在直接覆蓋value
if (e != null) { // existing mapping for key
V oldValue = e.value;
if (!onlyIfAbsent || oldValue == null)
e.value = value;
afterNodeAccess(e);
return oldValue;
}
}
++modCount;
if (++size > threshold)
// 步驟⑥:超過最大容量,就擴容
resize();
afterNodeInsertion(evict);
return null;
}
resize擴容
JDK1.8版本較爲複雜,我們先來看看JDK1.7版本的代碼:
//傳入新的容量
void resize(int newCapacity) {
// 引用擴容前的Entry數組
Entry[] oldTable = table;
int oldCapacity = oldTable.length;
if (oldCapacity == MAXIMUM_CAPACITY) {
// 擴容前的數組大小如果已經達到最大(2^30)了
// 修改閾值爲int的最大值(2^31-1),這樣以後就不會擴容了
threshold = Integer.MAX_VALUE;
return;
}
// 初始化一個新的Entry數組
Entry[] newTable = new Entry[newCapacity];
// !!將數據轉移到新的Entry數組裏
transfer(newTable);
// HashMap的table屬性引用新的Entry數組
table = newTable;
// 修改閾值
threshold = (int)(newCapacity * loadFactor);
}
這裏就是使用一個容量更大的數組來代替已有的容量小的數組,transfer()方法將原有Entry數組的元素拷貝到新的Entry數組裏。
void transfer(Entry[] newTable) {
// src引用了舊的Entry數組
Entry[] src = table;
int newCapacity = newTable.length;
// 遍歷舊的Entry數組
for (int j = 0; j < src.length; j++) {
// 取得舊Entry數組的每個元素
Entry<K,V> e = src[j];
if (e != null) {
// 釋放舊Entry數組的對象引用(for循環後,舊的Entry數組不再引用任何對象)
src[j] = null;
do {
Entry<K,V> next = e.next;
int i = indexFor(e.hash, newCapacity); //!!重新計算每個元素在數組中的位置
// 標記[i]
e.next = newTable[i];
// 將元素放在數組上
newTable[i] = e;
// 訪問下一個Entry鏈上的元素
e = next;
} while (e != null);
}
}
}
newTable[i]的引用賦給了e.next,也就是使用了單鏈表的頭插入方式,同一位置上新元素總會被放在鏈表的頭部位置;這樣先放在一個索引上的元素終會被放到Entry鏈的尾部(如果發生了hash衝突的話),這一點和JDK1.8有區別,下文詳解。在舊數組中同一條Entry鏈上的元素,通過重新計算索引位置後,有可能被放到了新數組的不同位置上。
下面舉個例子說明下擴容過程。假設了我們的hash算法就是簡單的用key mod 一下表的大小(也就是數組的長度)。其中的哈希桶數組table的size=2, 所以key = 3、7、5,put順序依次爲 5、7、3。在mod 2以後都衝突在table[1]這裏了。這裏假設負載因子 loadFactor=1,即當鍵值對的實際大小size 大於 table的實際大小時進行擴容。接下來的三個步驟是哈希桶數組 resize成4,然後所有的Node重新rehash的過程。
下面我們來看看JDK1.8:
final Node<K,V>[] resize() {
Node<K,V>[] oldTab = table;
int oldCap = (oldTab == null) ? 0 : oldTab.length;
int oldThr = threshold;
int newCap, newThr = 0;
if (oldCap > 0) {
// 超過最大值就不再擴充了,就只好隨你碰撞去吧
if (oldCap >= MAXIMUM_CAPACITY) {
threshold = Integer.MAX_VALUE;
return oldTab;
}
// 沒超過最大值,就擴充爲原來的2倍
else if ((newCap = oldCap << 1) < MAXIMUM_CAPACITY &&
oldCap >= DEFAULT_INITIAL_CAPACITY)
newThr = oldThr << 1; // double threshold
}
else if (oldThr > 0) // initial capacity was placed in threshold
newCap = oldThr;
else { // zero initial threshold signifies using defaults
newCap = DEFAULT_INITIAL_CAPACITY;
newThr = (int)(DEFAULT_LOAD_FACTOR * DEFAULT_INITIAL_CAPACITY);
}
// 計算新的resize上限
if (newThr == 0) {
float ft = (float)newCap * loadFactor;
newThr = (newCap < MAXIMUM_CAPACITY && ft < (float)MAXIMUM_CAPACITY ?
(int)ft : Integer.MAX_VALUE);
}
threshold = newThr;
@SuppressWarnings({"rawtypes","unchecked"})
Node<K,V>[] newTab = (Node<K,V>[])new Node[newCap];
table = newTab;
if (oldTab != null) {
// 把每個bucket都移動到新的buckets中
for (int j = 0; j < oldCap; ++j) {
Node<K,V> e;
if ((e = oldTab[j]) != null) {
oldTab[j] = null;
if (e.next == null)
newTab[e.hash & (newCap - 1)] = e;
else if (e instanceof TreeNode)
((TreeNode<K,V>)e).split(this, newTab, j, oldCap);
else { // 鏈表優化重hash的代碼塊
Node<K,V> loHead = null, loTail = null;
Node<K,V> hiHead = null, hiTail = null;
Node<K,V> next;
do {
next = e.next;
// 原索引
if ((e.hash & oldCap) == 0) {
if (loTail == null)
loHead = e;
else
loTail.next = e;
loTail = e;
}
// 原索引+oldCap
else {
if (hiTail == null)
hiHead = e;
else
hiTail.next = e;
hiTail = e;
}
} while ((e = next) != null);
// 原索引放到bucket裏
if (loTail != null) {
loTail.next = null;
newTab[j] = loHead;
}
// 原索引+oldCap放到bucket裏
if (hiTail != null) {
hiTail.next = null;
newTab[j + oldCap] = hiHead;
}
}
}
}
}
return newTab;
}
使用了2次冪的擴展(指長度擴爲原來2倍),所以,元素的位置要麼是在原位置,要麼是在原位置再移動2次冪的位置。看下圖可以明白這句話的意思,n爲table的長度,圖(a)表示擴容前的key1和key2兩種key確定索引位置的示例,圖(b)表示擴容後key1和key2兩種key確定索引位置的示例,其中hash1是key1對應的哈希與高位運算結果。
元素在重新計算hash之後,因爲n變爲2倍,那麼n-1的mask範圍在高位多1bit(紅色),因此新的index就會發生這樣的變化:
因此,我們在擴充HashMap的時候,不需要像JDK1.7的實現那樣重新計算hash,只需要看看原來的hash值新增的那個bit是1還是0就好了,是0的話索引沒變,是1的話索引變成“原索引+oldCap”,可以看看下圖爲16擴充爲32的resize示意圖:
get(Object key)
get的過程是先計算hash然後通過hash與table.length取模計算index值,然後遍歷table[index]上的鏈表,直到找到key,然後返回。
public V get(Object key) {
Node<K,V> e;
return (e = getNode(hash(key), key)) == null ? null : e.value;
}
final Node<K,V> getNode(int hash, Object key) {
Node<K,V>[] tab; Node<K,V> first, e; int n; K k;
if ((tab = table) != null && (n = tab.length) > 0 &&
(first = tab[(n - 1) & hash]) != null) {
// 根據hash值找到桶,查看第一個Node的key若相等,則返回
if (first.hash == hash && // always check first node
((k = first.key) == key || (key != null && key.equals(k))))
return first;
if ((e = first.next) != null) {
// 若是紅黑樹結構,調用紅黑樹的getTreeNode方法返回
if (first instanceof TreeNode)
return ((TreeNode<K,V>)first).getTreeNode(hash, key);
do {
// 遍歷鏈表,返回key-value
if (e.hash == hash &&
((k = e.key) == key || (key != null && key.equals(k))))
return e;
} while ((e = e.next) != null);
}
}
return null;
}
remove(Object key)
計算hash,計算index,然後遍歷查找,將找到的元素從table[index]鏈表移除。
public V remove(Object key) {
Node<K,V> e;
return (e = removeNode(hash(key), key, null, false, true)) == null ?
null : e.value;
}
final Node<K,V> removeNode(int hash, Object key, Object value,
boolean matchValue, boolean movable) {
Node<K,V>[] tab; Node<K,V> p; int n, index;
if ((tab = table) != null && (n = tab.length) > 0 &&
(p = tab[index = (n - 1) & hash]) != null) {
Node<K,V> node = null, e; K k; V v;
if (p.hash == hash &&
((k = p.key) == key || (key != null && key.equals(k))))
node = p;
else if ((e = p.next) != null) {
if (p instanceof TreeNode)
node = ((TreeNode<K,V>)p).getTreeNode(hash, key);
else {
do {
if (e.hash == hash &&
((k = e.key) == key ||
(key != null && key.equals(k)))) {
node = e;
break;
}
p = e;
} while ((e = e.next) != null);
}
}
if (node != null && (!matchValue || (v = node.value) == value ||
(value != null && value.equals(v)))) {
if (node instanceof TreeNode)
((TreeNode<K,V>)node).removeTreeNode(this, tab, movable);
else if (node == p)
tab[index] = node.next;
else
// 鏈表刪除節點操作
p.next = node.next;
++modCount;
--size;
afterNodeRemoval(node);
return node;
}
}
return null;
}
clear()
clear方法非常簡單,就是遍歷table然後把每個位置置爲null,同時修改元素個數爲0。
需要注意的是clear方法只會清除裏面的元素,並不會重置capactiy。
public void clear() {
Node<K,V>[] tab;
modCount++;
if ((tab = table) != null && size > 0) {
size = 0;
for (int i = 0; i < tab.length; ++i)
tab[i] = null;
}
}
containsValue(Object value)
containsValue方法就比較粗暴了,就是直接遍歷所有元素直到找到value,由此可見HashMap的containsValue方法本質上和普通數組和list的contains方法沒什麼區別,別指望它會像containsKey那麼高效:
public boolean containsValue(Object value) {
Node<K,V>[] tab; V v;
if ((tab = table) != null && size > 0) {
for (int i = 0; i < tab.length; ++i) {
for (Node<K,V> e = tab[i]; e != null; e = e.next) {
if ((v = e.value) == value ||
(value != null && value.equals(v)))
return true;
}
}
}
return false;
}
entrySet()、values()、keySet()
它們3個的原理類似,這裏以entrySet()爲例來說明。
entrySet()的作用是返回“HashMap中所有Entry的集合”,它是一個集合。實現代碼如下:
// 返回“HashMap的Entry集合”,實際是返回一個EntrySet對象
public Set<Map.Entry<K,V>> entrySet() {
Set<Map.Entry<K,V>> es;
return (es = entrySet) == null ? (entrySet = new EntrySet()) : es;
}
// EntrySet對應的集合
// EntrySet繼承於AbstractSet,說明該集合中沒有重複的EntrySet。
final class EntrySet extends AbstractSet<Map.Entry<K,V>> {
public final int size() { return size; }
public final void clear() { HashMap.this.clear(); }
public final Iterator<Map.Entry<K,V>> iterator() {
return new EntryIterator();
}
public final boolean contains(Object o) {
if (!(o instanceof Map.Entry))
return false;
Map.Entry<?,?> e = (Map.Entry<?,?>) o;
Object key = e.getKey();
Node<K,V> candidate = getNode(hash(key), key);
return candidate != null && candidate.equals(e);
}
public final boolean remove(Object o) {
if (o instanceof Map.Entry) {
Map.Entry<?,?> e = (Map.Entry<?,?>) o;
Object key = e.getKey();
Object value = e.getValue();
return removeNode(hash(key), key, value, true, true) != null;
}
return false;
}
public final Spliterator<Map.Entry<K,V>> spliterator() {
return new EntrySpliterator<>(HashMap.this, 0, -1, 0, 0);
}
public final void forEach(Consumer<? super Map.Entry<K,V>> action) {
Node<K,V>[] tab;
if (action == null)
throw new NullPointerException();
if (size > 0 && (tab = table) != null) {
int mc = modCount;
for (int i = 0; i < tab.length; ++i) {
for (Node<K,V> e = tab[i]; e != null; e = e.next)
action.accept(e);
}
if (modCount != mc)
throw new ConcurrentModificationException();
}
}
}
案例 - 死循環場景
在多線程使用場景中,應該儘量避免使用線程不安全的HashMap
,而使用線程安全的ConcurrentHashMap
。那麼爲什麼說HashMap
是線程不安全的,下面舉例子說明在併發的多線程使用場景中使用HashMap
可能造成死循環。代碼例子如下(便於理解,仍然使用JDK1.7的環境):
public class HashMapInfiniteLoop {
private static HashMap<Integer,String> map = new HashMap<Integer,String>(2,0.75f);
public static void main(String[] args) {
map.put(5, "C");
new Thread("Thread1") {
public void run() {
map.put(7, "B");
System.out.println(map);
};
}.start();
new Thread("Thread2") {
public void run() {
map.put(3, "A);
System.out.println(map);
};
}.start();
}
}
調試過程: 使用多線程調試模式,設置斷點讓線程1和線程2同時debug到transfer方法的首行(假設 兩個線程已經成功添加數據)。放開thread1的斷點至transfer方法的“Entry next = e.next;” 這一行;然後放開線程2的的斷點,讓線程2進行resize。
注意,Thread1的 e 指向了key(3),而next指向了key(7),其在線程二rehash後,指向了線程二重組後的鏈表。
線程一被調度回來執行,先是執行 newTalbe[i] = e, 然後是e = next,導致了e指向了key(7),而下一次循環的next = e.next導致了next指向了key(3)。
e.next = newTable[i] 導致 key(3).next 指向了 key(7)。注意:此時的key(7).next 已經指向了key(3), 環形鏈表就這樣出現了。
於是,當我們用線程一調用map.get(11)時,悲劇就出現了——Infinite Loop。
總結
HashMap
和Hashtable
的區別
- 兩者最主要的區別在於Hashtable是線程安全,而HashMap則非線程安全。如果需要滿足線程安全,可以用 Collections的synchronizedMap方法使HashMap具有線程安全的能力,或者使用ConcurrentHashMap。
- 雖說HashMap支持null值作爲key,不過建議還是儘量避免這樣使用,因爲一旦不小心使用了,若因此引發一些問題,排查起來很是費事。HashMap以null作爲key時,總是存儲在table數組的第一個節點上。
- HashMap是對Map接口的實現,HashTable實現了Map接口和Dictionary抽象類
- HashMap的初始容量爲16,HashTable初始容量爲11,兩者的填充因子默認都是0.75。HashMap擴容時是當前容量翻倍即:capacity 2,Hashtable擴容時是容量翻倍+1即:capacity 2+1
- HashMap和Hashtable的底層實現都是數組 + 鏈表結構實現
- JDK1.8引入紅黑樹大程度優化了HashMap的性能
- HashMap是線程不安全的,不要在併發的環境中同時操作HashMap,建議使用ConcurrentHashMap
參考:
- Eckel B. Java 編程思想 [M]. 機械工業出版社, 2002.
- Java 8系列之重新認識HashMap
- Java Collections Framework Internals
- Java集合框架源碼解讀(2)——HashMap