HashMap的put、get方法分析與Hash衝突的分析、解決

原創

2018-08-24 14:36

1．HashMap的實現原理

簡單地說，HashMap就是將key做hash算法，然後將hash值映射到內存地址，直接取得key所對應的數據。在HashMap中，底層數據結構使用的是數組，所謂的內存地址即數組的下標索引。afHashMap的高性能需要保證以下幾點：

hash算法必須是高效的
hash值到內存地址（數組索引）的算法是快速的
根據內存地址（數組索引）可以直接取得對應的值

首先來看第一點，hash算法的高效性。在HashMap中，hash算法有關的代碼如下：

1 int hash = hash(key.hashCode());

2 public native int hashCode();

3 static int hash(int h) {

4 h ^= (h >>> 20) ^ (h >>> 12);

5 return h ^ (h >>> 7) ^ (h >>> 4);

6 }

第一行代碼是HashMap中用於計算key的hash值。它前後分別調用了Object類的hashCode()方法和HashMap的內部函數hash()。Object類的hashCode()方法默認是native的實現，可以認爲不存在性能問題。而hash()函數的實現全部基於位運算，因此，也是高效的。

注意：native方法通常比一般的方法快，因爲它直接調用操作系統本地鏈接庫的API。由於hashCode()方法是可以重載的，因此，爲了保證HashMap的性能，需要確保相關的hashCode()是高效的。而位運算也比算術、邏輯運算快。

當取得key的hash值後，需要通過hash值得到內存地址：

int i = indexFor(hash, table.length);

static int indexFor(int h, int length) {

return h & (length-1);

}

indexFor()函數通過將hash值和數組長度按位取與直接得到數組索引。

最後由indexFor()函數返回的數組索引直接通過數組下標便可取得對應的值。直接的內存訪問速度也相當快。因此，可以認爲HashMap是高性能的。

2．Hash衝突

雖然上節中闡述了在理想情況下HashMap的高效性，但我們依然不得不在實際使用中考慮HashMap的一些特殊情況，這些情況有可能給HashMap帶來一定的性能問題。其中，最值得關注便是hash衝突。如圖3.11所示，需要存放到HashMap中的兩個元素1和2，通過hash計算後，發現對應在內存中的同一個地址。此時，HashMap又會如何處理，以保證數據可以完整存放，並正常工作呢？

圖3.11 Hash衝突示意圖

要處理好這個問題，需要進一步深入HashMap，雖然HashMap的底層實現使用的是數組，但是數組內的元素並不是簡單的值，而是一個Entry類的對象。因此，對HashMap結構的貼切描述如圖3.12所示。

圖3.12 HashMap表項結構

可以看到，HashMap的內部維護着一個Entry數組，每一個Entry表項包括key、value、next和hash幾項。這裏特別注意其中的next部分，他指向了另外一個Entry(所以實際上HashMap的數據結構是一個列表數組，數組中每個元素是一個Entry列表，Entry列表中每個元素是一個Entry對象)。進一步閱讀HashMap的put()方法源碼，可以看到當put()操作有衝突時，新的Entry依然會被安放在對應的索引下標內，並替換原有的值。同時，爲了保證舊值不丟失，會將新的Entry的next指向舊值。這便實現了在一個數組索引空間內，存放多個值項。因此，如圖3.12所示，HashMap實際上是一個鏈表爲元素的數組。

public V put(K key, V value) {

if (key == null)

return putForNullKey(value);

int hash = hash(key.hashCode());

int i = indexFor(hash, table.length);

for (Entry<K,V> e = table[i]; e != null; e = e.next) {

Object k;

//如果當前的key已經存在於HashMap中

if (e.hash == hash && ((k = e.key) == key || key.equals(k))) {

V oldValue = e.value; //取得舊值

e.value = value;

e.recordAccess(this);

return oldValue; //返回舊值

}

}

modCount++;

addEntry(hash, key, value, i); //添加當前的表項到i位置

return null;

}

addEntry()方法的實現如下：

void addEntry(int hash, K key, V value, int bucketIndex) {

Entry<K,V> e = table[bucketIndex];

//將新增元素放到i的位置，並讓它的next指向舊的元素

table[bucketIndex] = new Entry<K,V>(hash, key, value, e);

if (size++ >= threshold)

resize(2 * table.length);

}

基於HashMap的這種實現機制，只要hashCode()和hash()方法實現的足夠好，能夠儘可能的減少衝突的產生，那麼對HashMap的操作幾乎等價於對數組的隨機訪問操作，具有很好的性能。但是，如果hashCode()或者hash()方法實現較差，在大量衝突產生的情況下，HashMap事實上就退化爲幾個鏈表，對HashMap的操作等價於遍歷鏈表，此時性能很差。

考慮一個在極端情況下的例子，假設類BadHash有着一個很槽糕的hashCode()實現：

public class BadHash{

double d;

public BadHash(double d){

this.d=d;

}

@Override

public int hashCode(){

return 1; //一個槽糕的hashCode()實現

}

}

類GoodHash擁有默認hashCode()方法：

public class GoodHash{

double d;

public GoodHash(double d){

this.d=d;

}

}

分別使用BadHash類和GoodHash類作爲HashMap的key，產生1萬一個對象並將其存入HashMap中，執行get()方法1萬次。結果BadHash類相對耗時1297ms，而GoodHash類僅耗時15ms。這正是隨機數據訪問和鏈表遍歷的性能差距。

再補充一下HashMap的get(key)方法的實現原理解析：

public V get(Object key) {

if (key == null) // 鍵爲null的Entry是tables[0]

return getForNullKey();

// 首先根據key獲取hash值，跟put方法一致

int hash = hash(key.hashCode());

// 同樣通過位與運算獲取Entry[] tables下標

for (Entry<K,V> e = table[indexFor(hash, table.length)]; e != null; e = e.next) {

Object k;

if (e.hash == hash && ((k = e.key) == key || key.equals(k)))

// 當匹配到hash值相同，key相同的Entry元素時，返回Entry對象的vlaue

return e.value;

}

return null;

}

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

這可能是最簡單的AVL二叉平衡查找樹講解

二叉平衡查找樹AVL詳解看懂這篇文章所需的知識點樹、二叉搜索樹、樹高、樹深、層等概念 AVL樹概念：任意節點的左右子樹的高度差不能大於1的樹即爲AVL樹，是爲了解決在頻繁插入刪除等動態更新下出現的時間複雜度退化的問題，所以平

2020-07-08 11:54:55

數據結構：AVL樹旋轉原理和簡易實現

AVL樹旋轉原理和簡易實現二叉搜索樹雖然可以提高搜索效率，但是如果插入的數據有序時很有可能變成單支，如果變成單支樹的時候，那麼查找時效率也不高了。因此引入AVL樹。 AVL樹是當向這棵樹插入節點的時候，要保證每個節點的左右子樹的

2020-07-08 12:19:01

數據結構：紅黑樹的旋轉原理和模擬實現

紅黑樹的旋轉原理和模擬實現我們瞭解到AVL樹雖然效率很高，但是它是通過多次的旋轉纔到達一個絕對的平衡，旋轉的消耗其實也很大。因此開始引入近似平衡的一棵樹----紅黑樹（RBTree）。紅黑樹每一個節點不是紅色的就是黑色的，它保證

2020-07-08 12:19:01

數據結構：大數據處理問題

1.給定100億個整數，設計算法找到只出現一次的整數？ ①方法一 100億個整數就是400億個字節，42億九千萬是4G，那麼1G就是10億字節，所以要存下100億個整數需要40G的內存空間。因此我們採用位圖100億個整數大概就是1

2020-07-08 12:19:01

數據結構：布隆過濾器

布隆過濾器假如現在有40億個ip地址（string類型），然後給你一個ip地址，讓你查找這個ip地址在不在這40億個ip地址裏？我們應該怎麼做呢？如果用哈希表來處理的話，這裏有40億的數據，數據量太大，因此太佔用空間如果用

2020-07-08 12:19:01

樹上剖分

————————————————18.4.18更新有時我們會遇到這樣的問題：在一棵樹上，每次詢問兩點間路徑上的和或者是最值。但我們用搜索時，時間就會到O（n），這樣根本就完不成算法。但樹上剖分就可以縮短修改的時間。樹上剖分的算法簡介我們定

蒟蒻午时已到

2020-07-08 11:59:23

2.7 封裝Request

request作爲前後臺交換的橋樑，有重要作用。 request常用的方法有讀參數：public String getParameter(String paramName);讀取屬性public Object getAttribut

2020-07-08 11:48:30

樹的總結（二）---非空二叉樹的高度和寬度

1.非空二叉樹的高度 1.1非遞歸算法實現求解非空二叉樹的高度算法思想：採用層次遍歷的算法，設置變量level記錄當前結點所在的層數，設置變量last指向當前層的最右的結點，每次層次遍歷出隊的時候與last指針比較（fron

2020-07-08 11:41:54

樹的總結（一）

考研加油！！！！！！！ 1.1樹的重要概念 1.樹是一種重要的非線性結構；在有n個結點的樹中有n-1條邊； 2.在結點個數爲n(n>1)的各棵樹中，深度最小的樹的深度是多少？它有多少葉子結點？多少分支結點？深度最大的樹的深度是多少？它有多

2020-07-08 11:41:54

【劍指offer】題61：二叉樹序列化、反序列化

使用stringstream http://blog.csdn.net/xw20084898/article/details/21939811 stringstream 是 C++ 提供的另一個字串型的串流(stream)

2020-07-08 11:22:52

基本數據結構——線性結構（棧）

1.什麼是線性結構線性結構是一種有序數據項的集合，其中每個數據項都有唯一的前驅和後繼（除了第一個沒有前驅，最後一個沒有後繼）。新的數據項加入到數據集中時，只會加入到原有某個數據項之前或之後。具有這種性質的數據集，就稱爲線性結構。

weixin_38324954

2020-07-08 11:06:52

Trie 前綴樹/字典樹

一、Trie的介紹： 1、主要應用場景：搜索引擎的自動補全功能：Trie樹+詞頻(概率)權重因子 IP路由：最長前綴匹配，Trie路由算法

放羊的大飞

2020-07-08 10:58:58

數據結構——數組（3）在有序數組中找出重複的次數最多的數

先總結有序數組，無序的後面再總結。。 1.以空間換時間法。算法思想：目標數組array[length]，是一個有序數組，比如int array[]={1,1,2,2,4,4,4,4,4,5,5,6,10};總共有13個元素，

2020-07-08 10:38:18

數據結構——數組（1）數組求和&打印二維數組&判斷數組是否遞增

數組求和方法一：直接一次for循環 int GetSum1(int *a,int n) { int sum=0; for (int i=0; i<n;i++) { sum+=a[i];

2020-07-08 10:38:18

藍橋杯遞歸練習覆蓋牆壁

題目描述你有一個長爲N寬爲2的牆壁，給你兩種磚頭：一個長2寬1，另一個是L型覆蓋3個單元的磚頭。如下圖： 0 0 0 00 磚頭可以旋轉，兩種磚頭可以無限制提供。你的任務是計算用這兩種來覆蓋N*2的牆壁的覆蓋方法。例如一個2*3

2020-07-08 10:21:35

24小時熱門文章

最新文章

最新評論文章