HashMap的put、get方法分析与Hash冲突的分析、解决

原創

2018-08-24 14:36

1．HashMap的实现原理

简单地说，HashMap就是将key做hash算法，然后将hash值映射到内存地址，直接取得key所对应的数据。在HashMap中，底层数据结构使用的是数组，所谓的内存地址即数组的下标索引。afHashMap的高性能需要保证以下几点：

hash算法必须是高效的
hash值到内存地址（数组索引）的算法是快速的
根据内存地址（数组索引）可以直接取得对应的值

首先来看第一点，hash算法的高效性。在HashMap中，hash算法有关的代码如下：

1 int hash = hash(key.hashCode());

2 public native int hashCode();

3 static int hash(int h) {

4 h ^= (h >>> 20) ^ (h >>> 12);

5 return h ^ (h >>> 7) ^ (h >>> 4);

6 }

第一行代码是HashMap中用于计算key的hash值。它前后分别调用了Object类的hashCode()方法和HashMap的内部函数hash()。Object类的hashCode()方法默认是native的实现，可以认为不存在性能问题。而hash()函数的实现全部基于位运算，因此，也是高效的。

注意：native方法通常比一般的方法快，因为它直接调用操作系统本地链接库的API。由于hashCode()方法是可以重载的，因此，为了保证HashMap的性能，需要确保相关的hashCode()是高效的。而位运算也比算术、逻辑运算快。

当取得key的hash值后，需要通过hash值得到内存地址：

int i = indexFor(hash, table.length);

static int indexFor(int h, int length) {

return h & (length-1);

}

indexFor()函数通过将hash值和数组长度按位取与直接得到数组索引。

最后由indexFor()函数返回的数组索引直接通过数组下标便可取得对应的值。直接的内存访问速度也相当快。因此，可以认为HashMap是高性能的。

2．Hash冲突

虽然上节中阐述了在理想情况下HashMap的高效性，但我们依然不得不在实际使用中考虑HashMap的一些特殊情况，这些情况有可能给HashMap带来一定的性能问题。其中，最值得关注便是hash冲突。如图3.11所示，需要存放到HashMap中的两个元素1和2，通过hash计算后，发现对应在内存中的同一个地址。此时，HashMap又会如何处理，以保证数据可以完整存放，并正常工作呢？

图3.11 Hash冲突示意图

要处理好这个问题，需要进一步深入HashMap，虽然HashMap的底层实现使用的是数组，但是数组内的元素并不是简单的值，而是一个Entry类的对象。因此，对HashMap结构的贴切描述如图3.12所示。

图3.12 HashMap表项结构

可以看到，HashMap的内部维护着一个Entry数组，每一个Entry表项包括key、value、next和hash几项。这里特别注意其中的next部分，他指向了另外一个Entry(所以实际上HashMap的数据结构是一个列表数组，数组中每个元素是一个Entry列表，Entry列表中每个元素是一个Entry对象)。进一步阅读HashMap的put()方法源码，可以看到当put()操作有冲突时，新的Entry依然会被安放在对应的索引下标内，并替换原有的值。同时，为了保证旧值不丢失，会将新的Entry的next指向旧值。这便实现了在一个数组索引空间内，存放多个值项。因此，如图3.12所示，HashMap实际上是一个链表为元素的数组。

public V put(K key, V value) {

if (key == null)

return putForNullKey(value);

int hash = hash(key.hashCode());

int i = indexFor(hash, table.length);

for (Entry<K,V> e = table[i]; e != null; e = e.next) {

Object k;

//如果当前的key已经存在于HashMap中

if (e.hash == hash && ((k = e.key) == key || key.equals(k))) {

V oldValue = e.value; //取得旧值

e.value = value;

e.recordAccess(this);

return oldValue; //返回旧值

}

}

modCount++;

addEntry(hash, key, value, i); //添加当前的表项到i位置

return null;

}

addEntry()方法的实现如下：

void addEntry(int hash, K key, V value, int bucketIndex) {

Entry<K,V> e = table[bucketIndex];

//将新增元素放到i的位置，并让它的next指向旧的元素

table[bucketIndex] = new Entry<K,V>(hash, key, value, e);

if (size++ >= threshold)

resize(2 * table.length);

}

基于HashMap的这种实现机制，只要hashCode()和hash()方法实现的足够好，能够尽可能的减少冲突的产生，那么对HashMap的操作几乎等价于对数组的随机访问操作，具有很好的性能。但是，如果hashCode()或者hash()方法实现较差，在大量冲突产生的情况下，HashMap事实上就退化为几个链表，对HashMap的操作等价于遍历链表，此时性能很差。

考虑一个在极端情况下的例子，假设类BadHash有着一个很槽糕的hashCode()实现：

public class BadHash{

double d;

public BadHash(double d){

this.d=d;

}

@Override

public int hashCode(){

return 1; //一个槽糕的hashCode()实现

}

}

类GoodHash拥有默认hashCode()方法：

public class GoodHash{

double d;

public GoodHash(double d){

this.d=d;

}

}

分别使用BadHash类和GoodHash类作为HashMap的key，产生1万一个对象并将其存入HashMap中，执行get()方法1万次。结果BadHash类相对耗时1297ms，而GoodHash类仅耗时15ms。这正是随机数据访问和链表遍历的性能差距。

再补充一下HashMap的get(key)方法的实现原理解析：

public V get(Object key) {

if (key == null) // 键为null的Entry是tables[0]

return getForNullKey();

// 首先根据key获取hash值，跟put方法一致

int hash = hash(key.hashCode());

// 同样通过位与运算获取Entry[] tables下标

for (Entry<K,V> e = table[indexFor(hash, table.length)]; e != null; e = e.next) {

Object k;

if (e.hash == hash && ((k = e.key) == key || key.equals(k)))

// 当匹配到hash值相同，key相同的Entry元素时，返回Entry对象的vlaue

return e.value;

}

return null;

}

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

这可能是最简单的AVL二叉平衡查找树讲解

二叉平衡查找樹AVL詳解看懂這篇文章所需的知識點樹、二叉搜索樹、樹高、樹深、層等概念 AVL樹概念：任意節點的左右子樹的高度差不能大於1的樹即爲AVL樹，是爲了解決在頻繁插入刪除等動態更新下出現的時間複雜度退化的問題，所以平

2020-07-08 11:54:55

数据结构：AVL树旋转原理和简易实现

AVL樹旋轉原理和簡易實現二叉搜索樹雖然可以提高搜索效率，但是如果插入的數據有序時很有可能變成單支，如果變成單支樹的時候，那麼查找時效率也不高了。因此引入AVL樹。 AVL樹是當向這棵樹插入節點的時候，要保證每個節點的左右子樹的

2020-07-08 12:19:01

数据结构：红黑树的旋转原理和模拟实现

紅黑樹的旋轉原理和模擬實現我們瞭解到AVL樹雖然效率很高，但是它是通過多次的旋轉纔到達一個絕對的平衡，旋轉的消耗其實也很大。因此開始引入近似平衡的一棵樹----紅黑樹（RBTree）。紅黑樹每一個節點不是紅色的就是黑色的，它保證

2020-07-08 12:19:01

数据结构：大数据处理问题

1.給定100億個整數，設計算法找到只出現一次的整數？ ①方法一 100億個整數就是400億個字節，42億九千萬是4G，那麼1G就是10億字節，所以要存下100億個整數需要40G的內存空間。因此我們採用位圖100億個整數大概就是1

2020-07-08 12:19:01

数据结构：布隆过滤器

布隆過濾器假如現在有40億個ip地址（string類型），然後給你一個ip地址，讓你查找這個ip地址在不在這40億個ip地址裏？我們應該怎麼做呢？如果用哈希表來處理的話，這裏有40億的數據，數據量太大，因此太佔用空間如果用

2020-07-08 12:19:01

树上剖分

————————————————18.4.18更新有時我們會遇到這樣的問題：在一棵樹上，每次詢問兩點間路徑上的和或者是最值。但我們用搜索時，時間就會到O（n），這樣根本就完不成算法。但樹上剖分就可以縮短修改的時間。樹上剖分的算法簡介我們定

蒟蒻午时已到

2020-07-08 11:59:23

2.7 封装Request

request作爲前後臺交換的橋樑，有重要作用。 request常用的方法有讀參數：public String getParameter(String paramName);讀取屬性public Object getAttribut

2020-07-08 11:48:30

树的总结（二）---非空二叉树的高度和宽度

1.非空二叉樹的高度 1.1非遞歸算法實現求解非空二叉樹的高度算法思想：採用層次遍歷的算法，設置變量level記錄當前結點所在的層數，設置變量last指向當前層的最右的結點，每次層次遍歷出隊的時候與last指針比較（fron

2020-07-08 11:41:54

树的总结（一）

考研加油！！！！！！！ 1.1樹的重要概念 1.樹是一種重要的非線性結構；在有n個結點的樹中有n-1條邊； 2.在結點個數爲n(n>1)的各棵樹中，深度最小的樹的深度是多少？它有多少葉子結點？多少分支結點？深度最大的樹的深度是多少？它有多

2020-07-08 11:41:54

【剑指offer】题61：二叉树序列化、反序列化

使用stringstream http://blog.csdn.net/xw20084898/article/details/21939811 stringstream 是 C++ 提供的另一個字串型的串流(stream)

2020-07-08 11:22:52

基本数据结构——线性结构（栈）

1.什麼是線性結構線性結構是一種有序數據項的集合，其中每個數據項都有唯一的前驅和後繼（除了第一個沒有前驅，最後一個沒有後繼）。新的數據項加入到數據集中時，只會加入到原有某個數據項之前或之後。具有這種性質的數據集，就稱爲線性結構。

weixin_38324954

2020-07-08 11:06:52

Trie 前缀树/字典树

一、Trie的介紹： 1、主要應用場景：搜索引擎的自動補全功能：Trie樹+詞頻(概率)權重因子 IP路由：最長前綴匹配，Trie路由算法

放羊的大飞

2020-07-08 10:58:58

数据结构——数组（3）在有序数组中找出重复的次数最多的数

先總結有序數組，無序的後面再總結。。 1.以空間換時間法。算法思想：目標數組array[length]，是一個有序數組，比如int array[]={1,1,2,2,4,4,4,4,4,5,5,6,10};總共有13個元素，

2020-07-08 10:38:18

数据结构——数组（1）数组求和&打印二维数组&判断数组是否递增

數組求和方法一：直接一次for循環 int GetSum1(int *a,int n) { int sum=0; for (int i=0; i<n;i++) { sum+=a[i];

2020-07-08 10:38:18

蓝桥杯递归练习覆盖墙壁

題目描述你有一個長爲N寬爲2的牆壁，給你兩種磚頭：一個長2寬1，另一個是L型覆蓋3個單元的磚頭。如下圖： 0 0 0 00 磚頭可以旋轉，兩種磚頭可以無限制提供。你的任務是計算用這兩種來覆蓋N*2的牆壁的覆蓋方法。例如一個2*3

2020-07-08 10:21:35

24小時熱門文章

最新文章

最新評論文章