徹底弄懂HashMap

我們在面試中, 也會經常被問到HashMap相關的底層實現,  阿巴阿巴....

HashMap的底層實現

首先它是基於數組(存儲對象的引用)加鏈表(存儲對象)實現的

當我們通過put()和get()方法儲存和獲取對象。當我們將鍵值對傳遞給put()方法時,它調用鍵對象的hashCode()方法來計算hashcode,讓後找到bucket位置來儲存值對象。當獲取對象時,通過鍵對象的equals()方法找到正確的鍵值對,然後返回值對象。HashMap使用鏈表來解決碰撞問題,當發生碰撞了,對象將會儲存在鏈表的下一個節點中。 HashMap在每個鏈表節點中儲存鍵值對對象

簡單的模擬實現put的底層實現 jdk1.8

put(k, v){
   int code = k.hashcode(); //計算key的hashcode
   int index = code % table.length; // 存放的數組下表
   table[index] = new Entry(k, v, null); // 對應的對象
   }
      
  // 第二次插入 HashMap使用鏈表來解決碰撞問題,當發生碰撞了,對象將會儲存在鏈表的下一個節點中。
  table[index] = new Entry(k, v, table[index]);

  // todo 底層實現 若key相同時 返回並覆蓋 否則插入鏈表的下一個節點
  if (p.hash == hash && ((k = p.key) == key || (key != null && key.equals(k))))
      e = p;
  if (e != null) { // existing mapping for key
     V oldValue = e.value;
     if (!onlyIfAbsent || oldValue == null)
            e.value = value;
      afterNodeAccess(e); //這個方法在hashmap沒有作用, 是在linkedHashMap實現的
      return oldValue;
  }

 HashMap和Hashtable的區別

HashMap和Hashtable都實現了Map接口,但決定用哪一個之前先要弄清楚它們之間的分別。主要的區別有:線程安全性,同步(synchronization),以及速度。

  1. HashMap幾乎可以等價於Hashtable,除了HashMap是非synchronized的,並可以接受null(HashMap可以接受爲null的鍵值(key)和值(value),而Hashtable則不行)。
  2. HashMap是非synchronized,而Hashtable是synchronized,這意味着Hashtable是線程安全的,多個線程可以共享一個Hashtable;而如果沒有正確的同步的話,多個線程是不能共享HashMap的。Java 5提供了ConcurrentHashMap,它是HashTable的替代,比HashTable的擴展性更好。
  3. 另一個區別是HashMap的迭代器(Iterator)是fail-fast迭代器,而Hashtable的enumerator迭代器不是fail-fast的。所以當有其它線程改變了HashMap的結構(增加或者移除元素),將會拋出ConcurrentModificationException,但迭代器本身的remove()方法移除元素則不會拋出ConcurrentModificationException異常。但這並不是一個一定發生的行爲,要看JVM。這條同樣也是Enumeration和Iterator的區別。
  4. 由於Hashtable是線程安全的也是synchronized,所以在單線程環境下它比HashMap要慢。如果你不需要同步,只需要單一線程,那麼使用HashMap性能要好過Hashtable。
  5. HashMap不能保證隨着時間的推移Map中的元素次序是不變的。

常見面試題

  •  HashMap的工作原理

HashMap是基於hashing的原理,我們使用put(key, value)存儲對象到HashMap中,使用get(key)從HashMap中獲取對象。當我們給put()方法傳遞鍵和值時,我們先對鍵調用hashCode()方法,返回的hashCode用於找到bucket位置來儲存Entry對象。

  • hashcode相同會發生什麼 

因爲hashcode相同,所以它們的bucket位置相同,‘碰撞’會發生。因爲HashMap使用鏈表存儲對象,這個Entry(包含有鍵值對的Map.Entry對象)會存儲在鏈表中 

get時, key的hashcode相同時, 找到bucket位置之後,會調用keys.equals()方法去找到鏈表中正確的節點,最終找到要找的值對象

  • 減少碰撞的發生 

 當時是選擇一些不可變的最爲我們的key, 不可變性使得能夠緩存不同鍵的hashcode,這將提高整個獲取對象的速度,使用String,Interger這樣的wrapper類作爲鍵是非常好的選擇

  • 如果HashMap的大小超過了負載因子(load factor)定義的容量,怎麼辦 

HashMap的默認構造會指定默認的負載因子大小爲0.75,也就是說,當一個map填滿了75%的bucket時候,和其它集合類(如ArrayList等)一樣,將會創建原來HashMap大小的兩倍的bucket數組,來重新調整map的大小,並將原來的對象放入新的bucket數組中。這個過程叫作rehashing,因爲它調用hash方法找到新的bucket位置 

  •  CocurrentHashMap來代替Hashtable嗎

Hashtable是synchronized的,但是ConcurrentHashMap同步性能更好,因爲它僅僅根據同步級別對map的一部分進行上鎖。ConcurrentHashMap當然可以代替HashTable,但是HashTable提供更強的線程安全性 

  • 指定hashmap的初始大小 

源碼分析

無論我們如何設置初始容量,HashMap的tableSizeFor 都會將我們改成2的冪次方,也就是說,HashMap 的容量百分之百是 2的冪次方。但是,請注意:如果我們預計插入7條數據,那麼我們寫入7,7-1 = 6, 6經過tableSizeFor() 方法的一些列與運算, 會返回8, HashMap 會設置爲 8,雖然是2的冪次方,但是,請注意,當我們放入第7條數據的時候,就會引起擴容,造成性能損失,所以,知曉了原理,我們以後在設置容量的時候還是自己算一下,比如放7條數據,我們還是都是設置成16(默認),這樣就不會擴容了。

計算公式:

 “注意負載因子(即loader factor)默認爲 0.75”

假如我們要插入7條數據,tableSizeFor(int cap)會將我們輸入的7運算成8。

我們使用 8 * 0.75 = 6 也就是說最大閾值爲6條

當我們插入第七條的時候它就擴容了,所以我們最好在指定容量的時候多預算一些

持續更新中... 歡迎大家留言補充...

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章