關於HashMap的高頻面試題

前言

今天上班看到一篇博文很好,是自己沒有了解過的,今天抽空也寫個博文記錄一下這部分知識點,加強自己的知識積累!

好了言歸正傳:

1、那你跟我講講HashMap的內部數據結構?

目前我用的是JDK1.8版本的,內部使用數組 + 鏈表紅黑樹;

2、數據結構圖是怎樣的?

在這裏插入圖片描述

3、那你清楚HashMap的數據插入原理嗎?

在這裏插入圖片描述

判斷數組是否爲空,爲空進行初始化;
不爲空,計算 k 的 hash 值,通過(n - 1) & hash計算應當存放在數組中的下標 index;
查看 table[index] 是否存在數據,沒有數據就構造一個Node節點存放在 table[index] 中;
存在數據,說明發生了hash衝突(存在二個節點key的hash值一樣), 繼續判斷key是否相等,相等,用新的value替換原數據
(onlyIfAbsent爲false);
如果不相等,判斷當前節點類型是不是樹型節點,如果是樹型節點,創造樹型節點插入紅黑樹中;
如果不是樹型節點,創建普通Node加入鏈表中;判斷鏈表長度是否大於 8, 大於的話鏈表轉換爲紅黑樹;
插入完成之後判斷當前節點數是否大於閾值,如果大於開始擴容爲原數組的二倍。

4、提到HashMap的初始化,那HashMap怎麼設定初始容量大小的嗎?

一般如果new HashMap() 不傳值,默認大小是16,負載因子是0.75, 如果自己傳入初始大小k,初始化大小爲 大於k的 2的整數次方,
例如如果傳10,大小爲16

實現代碼如下:

static final int tableSizeFor(int cap) {
  int n = cap - 1;
  n |= n >>> 1;
  n |= n >>> 2;
  n |= n >>> 4;
  n |= n >>> 8;
  n |= n >>> 16;
  return (n < 0) ? 1 : (n >= MAXIMUM_CAPACITY) ? MAXIMUM_CAPACITY : n + 1;
}

在這裏插入圖片描述

5、你提到hash函數,你知道HashMap的哈希函數怎麼設計的嗎?

 hash函數是先拿到通過key 的hashcode,是32位的int值,然後讓hashcode的高16位和低16位進行異或操作

6、那你知道爲什麼這麼設計嗎?

這個也叫擾動函數,這麼設計有二點原因:
一定要儘可能降低hash碰撞,越分散越好;
算法一定要儘可能高效,因爲這是高頻操作, 因此採用位運算;

7、爲什麼採用hashcode的高16位和低16位異或能降低hash碰撞?hash函數能不能直接用key的hashcode?

因爲key.hashCode()函數調用的是key鍵值類型自帶的哈希函數,返回int型散列值。int值範圍爲**-2147483648~2147483647**,
前後加起來大概40億的映射空間。只要哈希函數映射得比較均勻鬆散,一般應用是很難出現碰撞的。但問題是一個40億長度的數組,內存是放不下
的。你想,如果HashMap數組的初始大小才16,用之前需要對數組的長度取模運算,得到的餘數才能用來訪問數組下標。

源碼中模運算就是把散列值和數組長度-1做一個"與"操作,位運算比%運算要快。

bucketIndex = indexFor(hash, table.length);

static int indexFor(int h, int length) {
     return h & (length-1);
}

順便說一下,這也正好解釋了爲什麼HashMap的數組長度要取2的整數冪。因爲這樣(數組長度-1)正好相當於一個“低位掩碼”。“與”操作的結果就是散列值的高位全部歸零,只保留低位值,用來做數組下標訪問。以初始長度16爲例,16-1=15。2進製表示是00000000 00000000 00001111。和某散列值做“與”操作如下,結果就是截取了最低的四位值。


但這時候問題就來了,這樣就算我的散列值分佈再鬆散,要是隻取最後幾位的話,碰撞也會很嚴重。更要命的是如果散列本身做得不好,分佈上成等差數列的漏洞,如果正好讓最後幾個低位呈現規律性重複,就無比蛋疼。
在這裏插入圖片描述

8、你剛剛說到1.8對hash函數做了優化,1.8還有別的優化嗎?

1.8還有三點主要的優化:

 1. 數組+鏈表改成了數組+鏈表或紅黑樹;
 2. 鏈表的插入方式從頭插法改成了尾插法,簡單說就是插入時,如果數組位置上已經有元素,1.7將新元素放到數組中,原始節點作爲新節點的
 後繼節點,1.8遍歷鏈表,將元素放置到鏈表的最後;
 3. 擴容的時候1.7需要對原數組中的元素進行重新hash定位在新數組的位置,1.8採用更簡單的判斷邏輯,位置不變或索引+舊容量大小;
 4. 在插入時,1.7先判斷是否需要擴容,再插入,1.8先進行插入,插入完成再判斷是否需要擴容;

9、你分別跟我講講爲什麼要做這幾點優化;

防止發生hash衝突,鏈表長度過長,將時間複雜度由O(n)降爲O(logn);

因爲1.7頭插法擴容時,頭插法會使鏈表發生反轉,多線程環境下會產生環;

A線程在插入節點B,B線程也在插入,遇到容量不夠開始擴容,重新hash,放置元素,採用頭插法,後遍歷到的B節點放入了頭部,這樣形成了環,如下圖所示:
在這裏插入圖片描述

擴容的時候爲什麼1.8 不用重新hash就可以直接定位原節點在新數據的位置呢?
這是由於擴容是擴大爲原數組大小的2倍,用於計算數組位置的掩碼僅僅只是高位多了一個1,怎麼理解呢?
擴容前長度爲16,用於計算(n-1) & hash 的二進制n-1爲0000 1111,擴容爲32後的二進制就高位多了1,爲0001 1111。
因爲是& 運算,1和任何數 & 都是它本身,那就分二種情況,如下圖:原數據hashcode高位第4位爲0和高位爲1的情況;
第四位高位爲0,重新hash數值不變,第四位爲1,重新hash數值比原來大16(舊數組的容量)

在這裏插入圖片描述

10、那HashMap是線程安全的嗎?

不是,在多線程環境下,1.7 會產生死循環、數據丟失、數據覆蓋的問題,1.8 中會有數據覆蓋的問題,以1.8爲例,當A線程判斷index位置爲
空後正好掛起,B線程開始往index位置的寫入節點數據,這時A線程恢復現場,執行賦值操作,就把A線程的數據給覆蓋了;還有++size這個地方
也會造成多線程同時擴容等問題。
final V putVal(int hash, K key, V value, boolean onlyIfAbsent,
               boolean evict) {
  Node<K,V>[] tab; Node<K,V> p; int n, i;
  if ((tab = table) == null || (n = tab.length) == 0)
    n = (tab = resize()).length;
  if ((p = tab[i = (n - 1) & hash]) == null)  //多線程執行到這裏
    tab[i] = newNode(hash, key, value, null);
  else {
    Node<K,V> e; K k;
    if (p.hash == hash &&
        ((k = p.key) == key || (key != null && key.equals(k))))
      e = p;
    else if (p instanceof TreeNode) // 這裏很重要
      e = ((TreeNode<K,V>)p).putTreeVal(this, tab, hash, key, value);
    else {
      for (int binCount = 0; ; ++binCount) {
        if ((e = p.next) == null) {
          p.next = newNode(hash, key, value, null);
          if (binCount >= TREEIFY_THRESHOLD - 1) // -1 for 1st
            treeifyBin(tab, hash);
          break;
        }
        if (e.hash == hash &&
            ((k = e.key) == key || (key != null && key.equals(k))))
          break;
        p = e;
      }
    }
    if (e != null) { // existing mapping for key
      V oldValue = e.value;
      if (!onlyIfAbsent || oldValue == null)
        e.value = value;
      afterNodeAccess(e);
      return oldValue;
    }
  }
  ++modCount;
  if (++size > threshold) // 多個線程走到這,可能重複resize()
    resize();
  afterNodeInsertion(evict);
  return null;
}

11、那你平常怎麼解決這個線程不安全的問題?

 Java中有HashTable、Collections.synchronizedMap、以及ConcurrentHashMap可以實現線程安全的Map。
HashTable是直接在操作方法上加synchronized關鍵字,鎖住整個數組,粒度比較大,Collections.synchronizedMap是使用
Collections集合工具的內部類,通過傳入Map封裝出一個SynchronizedMap對象,內部定義了一個對象鎖,方法內通過對象鎖實現;
ConcurrentHashMap使用分段鎖,降低了鎖粒度,讓併發度大大提高。

12、那你知道ConcurrentHashMap的分段鎖的實現原理嗎?

ConcurrentHashMap成員變量使用volatile 修飾,免除了指令重排序,同時保證內存可見性,另外使用CAS操作和synchronized結合實現
賦值操作,多線程操作只會鎖住當前操作索引的節點。
如下圖,線程A鎖住A節點所在鏈表,線程B鎖住B節點所在鏈表,操作互不干涉。

在這裏插入圖片描述

13、你前面提到鏈表轉紅黑樹是鏈表長度達到閾值,這個閾值是多少?

 閾值是8,紅黑樹轉鏈表閾值爲6

14、HashMap內部節點是有序的嗎?

是無序的,根據hash值隨機插入

15、那有沒有有序的Map?

LinkedHashMap 和 TreeMap

16、跟我講講LinkedHashMap怎麼實現有序的?

LinkedHashMap內部維護了一個單鏈表,有頭尾節點,同時LinkedHashMap節點Entry內部除了繼承HashMap的Node屬性,還有before 和 
after用於標識前置節點和後置節點。可以實現按插入的順序或訪問順序排序。

以上就是自己整理的關於HashMap的知識點!希望對你們也有幫助!

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章