面試官:如何實現一個工業級的哈希表?

Java技術棧

www.javastack.cn

打開網站看更多優質文章

業務代碼中的技術是每個程序員的基礎,但只是掌握了這些技巧,並不能成爲技術大牛,還要不斷打怪升級。Do more,Do better,Do exercise ,送給身邊所有程序員 !!!

一個工業級哈希表的要求:

  • 支持快速的查詢、插入、刪除操作

  • 內存佔用合理,不能浪費過多的內存空間

  • 性能穩定,極端情況下,散列表的性能也不會退化到無法接受的情況

Java 8 中哈希表底層採用數組存儲,利用 hash 算法計算出下標值來存儲元素,再配合上動態擴容,才能成爲大拿寫業務代碼的利器。在哈希表中,最最重要的是哈希函數,其次是如何解決哈希衝突。我們分別來看:

哈希算法

在 Java 8 的源碼中,hash函數的實現極其簡單:

static final int hash(Object key) {
    int h;
    return (key == null) ? 0 : (h = key.hashCode()) ^ (h >>> 16);
}

往數組中存儲時,利用哈希值與數組長度做按位與運算,得到數組下標:

if ((p = tab[i = (n - 1) & hash]) == null)
    tab[i] = newNode(hash, key, value, null);

參數key的 hashcode 是個整型值,內存中佔了32個字節,右移16位的結果是前16位都變成了0。再與hashcode值做異或操作,新的hash值的前16位也都變成了0。新的hash值,在與數組長度做按位與運算,得到數組下標。

舉個例子,計算 "helloworld" 作爲 key 存儲時,數據下標的計算過程:

...    
    int h = "hello".hashCode();
    System.out.println("原始的hashcode值     :" + getReplace(h));
    int t = h >>> 16;
    System.out.println("左移位16之後的值      :" + getReplace(t));
    int r = h ^ t;
    System.out.println("異或結果             :" + getReplace(r));
    int n = 15;
    System.out.println("數長度-1的哈希值      :" + getReplace(n));
    int i = r & n;
    System.out.println("最終結果             :" + getReplace(i));

    System.out.println("最終結果10進制 = " + i);
    System.out.println("00000101111010010001100011010010");
}

private static String getReplace(int r) {
    return String.format("%32s", Integer.toBinaryString(r)).replace(' ', '0');
}

把計算過程的二進制運算,繪製在下圖中:

最終結果 1011 轉換爲 10 進製爲11,也就是以 “hello” 爲 key 的元素,保存在數據下標 11 的位置。

數組大小

在 hash(Object key) 函數中把 hash 值右移16位,剛是 32位字節的一半。再與自身異或,相當於用原始 hash 值的前半部分和後半部分混合,增加了 hash 的隨機性。

與數組長度減一做按位與運算,相當於只保留了哈希值的低位值(後半部分)用來做數組下標。因此,要保證數組長度加一的 hash 值,高位爲 0 低位都爲 1。所以 HashMap 數組長度必須是 2 的整次冪,才能保證這一點。

構造函數中的確有指定參數的方法,具體跟蹤代碼在真正執行賦值時,會執行如下函數:

static final int tableSizeFor(int cap) {
    int n = cap - 1;
    n |= n >>> 1;
    n |= n >>> 2;
    n |= n >>> 4;
    n |= n >>> 8;
    n |= n >>> 16;
    return (n < 0) ? 1 : (n >= MAXIMUM_CAPACITY) ? MAXIMUM_CAPACITY : n + 1;
}

先右移去掉低位數,再做按位或操作,相當於把結果固定在這樣的範圍:

因此即使是你傳入了初始數組大小,也會調整最接近的長度範圍,所以一定是2的整次冪

哈希衝突

再好的哈希算法也解決不了哈希衝突的問題,只能儘量的減少發生概率。那麼如何處理真實發生的哈希衝突呢?

Java 8 中除了用單鏈表解決哈希衝突外,還引入了紅黑樹。我們看一下源碼 (java.util.HashMap#putVal):

for (int binCount = 0; ; ++binCount) {
    if ((e = p.next) == null) {
        p.next = newNode(hash, key, value, null);
        if (binCount >= TREEIFY_THRESHOLD - 1) // -1 for 1st
            treeifyBin(tab, hash);
        break;
    }
    if (e.hash == hash &&
        ((k = e.key) == key || (key != null && key.equals(k))))
        break;
    p = e;
}

當鏈表上的長度大於 TREEIFY_THRESHOLD - 1 時,調用 treeifyBin() 方法。TREEIFY_THRESHOLD 爲 8,意味着,當鏈表上的數據大於等於7個時,鏈表升級爲紅黑樹。具體紅黑樹的實現,請自己賞悅代碼。

當數據大小需要從新計算時,在java.util.HashMap#resize 中調用 java.util.HashMap.TreeNode#split

if (loHead != null) {
    if (lc <= UNTREEIFY_THRESHOLD)
        tab[index] = loHead.untreeify(map);
    else {
        tab[index] = loHead;
        if (hiHead != null) // (else is already treeified)
            loHead.treeify(tab);
    }
}
if (hiHead != null) {
    if (hc <= UNTREEIFY_THRESHOLD)
        tab[index + bit] = hiHead.untreeify(map);
    else {
        tab[index + bit] = hiHead;
        if (loHead != null)
            hiHead.treeify(tab);
    }
}

如果小於等於 UNTREEIFY_THRESHOLD (默認是6)執行 java.util.HashMap.TreeNode#untreeify,紅黑樹退化爲鏈表。至於紅黑樹相關的代碼,你還是自己查閱代碼吧。

寫業務代碼的程序員

每個技術人員都有個成爲技術大牛的夢。工作後都會發現,夢想是成爲大牛,但做的事情看起來跟大牛都不沾邊。也總能聽到有人說,“天天寫業務代碼還加班,如何才能成爲技術大牛”。

業務代碼都寫不好的程序員肯定無法成爲技術大牛,只把業務代碼寫好的程序員也還不能成爲技術大牛。

寫業務代碼,一樣可以有各種技巧,可以使得業務代碼更具可擴展性,可以和產品經理多交流以便更好的理解和實現業務,可以做好日誌記錄提升故障定位效率……

大拿是一個業務寫的快的程序員,可能不是業務寫的好的程序員。大拿也是一個想成爲大牛的程序員,可能大拿只是想想什麼也沒做

業務代碼中的技術是每個程序員的基礎,但只是掌握了這些技巧,並不能成爲技術大牛,還要不斷打怪升級。送給所有奮鬥在業務泥潭中的程序員三個錦囊:

Do more

  • 熟悉更多的業務

  • 瞭解系統的全貌

  • 自學用到的框架

Do better

  • 改進不合理、可改進的地方

  • 沒發現有可以改進的地方,那說明功力不夠,那就繼續去發現

Do exercise

  • 功利學習

  • 刻意練習

  • 教會別人

最近熱文:

1、Java 14 祭出神器,Lombok 被幹掉了?

2、一週面試了 30 人,面到我心態爆炸…

3、求求你們別再寫滿屏的 try catch 了!

4、阿里發佈《Java開發手冊(泰山版)》

5、推薦一款 IDEA 代碼神器,再也不加班了!

6、微信、淘寶類掃碼登錄是怎麼實現的?

7、Spring Boot 2.3 優雅關閉新姿勢,真香!

8、Redis 到底是單線程還是多線程?

9、我天!xx.equals(null) 是什麼騷操作??

10、Struts2 爲什麼被淘汰?自己作死!

掃碼關注Java技術棧公衆號閱讀更多幹貨。

點擊「閱讀原文」帶你飛~

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章