哈希情史知多少

——日拱一卒,不期而至!

nio

簡介

hash是我們工作中經常聽到的詞,比如哈希表、哈希函數、hashCode、HashTable、HashMap等等,那麼它們之間到底有怎樣的愛恨情仇呢?來一起看一看吧~~

數組

講哈希表之前,我們先來看看數據結構的鼻祖——數組。

數組比較簡單,我就不多說了,大家都會都懂,見下圖。

array

數組的下標一般從0開始,依次往後存儲元素,查找元素也是一樣,只能從頭(或從尾)依次查找元素。

比如,要查找4這個元素,從頭開始查找的話需要查找3次,從尾的話也需要2次。

早期的哈希表

上面講了數組的缺點,查找某個元素只能從頭或者從尾依次查找元素,直到匹配爲止,它的均衡時間複雜是O(n)。

那麼,利用數組有沒有什麼方法可以快速的查找元素呢?

聰明的程序員哥哥們想到一種方法,通過哈希函數計算元素的值,用這個值確定元素在數組中的位置,這樣時間複雜度就能縮短到O(1)了。

比如,有5個元素分別爲3、5、4、1,把它們放入到數組之前先通過哈希函數計算位置,精確放置,而不是像簡單數組那樣依次放置元素。

假如,這裏申請的數組長度爲8,我們可以造這麼一個哈希函數爲hash(x) = x % 8,那麼最後的元素就變成了下圖這樣:

hash

這時候我們再查找4這個元素,先算一下它的hash值爲hash(4) = 4 % 8 = 4,所以直接返回4號位置的元素就可以了。

進化的哈希表

事情看着挺完美,但是,來了一個元素13,要插入的哈希表中,算了一下它的hash值爲hash(13) = 13 % 8 = 5,AUWC,它計算的位置也是5,可是5號已經被人先一步佔領了,怎麼辦呢?

這就是哈希衝突,本文來源於工從號彤哥讀源碼。

爲什麼會出現哈希衝突呢?

因爲我們申請的數組是有限長度的,把無限的數字映射到有限的數組上早晚會出現衝突,即多個元素映射到同一個位置上。

好吧,既然出現了哈希衝突,那麼我們就要解決它,必須幹!

How to?

線性探測法

既然5號位置已經有主了,那我元素13認慫,我往後挪一位,我到6號位置去,這就是線性探測法,當出現衝突的時候依次往後挪直到找到空位置爲止。

hash

然鵝,又來了個新元素12,算得其hash值爲hash(12) = 12 % 8 = 4,我TMDRL,要往後移3次到7號位置纔有空位置,這就導致了插入元素的效率很低,查找也是一樣的道理,先定位的4號位置,發現不是我要找的人,再接着往後移,直到找到7號位置爲止。

二次探測法

使用線性探測法有個很大的弊端,衝突的元素往往會堆積在一起,比如,12號放到7號位置,再來個14號一樣衝突,接着往後再數組結尾了,再從頭開始放到0號位置,你會發現衝突的元素有聚集現象,這就很不利於查找了,同樣不利於插入新的元素。

這時候又有聰明的程序員哥哥提出了新的想法——二次探測法,當出現衝突時,我不是往後一位一位這樣來找空位置,而是使用原來的hash值加上i的二次方來尋找,i依次從1,2,3...這樣,直到找到空位置爲止。

還是以上面的爲例,插入12號元素,過程是這樣的,本文來源於工從號彤哥讀源碼:

hash

這樣就能很快地找到空位置放置新元素,而且不會出現衝突元素堆積的現象。

然鵝,又來了新元素20,你瞅瞅放哪?

AYMY,發現放哪都放不進去了。

研究表明,使用二次探測法的哈希表,當放置的元素超過一半時,就會出現新元素找不到位置的情況。

所以又引出一個新的概念——擴容。

什麼是擴容?

已放置元素達到總容量的x時,就需要擴容了,這個x時又叫作擴容因子

很顯然,擴容因子越大越好,表明哈希表的空間利用率越高。

所以,很遺憾,二次探測法無法滿足我們的目標,擴容因子太小了,只有0.5,一半的空間都是浪費的。

這時候又到了程序員哥哥們發揮他們聰明特性的時候了,經過996頭腦風暴後,又想出了一種新的哈希表實現方式——鏈表法。

鏈表法

不就是解決衝突嘛!出現衝突我就不往數組中去放了,我用一個鏈表把同一個數組下標位置的元素連接起來,這樣不就可以充分利用空間了嘛,啊哈哈哈哈~~

hash

嘿嘿嘿嘿,完美△△。

真的完美嘛,我是一名黑客,我一直往裏面放*%8=4的元素,然後你就會發現幾乎所有的元素都跑到同一個鏈表中去了,MD,最後的結果就是你的哈希表退化成了單鏈表,查詢插入元素的效率都變成了O(n)。

此時,當然有辦法,擴容因子幹啥滴?

比如擴容因子設置爲1,當元素個數達到8個時,擴容成兩倍,一半的元素還在4號位置,一半的元素去到了12號位置,緩解了哈希表的壓力。

然鵝,依舊不是很完美,本文來源於工從號彤哥讀源碼。

聰明的程序員哥哥們這次開啓了一次長大9127的頭腦風暴,終於搞出了一種新的結構——鏈表樹法(當然,這個名字是彤哥起的)。

鏈表樹法

雖然上面的擴容在元素個數比較少的時候能解決一部分問題,整體的查找插入效率也不會太低,因爲元素個數少嘛。

但是,黑客還在攻擊,元素個數還在持續增加,當增加到一定程度的時候,總會導致查找插入效率特別低。

所以,換個思路,既然鏈表的效率低,我把它升級一下,當鏈表長的時候升級成紅黑樹怎麼樣?

嗯,神舟行,我看行,說幹就幹。

hash

嗯,不錯不錯,媽媽再也不怕我遭到黑客攻擊了。

所以,到這就結束了嗎?

你想多了,NM,每次擴容都要移動一半的元素好麼,這樣真的好麼好麼好麼?

程序員哥哥們太難了,這次經過了12127的頭腦風暴,終於想出個新玩意——一致性Hash。

一致性Hash

一致性Hash更多地是運用在分佈式系統中,比如說Redis集羣部署了四個節點,我們把所有的hash值定義爲0~2^32個,每個節點上放置四分之一的元素。

此處只爲舉例,實際Redis集羣的原理是這樣的,具體數值不是這樣的。

此時,假設需要給Redis增加一個節點,比如node5,放在node3和node4中間,這樣只需要把node3到node4中間的元素從node4移動到node5上面就行了,其它的元素保持不變。

這樣,就增加了擴容的速度,而且影響的元素比較少,大部分請求幾乎無感知。

hash

總結

怎麼樣,是不是很精彩?

想系統地學習更多編程姿勢嘛,來我的工從號“彤哥讀源碼”一起浪啊~

nio

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章