哈希表(散列表)

哈希表(Hash table,也叫散列表),是根據關鍵碼值(Key,value)而直接進行訪問的數據結構。也就是說,它通過把關鍵碼值映射到表中一個位置來訪問記錄,以加快查找的速度。這個映射函數叫做散列函數,存放記錄的數組叫做散列表

記錄的存儲位置=f(Key),位置指向value

這裏的對應關係f稱爲散列函數,又稱爲哈希(Hash函數),採用散列技術將記錄存儲在一塊連續的存儲空間中,這塊連續存儲空間稱爲散列表或哈希表(Hash table)。

哈希表hashtable(key,value) 就是把Key通過一個固定的算法函數既所謂的哈希函數轉換成一個整型數字,然後就將該數字對數組長度進行取餘,取餘結果就當作數組的下標,將value存儲在以該數字爲下標的數組空間裏。(或者:把任意長度的輸入(又叫做預映射, pre-image),通過散列算法,變換成固定長度的輸出,該輸出就是散列值。這種轉換是一種壓縮映射,也就是,散列值的空間通常遠小於輸入的空間,不同的輸入可能會散列成相同的輸出,而不可能從散列值來唯一的確定輸入值。簡單的說就是一種將任意長度的消息壓縮到某一固定長度的消息摘要的函數。
    而當使用哈希表進行查詢的時候,就是再次使用哈希函數將key轉換爲對應的數組下標,並定位到該空間獲取value,如此一來,就可以充分利用到數組的定位性能進行數據定位

 

數組的特點是:尋址容易,插入和刪除困難;

而鏈表的特點是:尋址困難,插入和刪除容易。

那麼我們能不能綜合兩者的特性,做出一種尋址容易,插入刪除也容易的數據結構?答案是肯定的,這就是我們要提起的哈希表,哈希表有多種不同的實現方法,我接下來解釋的是最常用的一種方法——拉鍊法,我們可以理解爲“鏈表的數組”,如圖:


左邊很明顯是個數組,數組的每個成員包括一個指針,指向一個鏈表的頭,當然這個鏈表可能爲空,也可能元素很多。我們根據元素的一些特徵把元素分配到不同的鏈表中去,也是根據這些特徵,找到正確的鏈表,再從鏈表中找出這個元素。

 

 Hash的應用

1、Hash主要用於信息安全領域中加密算法,它把一些不同長度的信息轉化成雜亂的128位的編碼,這些編碼值叫做Hash值. 也可以說,Hash就是找到一種數據內容和數據存放地址之間的映射關係。

2、查找:哈希表,又稱爲散列,是一種更加快捷的查找技術。我們之前的查找,都是這樣一種思路:集合中拿出來一個元素,看看是否與我們要找的相等,如果不等,縮小範圍,繼續查找。而哈希表是完全另外一種思路:當我知道key值以後,我就可以直接計算出這個元素在集合中的位置,根本不需要一次又一次的查找!

舉一個例子,假如我的數組A中,第i個元素裏面裝的key就是i,那麼數字3肯定是在第3個位置,數字10肯定是在第10個位置。哈希表就是利用利用這種基本的思想,建立一個從key到位置的函數,然後進行直接計算查找。

3、Hash表在海量數據處理中有着廣泛應用。

 

 

Hash Table的查詢速度非常的快,幾乎是O(1)的時間複雜度。

hash就是找到一種數據內容和數據存放地址之間的映射關係。

散列法元素特徵轉變爲數組下標的方法

我想大家都在想一個很嚴重的問題:“如果兩個字符串在哈希表中對應的位置相同怎麼辦?”,畢竟一個數組容量是有限的,這種可能性很大。解決該問題的方法很多,我首先想到的就是用“鏈表我遇到的很多算法都可以轉化成鏈表來解決,只要在哈希表的每個入口掛一個鏈表,保存所有對應的字符串就OK了。

散列表的查找步驟 

當存儲記錄時,通過散列函數計算出記錄的散列地址

當查找記錄時,我們通過同樣的是散列函數計算記錄的散列地址,並按此散列地址訪問該記錄

 

關鍵字——散列函數(哈希函數)——散列地址

優點:一對一的查找效率很高;

缺點:一個關鍵字可能對應多個散列地址;需要查找一個範圍時,效果不好。

散列衝突:不同的關鍵字經過散列函數的計算得到了相同的散列地址。

好的散列函數=計算簡單+分佈均勻(計算得到的散列地址分佈均勻)

哈希表是種數據結構,它可以提供快速的插入操作和查找操作。

 

優缺點

優點:不論哈希表中有多少數據,查找、插入、刪除(有時包括刪除)只需要接近常量的時間即0(1)的時間級。實際上,這只需要幾條機器指令。

哈希表運算得非常快,在計算機程序中,如果需要在一秒種內查找上千條記錄通常使用哈希表(例如拼寫檢查器)哈希表的速度明顯比樹快,樹的操作通常需要O(N)的時間級。哈希表不僅速度快,編程實現也相對容易。

如果不需要有序遍歷數據,並且可以提前預測數據量的大小。那麼哈希表在速度和易用性方面是無與倫比的。

缺點:它是基於數組的,數組創建後難於擴展,某些哈希表被基本填滿時,性能下降得非常嚴重,所以程序員必須要清楚表中將要存儲多少數據(或者準備好定期地把數據轉移到更大的哈希表中,這是個費時的過程)。

 

    元素特徵轉變爲數組下標的方法就是散列法。散列法當然不止一種,下面列出三種比較常用的:

1,除法散列法 
最直觀的一種,上圖使用的就是這種散列法,公式: 
      index = value % 16 
學過彙編的都知道,求模數其實是通過一個除法運算得到的,所以叫“除法散列法”。

2,平方散列法 
求index是非常頻繁的操作,而乘法的運算要比除法來得省時(對現在的CPU來說,估計我們感覺不出來),所以我們考慮把除法換成乘法和一個位移操作。公式: 
      index = (value * value) >> 28   右移,除以2^28。記法:左移變大,是乘。右移變小,是除。
如果數值分配比較均勻的話這種方法能得到不錯的結果,但我上面畫的那個圖的各個元素的值算出來的index都是0——非常失敗。也許你還有個問題,value如果很大,value * value不會溢出嗎?答案是會的,但我們這個乘法不關心溢出,因爲我們根本不是爲了獲取相乘結果,而是爲了獲取index。

3,斐波那契(Fibonacci)散列法

平方散列法的缺點是顯而易見的,所以我們能不能找出一個理想的乘數,而不是拿value本身當作乘數呢?答案是肯定的。

1,對於16位整數而言,這個乘數是40503 
2,對於32位整數而言,這個乘數是2654435769 
3,對於64位整數而言,這個乘數是11400714819323198485

    這幾個“理想乘數”是如何得出來的呢?這跟一個法則有關,叫黃金分割法則,而描述黃金分割法則的最經典表達式無疑就是著名的斐波那契數列,即如此形式的序列:01123581321345589144233,377610, 987, 1597, 2584, 4181, 6765, 10946,…。另外,斐波那契數列的值和太陽系八大行星的軌道半徑的比例出奇吻合。

    對我們常見的32位整數而言,公式: 
            index = (value * 2654435769) >> 28

    如果用這種斐波那契散列法的話,那上面的圖就變成這樣了:


注:用斐波那契散列法調整之後會比原來的取摸散列法好很多。 

適用範圍
    快速查找,刪除的基本數據結構,通常需要總數據量可以放入內存。

基本原理及要點
    hash函數選擇,針對字符串,整數,排列,具體相應的hash方法。 
碰撞處理,一種是open hashing,也稱爲拉鍊法;另一種就是closed hashing,也稱開地址法,opened addressing。

 

 

散列衝突的解決方案:

1.建立一個緩衝區,把凡是拼音重複的人放到緩衝區中。當我通過名字查找人時,發現找的不對,就在緩衝區裏找。

2.進行再探測。就是在其他地方查找。探測的方法也可以有很多種。

(1)在找到查找位置的index的index-1,index+1位置查找,index-2,index+2查找,依次類推。這種方法稱爲線性再探測。

(2)在查找位置index周圍隨機的查找。稱爲隨機在探測。

(3)再哈希。就是當衝突時,採用另外一種映射方式來查找。

這個程序中是通過取模來模擬查找到重複元素的過程。對待重複元素的方法就是再哈希:對當前key的位置+7。最後,可以通過全局變量來判斷需要查找多少次。我這裏通過依次查找26個英文字母的小寫計算的出了總的查找次數。顯然,當總的查找次數/查找的總元素數越接近1時,哈希表更接近於一一映射的函數,查找的效率更高。

 

擴展 
    d-left hashing中的d是多個的意思,我們先簡化這個問題,看一看2-left hashing。2-left hashing指的是將一個哈希表分成長度相等的兩半,分別叫做T1和T2,給T1和T2分別配備一個哈希函數,h1和h2。在存儲一個新的key時,同 時用兩個哈希函數進行計算,得出兩個地址h1[key]和h2[key]。這時需要檢查T1中的h1[key]位置和T2中的h2[key]位置,哪一個 位置已經存儲的(有碰撞的)key比較多,然後將新key存儲在負載少的位置。如果兩邊一樣多,比如兩個位置都爲空或者都存儲了一個key,就把新key 存儲在左邊的T1子表中,2-left也由此而來。在查找一個key時,必須進行兩次hash,同時查找兩個位置。

 

問題實例(海量數據處理) 
    我們知道hash 表在海量數據處理中有着廣泛的應用,下面,請看另一道百度面試題:
題目:海量日誌數據,提取出某日訪問百度次數最多的那個IP。
方案:IP的數目還是有限的,最多2^32個,所以可以考慮使用hash將ip直接存入內存,然後進行統計。


轉自:https://blog.csdn.net/duan19920101/article/details/51579136

發佈了10 篇原創文章 · 獲贊 7 · 訪問量 5156
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章