HashMap解決hash衝突的方法

原創

2020-02-20 19:03

在Java編程語言中，最基本的結構就是兩種，一種是數組，一種是模擬指針(引用),所有的數據結構都可以用這兩個基本結構構造，HashMap也一樣。當程序試圖將多個 key-value 放入 HashMap 中時，以如下代碼片段爲例：

HashMap<String,Object> m=new HashMap<String,Object>(); 
m.put("a", "rrr1"); 
m.put("b", "tt9"); 
m.put("c", "tt8"); 
m.put("d", "g7"); 
m.put("e", "d6"); 
m.put("f", "d4"); 
m.put("g", "d4"); 
m.put("h", "d3"); 
m.put("i", "d2"); 
m.put("j", "d1"); 
m.put("k", "1"); 
m.put("o", "2"); 
m.put("p", "3"); 
m.put("q", "4"); 
m.put("r", "5"); 
m.put("s", "6"); 
m.put("t", "7"); 
m.put("u", "8"); 
m.put("v", "9");

HashMap 採用一種所謂的“Hash 算法”來決定每個元素的存儲位置。當程序執行 map.put(String,Obect)方法時，系統將調用String的 hashCode() 方法得到其 hashCode 值——每個 Java 對象都有 hashCode() 方法，都可通過該方法獲得它的 hashCode 值。得到這個對象的 hashCode 值之後，系統會根據該 hashCode 值來決定該元素的存儲位置。源碼如下:

public V put(K key, V value) {  
        if (key == null)  
            return putForNullKey(value);  
        int hash = hash(key.hashCode());  
        int i = indexFor(hash, table.length);  
        for (Entry<K,V> e = table[i]; e != null; e = e.next) {  
            Object k;  
            //判斷當前確定的索引位置是否存在相同hashcode和相同key的元素，如果存在相同的hashcode和相同的key的元素，那麼新值覆蓋原來的舊值，並返回舊值。  
            //如果存在相同的hashcode，那麼他們確定的索引位置就相同，這時判斷他們的key是否相同，如果不相同，這時就是產生了hash衝突。  
            //Hash衝突後，那麼HashMap的單個bucket裏存儲的不是一個 Entry，而是一個 Entry 鏈。  
            //系統只能必須按順序遍歷每個 Entry，直到找到想搜索的 Entry 爲止——如果恰好要搜索的 Entry 位於該 Entry 鏈的最末端（該 Entry 是最早放入該 bucket 中），  
            //那系統必須循環到最後才能找到該元素。  
            if (e.hash == hash && ((k = e.key) == key || key.equals(k))) {  
                V oldValue = e.value;  
                e.value = value;  
                return oldValue;  
            }  
        }  
        modCount++;  
        addEntry(hash, key, value, i);  
        return null;  
    }

上面程序中用到了一個重要的內部接口：Map.Entry，每個 Map.Entry 其實就是一個 key-value 對。從上面程序中可以看出：當系統決定存儲 HashMap 中的 key-value 對時，完全沒有考慮 Entry 中的 value，僅僅只是根據 key 來計算並決定每個 Entry 的存儲位置。這也說明了前面的結論：我們完全可以把 Map 集合中的 value 當成 key 的附屬，當系統決定了 key 的存儲位置之後，value 隨之保存在那裏即可.HashMap程序經過我改造，我故意的構造出了hash衝突現象，因爲HashMap的初始大小16,但是我在hashmap裏面放了超過16個元素，並且我屏蔽了它的resize()方法。不讓它去擴容。這時HashMap的底層數組Entry[] table結構如下:

Hashmap裏面的bucket出現了單鏈表的形式，散列表要解決的一個問題就是散列值的衝突問題，通常是兩種方法：鏈表法和開放地址法。鏈表法就是將相同hash值的對象組織成一個鏈表放在hash值對應的槽位；開放地址法是通過一個探測算法，當某個槽位已經被佔據的情況下繼續查找下一個可以使用的槽位。java.util.HashMap採用的鏈表法的方式，鏈表是單向鏈表。形成單鏈表的核心代碼如下：

void addEntry(int hash, K key, V value, int bucketIndex) {  
    Entry<K,V> e = table[bucketIndex];  
    table[bucketIndex] = new Entry<K,V>(hash, key, value, e);  
    if (size++ >= threshold)  
        resize(2 * table.length);  
}

上面方法的代碼很簡單，但其中包含了一個設計：系統總是將新添加的 Entry 對象放入 table 數組的 bucketIndex 索引處——如果 bucketIndex 索引處已經有了一個 Entry 對象，那新添加的 Entry 對象指向原有的 Entry 對象（產生一個 Entry 鏈），如果 bucketIndex 索引處沒有 Entry 對象，也就是上面程序代碼的 e 變量是 null，也就是新放入的 Entry 對象指向 null，也就是沒有產生 Entry 鏈。

HashMap裏面沒有出現hash衝突時，沒有形成單鏈表時，hashmap查找元素很快,get()方法能夠直接定位到元素，但是出現單鏈表後，單個bucket 裏存儲的不是一個 Entry，而是一個 Entry 鏈，系統只能必須按順序遍歷每個 Entry，直到找到想搜索的 Entry 爲止——如果恰好要搜索的 Entry 位於該 Entry 鏈的最末端（該 Entry 是最早放入該 bucket 中），那系統必須循環到最後才能找到該元素。

當創建 HashMap 時，有一個默認的負載因子（load factor），其默認值爲 0.75，這是時間和空間成本上一種折衷：增大負載因子可以減少 Hash 表（就是那個 Entry 數組）所佔用的內存空間，但會增加查詢數據的時間開銷，而查詢是最頻繁的的操作（HashMap 的 get() 與 put() 方法都要用到查詢）；減小負載因子會提高數據查詢的性能，但會增加 Hash 表所佔用的內存空間。

原文鏈接：http://xiaolu123456.iteye.com/blog/1485349

站內首發文章

_calm

發佈了70 篇原創文章 · 獲贊 218 · 訪問量 72萬+

他的留言板關注

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

HashMap解決hash衝突的方法

Maven的安裝和在Eclipse中的配置

Java中的線程Thread方法之---suspend()和resume()

Eclipse中比較實用的快捷鍵

minimum-depth-of-binary-tree--《LeetCode》

通俗易懂的 “數據庫範式（1NF 2NF 3NF BCNF）詳解”

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結