Python實現兩個hashmap中鍵值對值是否相同

由來
最近收到一個關於hashmap的題:

請用代碼實現兩個hashmap中鍵值對值是否相同

嘗試做了下,發現python沒有直接使用hashmap的方法,還需要自己構造,這太麻煩了。
最後發現python本身只有dict這種結構,採用的就是哈希表,我想這應該直接可以拿出來用吧。(沒有人指導,只能自己瞎想了)
我是這樣寫的,直接就可以得到鍵值對的值相同

a = {
    'x' : 1,
    'y' : 2,
    'z' : 3
}
 
b = {
    'w' : 10,
    'x' : 11,
    'y' : 2
}
print(a.keys() & b.keys())

深入

Python內部很地方都使用着dict這種結構,在對象屬性__dict__就是一個字典,所以對其效率要求很高。

dict採用了哈希表,最低能在 O(1)時間內完成搜索。同樣的java的HashMap也是採用了哈希表實現,不同是dict在發生哈希衝突的時候採用了開放尋址法,而HashMap採用了鏈接法。

開放尋址法

優點

  1. 記錄更容易進行序列化(serialize)操作
  2. 如果記錄總數可以預知,可以創建完美哈希函數,此時處理數據的效率是非常高的

缺點

  1. 存儲記錄的數目不能超過桶數組的長度,如果超過就需要擴容,而擴容會導致某次操作的時間成本飆升,這在實時或者交互式應用中可能會是一個嚴重的缺陷
  2. 使用探測序列,有可能其計算的時間成本過高,導致哈希表的處理性能降低
  3. 由於記錄是存放在桶數組中的,而桶數組必然存在空槽,所以當記錄本身尺寸(size)很大並且記錄總數規模很大時,空槽佔用的空間會導致明顯的內存浪費
  4. 刪除記錄時,比較麻煩。比如需要刪除記錄a,記錄b是在a之後插入桶數組的,但是和記錄a有衝突,是通過探測序列再次跳轉找到的地址,所以如果直接刪除a,a的位置變爲空槽,而空槽是查詢記錄失敗的終止條件,這樣會導致記錄b在a的位置重新插入數據前不可見,所以不能直接刪除a,而是設置刪除標記。這就需要額外的空間和操作。

鏈接法

優點

  1. 對於記錄總數頻繁可變的情況,處理的比較好(也就是避免了動態調整的開銷)由於記錄存儲在結點中,而結點是動態分配,不會造成內存的浪費,所以尤其適合那種記錄本身尺寸(size)很大的情況,因爲此時指針的開銷可以忽略不計了
  2. 刪除記錄時,比較方便,直接通過指針操作即可

缺點

  1. 存儲的記錄是隨機分佈在內存中的,這樣在查詢記錄時,相比結構緊湊的數據類型(比如數組),哈希表的跳轉訪問會帶來額外的時間開銷
  2. 如果所有的 key-value對是可以提前預知,並之後不會發生變化時(即不允許插入和刪除),可以人爲創建一個不會產生衝突的完美哈希函數(perfect hashfunction),此時封閉散列的性能將遠高於開放散列
  3. 由於使用指針,記錄不容易進行序列化(serialize)操作

轉載:https://zhuanlan.zhihu.com/p/33496977?

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章