python字典的底層原理

1、概述

字典對象的核心是散列表。
散列表是一個稀疏數組（總是有空白元素的數組），數組的每個單元叫做 bucket。每個 bucket有兩部分：
一個是鍵對象的引用，
一個是值對象的引用。
所有 bucket 結構和大小一致，我們可以通過偏移量來讀取指定bucket。
下面通過存儲與獲取數據的過程介紹字典的底層原理。

示例圖

2、字典數據的存儲原理

例如，我們將‘name’ = ‘李四’ 這個鍵值對存儲到字典map中，假設數組長度爲8，可以用3位二進制表示。

>>> map = {}
>>> map
{}
>>> map['name'] = '李四'

1、計算name的散列值。

>>> bin(hash('name'))
'0b101011100000110111101000101010100010011010110010100101001000110'

2、用散列值的最右邊 3 位數字作爲偏移量，即“110”，十進制是數字 6。我們查看偏移量 6，對應的 bucket 是否爲空。如果爲空，則將鍵值對放進去。如果不爲空，則依次取左移 3 位作爲偏移量，即“000”，十進制是數字0，循環此過程，直到找到爲空的 bucket 將鍵值對放進去。
python 會根據散列表的擁擠程度擴容。“擴容”指的是:創造更大的數組，將原有內容拷貝到新數組中。接近 2/3 時，數組就會擴容。擴容後，偏移量的數字個數增加，如數組長度擴容到16時，可以用最右邊4位數字作爲偏移量。

3、數據讀取原理

>>> map.get('name')
'李四'

1、計算name的散列值
2、用最右邊 3 位數字作爲偏移量，即“110”，十進制是數字6。查看偏移量 6，對應的 bucket 是否爲空。如果爲空，則返回 None。如果不爲空，則將這個 bucket 的鍵對象計算出散列值，和我們的散列值進行比較，如果相等，則將對應“值對象”返回；如果不相等，則再依次取其他幾位數字，重新計算偏移量。循環此過程。

4、注意事項

鍵必須可散列，如數字、元組、字符串；自定義對象需要滿足支持hash、支持通過__eq__()方法檢測相等性、若 a==b 爲真，則 hash(a)==hash(b)也爲真。

>>> b = [1,2] //list不可散列
>>> bin(hash(b))
Traceback (most recent call last):
 File "<pyshell#90>", line 1, in <module>
  bin(hash(b))
TypeError: unhashable type: 'list'

字典在內存中開銷巨大，典型的空間換時間；
鍵查詢速度很快；
往字典裏面添加新建可能導致擴容，導致散列表中鍵的次序變化。因此，不要在遍歷字典的同時進行字典的修改。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

python字典的底層原理

1、概述

2、字典數據的存儲原理

3、數據讀取原理

4、注意事項

windows平臺下Mysql8.0.20保姆級安裝教程

開源數據集別人總結地址

mysql 事務理解及相關操作

MongoDB 數據庫基礎操作（一）

TCP的三次握手和四次揮手理解，附帶常見面試題

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結