说说 Python 的映射数据类型

1 映射类关系

Python 的 collections.abc 模块内拥有 Mapping 和 MutableMapping 这两个抽象基类,它们为 dict 和其他类似的类型提供了接口定义。

mutable /ˈmjuːtəbl/
adj.
Capable of or subject to change or alteration.

它们之间的类关系如下图所示:

箭头从子类指向父类,抽象类和抽象方法的名称以斜体显示。

首先是 Container、Iterable 与 Sized 三大接口,接着 Mapping 接口在继承了前面三大接口的基础上,又定义了一些自有接口。

这些接口定义了构建一个映射类型所需要的接口与方法。

2 判定映射类型

可以通过 isinstance() 方法来判定某个对象是不是广义上的映射类型:

import collections
import logging

logging.basicConfig(level=logging.DEBUG, format='%(levelname)s - %(message)s')


my_dict = {}
result = isinstance(my_dict, collections.abc.Mapping)
logging.info('result -> %s', result)

运行结果:

INFO - result -> True

3 可散列的数据类型

Python 标准库里的所有映射类型都是利用 dict 来实现的,它们的键都必须是可散列的数据类型。

可散列的数据类型指的是:在这种数据类型对象的生命周期中,它的散列值是不变的。它会实现 __hash__() 方法与__qe__() 方法,后一种方法是用来与其他键做比较。如果两个对象的散列值相等,那么就可以判定这两个对象相等。

原子不可变的数据类型(如:str、bytes 和数值类型)都是可散列数据类型。frozenset 中只能容纳可散列类型,因此也是可散列数据类型。

frozenset() 会返回一个冻结的集合,冻结后集合不能再添加或删除元素。

而元组比较特殊,只有当一个元组中所包含的元素都是可散列类型时,它才是可散列的。Luciano Ramalho 举了一个示例来说明这一点。

tt = (1, 2, (30, 40))
logging.info('hash(tt) -> %s', hash(tt))

tf = (1, 2, frozenset([30, 40]))
logging.info('hash(tf) -> %s', hash(tf))

tl = (1, 2, [30, 40])
logging.info('hash(tl) -> %s', hash(tl))

运行结果:

INFO - result -> True
INFO - hash(tt) -> 8027212646858338501
INFO - hash(tf) -> 985328935373711578
TypeError: unhashable type: 'list'

示例中可以看到:元组内包含了一个非散列的列表,就会抛出 TypeError 异常。

一般情况下,用户自定义类型的对象都是可散列的,散列值就是这些对象 id() 函数的返回值,因此这些对象在比较的时候都是不相等的。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章