算法图解第5章散列表

本章内容

学习散列表--------最有用的基本数据结构之一。散列表用途广泛，本章将介绍其常见的用途。

学习散列表的内部机制：实现、冲突和散列函数。这将帮助你理解如何分析散列表的性能。

假设你在一家杂货店上班。有顾客来顾客来买东西时，你得在一个中查找价格。如果本子的内容不是按字母顺序排列的，你台能为查找苹果(apple)的价格而浏览每一行，这需要很长的时间。比时你使用的是第1章介绍的简单查找，需要浏览每一行。还记得这需要多长时间吗？O(n)。如果本子的内容是按字母顺序排列的，可使用二分查找来找出苹果的价格，这需要的时间更短，为O(log n)。

需要提醒你的是，运行时间O(n)和O(log n)之间有天壤之别！假设你每秒能够看10行。使用简单查找和二分查找所需要的时间将如下。

你知道，二分查找的速度非常快。但作为收银员，在本子中查找价格是件很痛苦的事情，哪怕本子的内容是有序的。在查找价格时，你都能感觉到顾客的怒气。看来真的需要一名能够记住所有商品价格的雇员，这样你就不用查找了：问好就能马上知道答案。

不管商品有多少，这位雇员（假设好的名字为Maggie）报出任何商品的价格的时间都为O(1)。速度比二分查找都快。

真是太厉害了！如何聘到这样的雇员呢？

下面从数据结构的角度来看看。前面介绍两种数据结构：数组和链表（其实还有栈，但栈并不能用于查找）。你可使用数组来实现记录商品价格本子。

这种数组的每个元素包含两项内容：商品名和价格。如果将这个数组按商品名排序，就可使用二分查找在其中查找商品的价格。这样查找价格的时间将为O(log n)。然而，你希望查找商品价格的时间为O(1)，即你希望查找速度像Maggie那么快，这是散列函数的用武之地。

5.1 散列函数

散列函数是这样的函数，即无论你给它什么数据，它都还你一个数字。

如果用专业术语表达的话，我们会说，散列函数“将输入映射到数字”。你可能认为散列函数输出的数字没什么规律，但其实散列函数必须满足一些要求。

综必须是一致的。例如，假设你输入apple时得到的是4，那么每次输入apple时，得到的都必须为4 。如果不是这样，散列表将毫无用处。

它就将不同的输入映射到不同的数字。例如，如果一个散列函数不管输入是什么都返回1，这就不是好的散列函数。最理想的情况是，将不同的输入映射到不同的数字。

散列函数将输入映射为数字，这有使用途呢？你可以使用它来打造你的"Maggie"!

为此，首先创建一个空数组。

你将在这个数组中存储商品的价格。下面来将苹果的价格加入到这人数组中。为此，将apple作为输入交给散列函数。

散列函数的输出为3，因此我们将苹果的价格存储到数组的索引3处。

下面将牛奶(milk)的价格存储到数组中。为此，将milk作为散列函数的输入。

散列函数的输出为0，因此我们将牛奶的价格存储在索引0处。

不断的重复这个过程，最终整个数组将填满价格。

现在假设需要知道鳄梨(avocado)的价格。你无需在数组中查找，只需将avocado作为输入将给散列函数。

它将告诉你鳄梨的价格存储在索引4处。果然，你在那里找到了。

散列函数准确地指出了价格的存储位置，你根本不用查找！之所以能够这样，具体原因如下。

散列函数总是将同样的输入映射到相同的索引。每次你输入avocado,得到的都是同一个数字。因此，你可首先使用它来确定将鳄梨的价格存储在什么地方，并在以后使用它来确定鳄梨的价格存储在什么地方。

散列函数将不同的输入映射到不同的索引。avocado映射到索引4,milk映射到索引0。每种商品都映射到数组的不同位置，让你能够将其价格存储到这里。

散列函数知道数组有多大，只返回有效的索引。如果数组包含5个元素，散列函数就不会返回无效索引100。

刚才你就打造了一个"Maggie"!你结合使用散列函数和数组创建了一种被称为散列表（hash table）的数组结构。散列表是你学习的第一种包含额外逻辑的数据结构。数组和链表都被直接映射到内存，但散列表更复杂，它使用散列函数来确定元素的存储位置。

在你学习的复杂数据结构中，散列表可能是最有用的，也被为散列映射、映射、字典和关联数组。散列表的速度很快！还记得第2章关于数组和链表的讨论吗？你可以立即获取数组中的元素，而散列表也使用数组来存储数据，因此其获取元素的速度与数组一样快。

你中能根本不需要要自己去实现散列表，任一优秀的语言都提供了散列表实现。Python提供的散列表实现为字典，你何使用函数dict来创建散列表。

创建散列表book后，在基中添加一些商品的价格。

# coding=utf-8
book = dict()

book["apple"] = 0.67   #一个苹果的价格是67美分
book["milk"] = 1.49     #牛奶的价格为1.49美元
book["avocado"] = 1.49
print book

{'avocado': 1.49, 'apple': 0.67, 'milk': 1.49}

非常简单！我们来查询鳄梨的价格。

print book["avocado"]

1.49

散列表由键和值组成。在前面的散列表book中，键为商品名，值为商品价格。散列表将键映射到值。

在下一节中，你将看到一此散列表使用示例。

5.2 应用案例

5.2.1 将散列表用于查找

手机都内置了方便的电话簿，其中每个姓名都有对应的电话号码。

假设你要创建一个类似这样的电话簿，将姓名映射到电话号码。该电话簿需要提供如下功能。

添加联系人及其电话号码。

通过输入联系人来获悉其电话号码。

这非常适合使用散列表来实现！在下述情况下，使用散列表是很不错的选择。

创建映射。

查找。

创建电话簿非常容易。首先，新建一个散列表。

phone_book = dict()

顺便说一句，Python提供了一种创建散列表的快捷方式----使用一对大括号。

phone_book = {}        #与phone_book = dict()等效

下面在这个电话簿中添加一些联系人的电话号码。

phone_book["jenny"] = 8675309
phone_book["emergency"] = 911

这就成了！现在，假设你要查找Jenny的电稿号码，为此只需向散列表传入相就的键。

print phone_book["jenny"]

如果要求你使用数组来创建电话簿，你将如何做呢？散列表让你能够轻松地模拟映射关系。

散列表被用于大海捞针式的查找。vkwg,wq在访问像http://adit.io这样的网站时，计算机必须将adit.io转换为IP地址。

无论你访问哪个网站，其网址都必须转换为IP地址。

这不是将网址映射到IP地址吗？好像非常适合使用散列表！这个过程被称为DNS解析(DNS resolution)。散列表是提供这种功能的方式之一。

5.2.2 防止重复

假设你负责管理一个投票站。显然，每个只能投一票，但如何避免重重投票呢？有人来投票时，你询问他的全名，并将其与已投票者名单进行比对。

如果名字在名单中，就说明这个人投过票了，因此将他拒之门外！否则，就将他的姓名加入到名单中，并让他投票。现在假设有很多人来投过票，因此名单非常长。

每次有人来投票时，你都得浏览这个长长的名单，以确定他是否投过票。但有一种更好的办法，那就是使用散列表！

为此，首先创建一个散列表，用于记录已投票的人。

voted = {}

有人来投票时，检查他是滞在散列表中。

value = voted.get("tom")

如果“tom”在散列表中，函数get将返回它;否则返回None。我可使用这个函数检查来投票的人是否投过票！

代码如下：

def check_voter(name):
    if voted.get(name):
        print "kick them out!"
    else:
        voted[name] = True
        print "let them vote!"

我们来测试几次。

check_voter("tom")
check_voter("mike")
check_voter("mike")
check_voter("tom")

let them vote!
let them vote!
kick them out!
kick them out!

首先来投票的是Tom，上述代码打印let them vote!。接着Mike来投票，打印的也是let then vote!。然后，Mike又来投票，于是打印的就是Kick them out!。

别戽了，如果你将已投票者的姓名存储在列表中，这个函数的速度终将变得非常慢，因为它必须使用简单查找搜索整个列表。但这里将它们存储在散列表，而散列表让你能够迅速知道来投票的人是否投过票。使用散列表来检查是否重复，速度非常快。

5.2.3将散列表用于缓存

5.2.4

模拟映射关系

防止重复

缓存/记住数据，以免服务器再通过处理来生成它们。

5.3 冲突

前面说过，大多数语言都提供了散列表实现，你不用知道如何实现它们。有鉴于此，我就不再过多地讨论散列表的内部原理，但你依然需要考虑性能！要明白散列表的性能，你得先搞清楚什么是冲突。本节和一下节将分别介绍冲突和性能。

首先，我撒了一个善意的谎。我之前告诉你的是，散列函数将不同的键映射到数组的不同位置。

实际上，几乎不可能编写出这样的散列函数。我们来看一个简单的示例。假设你有一个数组，它包含26个位置。

而你使用的散列函数非常简单，它按字母表顺序分配数组的位置。

你可能已经看出了问题。如果你要将苹果的价格存储到散列表中，分配给你的是第一个位置。

接下来，你要将香蕉的价格存储到散列表中，分配给你的是第二个位置。

一切顺利！但现在你要将鳄梨的价格存储到散列表中，分配给你的又是第一个位置。

不好，这个位置已经存储了苹果的价格！怎么办？这种情况被称为冲突（collision）：给两个键分配的位置相同。这是个问题。如果你将鳄梨的价格存储到这个位置，将覆盖苹果的价格，以后现查询苹果的价格时，得到的将是鳄梨的价格！冲突很糟糕，必须须要避免。处理冲突方式很多，最简单的办法如下：如果两个键映射到了同一个位置，就在这个位置存储一个链表。

在这个例子中，apple和avocado 映射到了同一个位置，因此在这个位置存储一个链表。在需要查询香蕉的体系时，速度依然很快。但在需要查询苹果的价格时，速度要慢些：你必须在相就的链表中找到apple .如果这个链表很短，也没什么大不了----只需搜索三四个元素。但是，假设你工作的杂货店只销售名称以字母A打头的商品。

等待！除第一个位置外，整个散列表都是空的，而第一个位置包含了一个很长的列表！换言这，这个散列表中的所有元素都在这个链表中，这与一开始就将所有元素存储到一个链表中一样糟糕：散列表的速度会很慢。

这里的经验教训有两个。

散列函数很重要。前面的散列函数将所有的键都映射到一个位置，而最理想的情况是，散列函数将键均匀地映射到散列表的不同位置。

如果散列表存储的链表很长，散列表的速度将急剧下降。然而，如果使用的散列函数很好，这些链表表不会很长！

散列函数很重要，发的散列函数很少导致冲突。那么，如何选择好的散列函数呢？这将在下一节介绍。

5.4 性能

本单开头是假设你在杂货店工作。你想打造一人很遗憾你能够迅速获悉商品价格的工具，而散列表的速度确实很快。

在平均情况下，散列表执行各种操作时间都为O(1)。O(1)被称为常量时间。你以前没有见过常量时间，它并不意味着马上，而是说不管散列表多大，所需要的时间都相同。例如，你知道的，简单查找的运行时间为线性时间。

二分查找的速度更快，所需要时间为对数时间。

在散列表中查找所花费的时间为常量时间。

一条水平线，看到了吧？这意味着无论散列表包含一个元素还是10亿个元素，从其中获取数据所需要的时间都相同。实际上，你以前见过常量时间----从数组中获取一个元素所需的时间就是固定的：不管数组多大。从中获取一个元素所需要的时间都是相同的。在平均情况下，散列表的速度确定很快。

在最糟情况下，散列表所有操作的运行时间都为O(n)----线性时间，这真的很慢。我们来将散列表同数组和链表比较一下。

在平均情况下，散列表的查找(获取给定索引处的值)速度与数组一样快，而插入和删除速度与链表一样快，因此它兼具两者的优点！但在最糟情况下，散列表的各种操作的速度都很慢。因此，在使用散列表时，避开最糟情况至关重要。为此，需要避免冲突。而要避免冲突，需要有：

较低的填装因子：

良好的散列函数。

5.4.1 填装因子

散列表的填装因子很容易计算。

散列表使用数组来存储数据，因此你需要计算数组中被占用的位置数。例如，下述散列表的填装因子为2/5，即0.4。

下面这个散列表的填装因子为多少呢？

如果你的答案为1/3，那就对了。填装因子度量的是散列表中有多少位置是空的。

假设你要在散列表中存储100种商品的价格，而该散列表包含100个位置。那么在最佳情况下，每个商品都将有自己的位置。

这个散列表的填装因子为1。如果这个散列表只有50个位置呢？填充因子将为2.不可能让每种商品都有自己的位置，因为没有足够的位置！填装因子大于1意味着商品数量超过了数组的位置数。一旦填装因子开始增大，你就需要在散列表中添加位置，这被称为调整长度（resizing）。例如，假设有一个像下面这样相当满的散列表时。

你就需要调整它的长度。为此，你首先创建一个更长的新数组：通常将数组增长一倍。

接下来，你需要使用函数hash将所有的元素都插入到这个新的散列表中。

这个新散列表的填装因子为3/8 ，比原来低多了！填装因子越低，发生冲突的可能性越小，散列表的性能越高。一个不错的经难规则是：一旦填装因子大于0.7，就调整散列表的长度。

你可能在想，调整散列表长度的工作需要很长野间！你说得没错，调整长度的开销很大，因此你不会希望频繁这样做。但平均而言，即便考虑到调整长度所需要的时间，散列表操作所需要的时间也为O(1)。

5.4.2良好的散列函数

良好的散列函数让数组中的值呈均匀分布。

糟糕的散列函数让值扎堆，导致大量的冲突。

什么样的散列函数良好的呢？你根本不用操心----天塌下来的高个子顶着。如果好奇，可研究一下SHA函数.你可将它用作散列函数。

5.5 小结

你几乎根本不用自己去实现散列表，因为你使用的编程语言提供了散列表实现。你可使用Python提供的散列表，并假定能够获得平均情况下的性能：常量时间。

散列表是一种功能强大的数据结构，其操作速度快，还能让你以不同的方式建立数据模型。你可能很快会发现自己经常在使用综。

你可以结合散列函数和数组来创建散列表。

冲突很糟糕，你应使用可以最大限度减少冲突的散列函数。

散列表的查找、插入和删除速度都非常快。

散列表适合用于模拟映射关系。

一旦填装因子超过0.7，就该调整散列表的长度。

散列表可用于缓存数据（例如，在Web服务器上）。

散列表非常适合用于防止重复。

算法图解第5章散列表

5.1 散列函数

5.2 应用案例

5.2.1 将散列表用于查找

5.2.2 防止重复

5.2.3将散列表用于缓存

5.2.4

5.3 冲突

5.4.2良好的散列函数

5.5 小结

TDengine docker安装方法

vue项目获取富文本编辑器wangEditor内容导出为word（html转word格式并下载）

dotnet C# 创建 X11 应用时设置窗口背景颜色

vue3组件通信与props

sapui5

Alpine Linux apk add DNS lookup error

部分JDK版本的发布时间

工作中用到的脚本合集

合并代码时Beyond Compare设置

Navicat安装与激活教程

openssl自簽名證書_windows系統apache web服務器下自簽名證書

httpd限速模塊使用

使用 CUBE 彙總數據

GVM-11 centos8 源碼安裝指南(OpenVas)

android 數據存儲 SQLite數據庫

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結

算法图解 第5章 散列表

5.1 散列函数

5.2 应用案例

5.2.1 将散列表用于查找

5.2.2 防止重复

5.2.3将散列表用于缓存

5.2.4

5.3 冲突

5.4.2良好的散列函数

5.5 小结

算法图解第5章散列表