数据结构——哈希算法

最近开始学习王争老师的《数据结构与算法之美》,通过总结再加上自己的思考的形式记录这门课程,文章主要作为学习历程的记录。

哈希算法的定义是将任意长度的二进制值串映射为固定长度的二进制值串。这个映射规则就是哈希算法。通过原始数据映射后得到的二进制值串就是哈希值。设计一个优秀的哈希算法应满足几点要求:

1.从哈希值不能反向推导出原始数据(因此哈希算法也叫单向哈希算法)。

2.对输入数据非常敏感,哪怕原始数据只修改了一个Bit,最后得到的哈希值也大不相同。

3.散列冲突的概率要很小,对于不同的原始数据,哈希值相同的概率非常小。

4.哈希算法的执行效率要尽量高效,针对较长的文本,也能快速计算出哈希值。

举个例子,

MD5(“今天我来讲哈希算法”) = bb4767201ad42c74e650c1b6c03d78fa

MD5(“jiajia”) = cd611a31ea969b908932d44d126d195b

可以看出,无论哈希的文本有多长,多短,通过MD5哈希之后,得到的哈希值长度是相同的,而且得到的哈希值看起来像是一堆随机数,毫无规律,也很难根据哈希值反推回对应的文本。

哈希算法的应用非常非常多,作者选了最常见的7个,分别是安全加密、唯一标识、数据校验、散列函数、负载均衡、数据分片和分布式存储。

应用一:安全加密

最常用于加密的哈希算法是MD5(MD5消息摘要算法)和SHA(安全散列算法)。除此之外,还有其他加密算法,比如DES(数据加密算法)、AES(高级加密算法)。

对于加密的哈希算法,有两点格外重要。第一点是很难根据哈希值反向推导出原始数据,第二点是散列冲突的概率要很小。第一点容易理解,为了防止原始数据泄露。第二点需要对为什么哈希算法无法做到零冲突进行解释一下:哈希算法产生的哈希值的长度是固定且有限的。以MD5为例,哈希值是固定的128位二进制串,能表示的数据是有限的,最多表示2128个数据,而我们要哈希的数据是无穷的。如果对2128+1个数据求哈希值,就必然存在哈希值相同的情况。一般情况下,哈希值越长的哈希算法,散列冲突的概率越低。

没有绝对安全的加密。越复杂、越难破解的加密算法,需要的计算时间也越长。在实际开发过程中,也需权衡破解难度和计算时间,来决定究竟使用哪种加密算法。

应用二:唯一标识

以图片为例,如果要在图库中搜索一张图是否存在,不能单纯地用图片的元信息来比对。比较笨的办法就是拿要查找的图片的二进制码串与图库中所有图片的二进制码串一一比对,但这种比对非常耗时。我们可以给每一个图片取一个唯一标识,或者说信息摘要。比如,我们可以从图片的二进制码串开头取100个字节,从中间取100个字节,从最后再取100个字节。然后将这300个字节放在一起,通过哈希算法(如MD5),得到一个哈希字符串,用它作为图片的唯一标识,这样可以减少很多工作量。

应用三:数据校验

以电驴BT下载软件为例,其下载原理是基于P2P协议。从很多机器并行下载一个2GB的电影,这个电影文件可能会被分割成很多文件块。等所有的文件块都下载完成后,再组装成一个完整的电影文件就行了。

但是网络传输是不安全的,下载过程中可能出现错误,因此需要校验文件块的安全,正确以及完整。具体的BT协议很复杂,校验方法也很多。就说一下其中的一种思路:通过哈希算法,对100个文件块分别取哈希值,并且保存在种子文件中。哈希算法对数据很敏感,只要文件块内容有一些变化,最后计算出的哈希值完全不同。所以,当文件块下载完成后,可以通过相同的哈希算法,对下载好的文件块逐一求哈希值。然后再跟种子文件中保存的哈希值比对。如果不同,则说明文件块在下载过程中出现错误。

应用四:散列函数

散列函数也是哈希算法的一种应用。散列函数是设计一个散列表的关键,直接决定了散列冲突的概率和散列表的性能。但相比于哈希表其他应用,散列函数对于散列算法冲突的要求要低很多。即使出现了个别散列冲突,只要不是过于严重,都可以通过开放寻址法或链表法。

散列函数对于能否反向解密并不关心。它更关注散列后的值能否平均分布。此外,散列函数执行的快慢,也会影响散列表的性能。故散列函数用的散列算法一般都比较简单,比较追求效率。

应用五:负载均衡

如何实现一个会话沾滞的负载均衡算法?也就是说,我们需要在同一个客户端上,在一次会话中所有请求都路由到同一个服务器上。

最直接的方法就是维护一张映射关系表,内容是客户端IP地址或会话ID与服务器编号的映射关系。客户端发出的每次请求,都要先在映射表中查找应该路由到服务器的编号,然后再请求编号对应的服务器,但有几个弊端:

1、如果客户端很多,映射表可能会很大,比较浪费内存空间。

2、客户端下线,上线,服务器扩容、缩容都会导致映射失效,这样维护映射表的成本就会很大。

但是如果借助哈希算法,对客户端IP地址或会话ID计算哈希值,将取得的哈希值与服务器列表的大小进行取模运算,最终得到的值就应该被路由到服务器编号。

应用六:数据分片

哈希算法可以用于数据的分片,举两个例子:

1、如何统计“搜索关键词”出现的次数?

假如有1T的日志文件,记录了用户的搜索关键词,我们想要快速统计出每个关键词被搜索的次数。这个问题有两个难点:第一个是搜索日志过大,没办法放到一台机器的内存中。第二个是如果只用一台机器来处理这么巨大的数据,处理时间会很长。

针对这两个难点,我们可以先对数据进行分片,然后采用多台机器处理的方法,来提高处理速度。具体的思路:为了提高处理的速度,我们用n台机器并行处理。我们从搜索记录的日志文件中,依次读出每个搜索关键词,并且通过哈希函数计算哈希值,然后再跟n取模,最终得到的值,就是应该被分配的机器编号。

这样,哈希值相同的搜索关键词就分配到同一个机器上,每一个机器分别计算关键词出现的次数,合并起来就是最终结果。

2、如何快速判断图片是否在图库中?

同样对数据进行分片,采用多机处理。每次从图库中读取一个图片,计算唯一标识,然后与机器个数n求余取模,得到的值就对应要分配的机器编号,然后将这个图片的唯一标识和图片路径发往对应的机器构建散列表。

当判断一个图片是否在图库中时,同样通过哈希算法,计算这个图片的唯一标识,然后与机器个数n求余取模。假设得到的值是k,那就去编号k的机器构建的散列表中查找。

估算一下,1亿个图片构建散列表大约需要多少台机器?假设采用MD5来计算哈希值,那长度为128比特,也就是16字节。文件路径长度上限是256字节,我们假设平均长度是128字节。如果用链表法解决冲突,还需要存储指针,指针只占用8个字节。假设一台机器的内存大小为2GB,散列表装载因子为0.75,故大约1000万(2GB0.75/1522GB*0.75/152)张图片构建散列表。

针对这种海量数据的处理问题,都可以采用多机分布式处理。

应用七:分布式存储

为了提高数据的读取、写入能力,一般都采用分布式的方式来存储数据,比如分布式缓存。如果有大量数据需要缓存,需要将数据分布在多台机器上。借用数据分片的思想,即通过哈希算法对数据取哈希值,然后对机器个数取模,这个最终值就是应存储的缓存机器编号。

但如果数据增多,原来的10个机器已经无法承受,就需要扩容了。比如扩容到11个机器,这时候麻烦就来了。所有的数据都需要重新计算哈希值。然后重新搬移到正确的机器上,这就相当于缓存中的数据一下子就都失效了。所有的数据请求都会穿透缓存,直接去请求数据库,这样就可能压垮数据库。

因此,需要一种方法,使得在新加入一个机器后,并不需要做大量的数据搬移——一致性哈希算法。

假设有k个机器,数据的哈希值的范围是[0,MAX]。我们将整个范围划分成m个小区间(m远大于k),每个机器负责m/k个小区间。当有新机器加入的时候,就将某几个小区间数据从原来的机器中搬移到新的机器中,这样,既不用全部重新哈希,搬移数据,也保持了各机器上数据数量均衡。

参考资料:王争《数据结构与算法之美》

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章