hash原理

通过hash函数将数据映射为索引(下标),便于查找,在hash冲突做得好且数据较少的情况下可达到O(1)。

常用的hash函数有除留余数法,线性探测,二次探测,开链法,在大部分情况下基本就是用开链法:

这里写图片描述

hash的负载因子:元素个数/hash表长度 一般控制在0.7 -0. 8

如何提高hash查找的效率

  1. 设置好的hash函数,冲突尽量少
  2. 空间换时间,增大表长
  3. STL使用素数表
  4. hash桶挂红黑树

hash表扩容

容量扩张(Expand)& 分摊转移

Hash表中每次发现loadFactor到一定程度时(比如大于0.8),就开辟一个原来桶数组的两倍空间(称为新桶数组),然后把原来的桶数组中元素所有转移过来到新的桶数组中。注意这里转移是须要元素一个个又一次哈希到新桶中。

这样的方法的缺点是,容量扩张是一次完毕的,期间要花非常长时间一次转移hash表中的全部元素

Memcached的扩容条件是当表中元素个数超过Hash容量的1.5倍时就进行扩容,扩容过程由独立的线程来完成,扩容过程中会采用2个Hash表,将老表中的数据通过Hash算法映射到新表中,每次移动的桶的数目可以配置,默认是每次移动老表中的1个桶。

这样的策略就把第一个hash表全部元素的转移分摊为多次转移,并且每次转移的期望时间复杂度为O(1)。

参考:深入理解hash

一致性hash,线性hash

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章