数据结构与算法之散列(分离链接法)

Hash,一般翻译做“散列”,也有直接音译为“哈希”的,就是把任意长度的输入(又叫做预映射, pre-image),通过散列算法,变换成固定长度的输出,该输出就是散列值。这种转换是一种压缩映射,也就是,散列值的空间通常远小于输入的空间,不同的输入可能会散列成相同的输出,所以不可能从散列值来唯一的确定输入值。简单的说就是一种将任意长度的消息压缩到某一固定长度的消息摘要的函数

为什么用散列
散列对插入,删除和检索等操作的时间复杂度可以达到O(1) 尽管散列在最差情况下仍然是O(n)

散列的组成部分

1.散列表
   散列表是一种数据结构,用以储存关键字以及其关联的值,散列表利用散列函数将关键字映射到其关联的值 

2.散列函数
   散列函数用于将关键字装换为索引,理想情况下,删了函数应该将每个可能的关键字映射到唯一的槽索引,但在实践中难以实现。
   散列函数的方法
      1.直接定址法
      2.数字分析法
      3.平方取中法
       取关键字平方后的中间几位为哈希地址。 

      4.折叠法
          将关键字分割成位数相同的几部分(最后一部分的位数可以不同),然后取这几部分的叠加和(舍去进位)作为哈希地址,这方法称为折叠法。 

      5.除留余数法
      取关键字被某个不大于哈希表表长m的数p除后所得余数为哈希地址。
      H(key)=key MOD p (p<=m) 

      6.等等 

3.冲突
散列数组用于将每个关键字映射到不同的地址空间,但当无法创建一个将每个关键字映射到不同地址的散列函数称为发生了冲突,冲突是指两个记录储存在相同的位置的情况

4.冲突解决的常用技术
    分离链式法
    平方探测法
    双平方探测法

这里先介绍分离链式法
分离链式法 就是将散列表结合链表来实现
当两个或多个记录散列到相同位置时,这些记录将构成链表

这里写图片描述

实现代码


//分离链接法
/*
 * 为执行一次查找,我们使用散列函数来确定究竟遍历哪个链表
 * 然后我们在被确定的链表中执行一次查找。为执行insert 我们检查相应的链表看看该元素是否已经处在合适位置。
 * 
 */
public class SeparateChainingHashTable<T> {
    // 构造函数
    public SeparateChainingHashTable() {
        // 默认大小
        this(DEFAULT_TABLE_SIZE);
    }

    @SuppressWarnings("unchecked")
    public SeparateChainingHashTable(int size) {
        // 初始化链表数组
        linkList = new LinkedList[nextPrime(size)];
        for (int i = 0; i < linkList.length; i++) {
            linkList[i] = new LinkedList<>();
        }
    }

    // 清空哈希表
    public void makeEmpty() {
        for (int i = 0; i < linkList.length; i++) {
            linkList[i].clear();
        }
        currentSize = 0;
    }

    // 判断哈希表中是否包含t
    public boolean contain(T t) {
        // 利用哈希计算公式计算出其哈希值,在根据哈希值找到对应的链表
        List<T> list = linkList[myhash(t)];
        return list.contains(t);
    }

    // 在哈希表中插入数据
    public void insert(T t) {
        List<T> list = linkList[myhash(t)];
        if (!list.contains(t)) {
            list.add(t);
            if (++currentSize > linkList.length) {
                // 超出范围
                rehash();
            }
        }
    }

    // 在哈希表中移除数据
    public void remove(T t) {
        List<T> list = linkList[myhash(t)];
        if (list.contains(t)) {
            list.remove(t);
            currentSize--;
        }
    }

    private static final int DEFAULT_TABLE_SIZE = 11;

    private List<T>[] linkList; // 数据数组
    private int currentSize; // 数据占据数组的大小
    // 超出数组范围 扩大为原来的两倍
    //再哈希
    @SuppressWarnings("unchecked")
    private void rehash() {
        List<T>[] oldlinkList = linkList;
        linkList = new List[nextPrime(linkList.length * 2)];
        for (List<T> list : oldlinkList) {
            if (list != null && !list.isEmpty())
                for (T t : list) {
                    insert(t);
                }
        }
    }
    //哈希函数
    private int myhash(T t) {
        int hashval = t.hashCode();
        hashval %= linkList.length;
        if (hashval < 0)
            hashval += linkList.length;
        return hashval;
    }

    // 下一个素数
    private static int nextPrime(int n) {
        // 如果是偶数则加1变奇数(所有的偶数除2以外都不是素数)
        if (n % 2 == 0)
            n++;
        // 如果不是素数则加2
        for (; !isPrime(n); n += 2)
            ;

        return n;
    }

    /**
     * 是否为素数 素数,有无限个。素数定义为在大于1的自然数中, 除了1和它本身以外不再有其他因数的数称为素数。
     */
    private static boolean isPrime(int n) {
        // 2,3是素数
        if (n == 2 || n == 3)
            return true;
        // 1是特例不是素数
        // 若被偶数整除不是素数
        if (n == 1 || n % 2 == 0)
            return false;
        // 若被奇数整除则不是素数 (3,5,7,9,11,13,15,17.......)
        // 若i*i>=n 此时i已经是遍历n的所有可能公因数
        for (int i = 3; i * i <= n; i += 2)
            if (n % i == 0)
                return false;
        // 若通过上述的判断则为素数。
        return true;
    }
}

下一篇 数据结构与算法之散列(平方/双平方探测法)<八>

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章