适合中文关键字的哈希函数

原創

2020-02-23 18:22

hash函数的策略。 

    对于GB2312编码，设输入的汉字为GBword，我们可以采用公式(C1-176)*94 + (C2-161)确定GBindex。其中，C1表示第一字节，C2表示第二字节。具体如下： 

    GBindex = ((unsigned char)GBword.at(0)-176)*94 + (unsigned char)GBword.at(1) - 161; 

    之所以用unsigned char类型，是因为char是一个字节，如果用unsigend int，因为int是4个字节的，所以会造成扩展，导致错误。 

       对于GBK编码，设输入的汉字为GBKword，则可以采用公式   index=(ch1-0x81)*190+(ch2-0x40)-(ch2/128)，其中ch1是第一字节，ch2是第二字节。 

    具体的， 

    GBKindex = ((unsigned char)GBKword[0]-129)*190 +  ((unsigned char)GBKword[1]-64) - (unsigned char)GBKword[1]/128;

哈希表的性能很大程度上取决于一个哈希函数的好坏。我用单个汉字作为key，5702个汉字冲突率为0，quite impressive。

例如一个对单个GBK汉字的哈希函数可以这么写：

struct hash_CHGBK{
	size_t operator()(const char* GBKword) const{
		size_t GBKindex;
		GBKindex = ((unsigned char)GBKword[0]-129)*190 +
               ((unsigned char)GBKword[1]-64) - (unsigned char)GBKword[1]/128;
	}
};

加上一个比较的函数：

struct eqstr
{
	bool operator()(const char* s1, const char* s2)const{
		return strcmp(s1, s2)==0;
	};
};

可以这么用

hash_map<const char*, int, hash_CHGBK, eqstr> CHGBK_hashmap;

原帖地址：http://www.iteye.com/problems/60530

原帖作者：deepfuture

hash函数列表

https://www.byvoid.com/blog/string-hash-compare/

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

openjudge1807正方形题解

原題座標範圍很大，不能開二維數組，用vector也不方便搜索（不過應該也能做，畢竟數據不多）定義hash函數爲x，y的平方和（別忘取mod）運用一些數學原理，二重循環找正方形對角頂點座標，由此判斷另外兩個頂點的座標，並在hash表中

2020-07-06 12:01:05

详解GaussDB(DWS)中的行执行引擎

本文分享自華爲雲社區《GaussDB(DWS)行執行引擎詳解》，作者：yd_227398895。 1.前言 GaussDB（DWS）包含三大引擎，一是SQL執行引擎，用來解析用戶輸入的SQL語句，生成執行計劃，供執行引擎來執行；二是執行引

2024-05-11 11:30:53

数据结构笔记浅记（十三）哈希表

「哈希表 hash table」，又稱「散列表」，它通過建立鍵 key 與值 value 之間的映射，實現高效的元素查詢。具體而言，我們向哈希表中輸入一個鍵 key ，則可以在 𝑂(1) 時間內獲取對應的值 value 。從本質上看，哈

2024-04-24 23:39:16

基于vite多页面实现多端同构开发和部署

背景由於在開發前端項目中，後臺管理端和用戶端存在多個模塊和頁面邏輯可以複用，管理模塊和用戶端渲染模塊使用同一套狀態管理機制，只是在管理端和用戶端的入口和路由模塊不同，爲了能夠在開發時同時修改管理端和用戶端共用模塊，不用多項目工程修改和發

2024-03-28 00:34:49

大文件上传实践分享

一、方案背景：在此前的項目中有個需求是用戶需要通過前端頁面上傳大約1.5G的壓縮包，存儲到OSS，後提供給其他用戶下載。於是我開始了大文件上傳方案的探索。本文主要探究的是前端技術實現，後端給予相應的支持。二、原理探索之路 2.1

2024-03-28 00:34:46

vue3 的router跳转 - 页面同tab跳转和打开新tab跳转

vue3的路由基本知識當前頁需要的方法主要是獲得Vue Router實例暴露的一些方法，使用這些方法，進行路由操作引入 import { useRouter } from 'vue-router'; 調用 co

2024-03-22 14:34:45

详解GaussDB(DWS)中3个防过载检查项

本文分享自華爲雲社區《【防過載檢查項】》，作者：譡裏個檔。 1. GUC參數檢查目的：針對不同版本建議設定不同的參數值，當前先檢查出來，後續diagnosis會給出建議值 SELECT split_part((substri

2024-03-18 23:17:14

【mongo 系列】mongodb 学习六，索引浅析

【mongo 系列】mongodb 學習六，索引淺析阿兵雲原生 2021-10-07 1,787 閱讀5分鐘專欄：開源組件專題

2024-03-07 10:51:09

数仓的等待视图中，为什么会有Hashjoin-nestloop

本文分享自華爲雲社區《GaussDB(DWS)等待視圖之Hashjoin-nestloop》，作者：Arrow0lf。 1. 業務場景衆所周知，GaussDB(DWS)中有3種常見的join方式：HashJon/MergeJoin/Ne

2024-02-28 11:09:17

手动模拟实现Map

基於hash算法表鏈表實現模擬拿到對應的key值----> 轉化得到hash值---->對應到相對的表的位置(這個其實使用一個數組實現) ----> 在對應的位置對鏈表進行操作 function myMap() {

2020-07-08 03:51:15

你不知道的Redis一-Redis入门

目錄一、Redis入門 1.1 redis簡介 1.2 Redis特性 1.3 redis性能高性能原因 1.3 redis使用場景 1.4 redis基本操作二、Redis數據結構介紹 2.1 字符串 2.2 哈希(Hash) 2.

2020-07-07 02:02:52

BZOJ 2462 [BeiJing2011]矩阵模板（二维hash）

題目鏈接題意查詢小矩陣是否在大矩陣出現過，多組查詢，小矩陣大小固定思路二維矩陣hash，將所有小矩陣可能值記錄，最後 O(log)O(log)O(log) 判斷是否出現過本題主要整個二維hash模板，模板常數特別大，需要

2020-07-06 19:11:46

POJ 3349 Snowflake Snow Snowflakes（hash）

Snowflake Snow Snowflakes Time Limit: 4000MS Memory Limit: 65536K Total Submissions: 35451 Accepted: 9334 Desc

2020-07-06 07:54:54

算法第一讲

今天上的算法課，受的打擊挺大的，以前以爲把程序寫對就好了，沒有考慮到程序的效率問題，上午講了二分查找，找數組的第二大值，下午講的排序，包括快速排序，歸併排序，堆排序，哈希表，以前沒用過Hash,用過之後感覺效率很高，也終於理解哈希到底是幹

为你谱写音符

2020-07-06 06:39:15

luogu3370 【模板】字符串哈希

題目描述如題，給定N個字符串（第i個字符串長度爲Mi，字符串內包含數字、大小寫字母，大小寫敏感），請求出N個字符串中共有多少個不同的字符串。友情提醒：如果真的想好好練習哈希的話，請自覺，否則請右轉PJ試煉場:) 輸入輸出格式

2020-07-05 22:35:23

24小時熱門文章

最新文章

最新評論文章