適合中文關鍵字的哈希函數

原創

2020-02-23 18:22

hash函數的策略。 

    對於GB2312編碼，設輸入的漢字爲GBword，我們可以採用公式(C1-176)*94 + (C2-161)確定GBindex。其中，C1表示第一字節，C2表示第二字節。具體如下： 

    GBindex = ((unsigned char)GBword.at(0)-176)*94 + (unsigned char)GBword.at(1) - 161; 

    之所以用unsigned char類型，是因爲char是一個字節，如果用unsigend int，因爲int是4個字節的，所以會造成擴展，導致錯誤。 

       對於GBK編碼，設輸入的漢字爲GBKword，則可以採用公式   index=(ch1-0x81)*190+(ch2-0x40)-(ch2/128)，其中ch1是第一字節，ch2是第二字節。 

    具體的， 

    GBKindex = ((unsigned char)GBKword[0]-129)*190 +  ((unsigned char)GBKword[1]-64) - (unsigned char)GBKword[1]/128;

哈希表的性能很大程度上取決於一個哈希函數的好壞。我用單個漢字作爲key，5702個漢字衝突率爲0，quite impressive。

例如一個對單個GBK漢字的哈希函數可以這麼寫：

struct hash_CHGBK{
	size_t operator()(const char* GBKword) const{
		size_t GBKindex;
		GBKindex = ((unsigned char)GBKword[0]-129)*190 +
               ((unsigned char)GBKword[1]-64) - (unsigned char)GBKword[1]/128;
	}
};

加上一個比較的函數：

struct eqstr
{
	bool operator()(const char* s1, const char* s2)const{
		return strcmp(s1, s2)==0;
	};
};

可以這麼用

hash_map<const char*, int, hash_CHGBK, eqstr> CHGBK_hashmap;

原帖地址：http://www.iteye.com/problems/60530

原帖作者：deepfuture

hash函數列表

https://www.byvoid.com/blog/string-hash-compare/

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

openjudge1807正方形題解

原題座標範圍很大，不能開二維數組，用vector也不方便搜索（不過應該也能做，畢竟數據不多）定義hash函數爲x，y的平方和（別忘取mod）運用一些數學原理，二重循環找正方形對角頂點座標，由此判斷另外兩個頂點的座標，並在hash表中

2020-07-06 12:01:05

數據結構筆記淺記（十三）哈希表

「哈希表 hash table」，又稱「散列表」，它通過建立鍵 key 與值 value 之間的映射，實現高效的元素查詢。具體而言，我們向哈希表中輸入一個鍵 key ，則可以在 𝑂(1) 時間內獲取對應的值 value 。從本質上看，哈

2024-04-24 23:39:16

基於vite多頁面實現多端同構開發和部署

背景由於在開發前端項目中，後臺管理端和用戶端存在多個模塊和頁面邏輯可以複用，管理模塊和用戶端渲染模塊使用同一套狀態管理機制，只是在管理端和用戶端的入口和路由模塊不同，爲了能夠在開發時同時修改管理端和用戶端共用模塊，不用多項目工程修改和發

2024-03-28 00:34:49

大文件上傳實踐分享

一、方案背景：在此前的項目中有個需求是用戶需要通過前端頁面上傳大約1.5G的壓縮包，存儲到OSS，後提供給其他用戶下載。於是我開始了大文件上傳方案的探索。本文主要探究的是前端技術實現，後端給予相應的支持。二、原理探索之路 2.1

2024-03-28 00:34:46

vue3 的router跳轉 - 頁面同tab跳轉和打開新tab跳轉

vue3的路由基本知識當前頁需要的方法主要是獲得Vue Router實例暴露的一些方法，使用這些方法，進行路由操作引入 import { useRouter } from 'vue-router'; 調用 co

2024-03-22 14:34:45

詳解GaussDB(DWS)中3個防過載檢查項

本文分享自華爲雲社區《【防過載檢查項】》，作者：譡裏個檔。 1. GUC參數檢查目的：針對不同版本建議設定不同的參數值，當前先檢查出來，後續diagnosis會給出建議值 SELECT split_part((substri

2024-03-18 23:17:14

【mongo 系列】mongodb 學習六，索引淺析

【mongo 系列】mongodb 學習六，索引淺析阿兵雲原生 2021-10-07 1,787 閱讀5分鐘專欄：開源組件專題

2024-03-07 10:51:09

數倉的等待視圖中，爲什麼會有Hashjoin-nestloop

本文分享自華爲雲社區《GaussDB(DWS)等待視圖之Hashjoin-nestloop》，作者：Arrow0lf。 1. 業務場景衆所周知，GaussDB(DWS)中有3種常見的join方式：HashJon/MergeJoin/Ne

2024-02-28 11:09:17

手動模擬實現Map

基於hash算法表鏈表實現模擬拿到對應的key值----> 轉化得到hash值---->對應到相對的表的位置(這個其實使用一個數組實現) ----> 在對應的位置對鏈表進行操作 function myMap() {

2020-07-08 03:51:15

你不知道的Redis一-Redis入門

目錄一、Redis入門 1.1 redis簡介 1.2 Redis特性 1.3 redis性能高性能原因 1.3 redis使用場景 1.4 redis基本操作二、Redis數據結構介紹 2.1 字符串 2.2 哈希(Hash) 2.

2020-07-07 02:02:52

BZOJ 2462 [BeiJing2011]矩陣模板（二維hash）

題目鏈接題意查詢小矩陣是否在大矩陣出現過，多組查詢，小矩陣大小固定思路二維矩陣hash，將所有小矩陣可能值記錄，最後 O(log)O(log)O(log) 判斷是否出現過本題主要整個二維hash模板，模板常數特別大，需要

2020-07-06 19:11:46

POJ 3349 Snowflake Snow Snowflakes（hash）

Snowflake Snow Snowflakes Time Limit: 4000MS Memory Limit: 65536K Total Submissions: 35451 Accepted: 9334 Desc

2020-07-06 07:54:54

算法第一講

今天上的算法課，受的打擊挺大的，以前以爲把程序寫對就好了，沒有考慮到程序的效率問題，上午講了二分查找，找數組的第二大值，下午講的排序，包括快速排序，歸併排序，堆排序，哈希表，以前沒用過Hash,用過之後感覺效率很高，也終於理解哈希到底是幹

为你谱写音符

2020-07-06 06:39:15

luogu3370 【模板】字符串哈希

題目描述如題，給定N個字符串（第i個字符串長度爲Mi，字符串內包含數字、大小寫字母，大小寫敏感），請求出N個字符串中共有多少個不同的字符串。友情提醒：如果真的想好好練習哈希的話，請自覺，否則請右轉PJ試煉場:) 輸入輸出格式

2020-07-05 22:35:23

Redis hash常用命令

什麼是redis的hash數據結構？ redis的hash數據結構，其實就是string的升級版，它把string 數據結構的key value，中的value類型升級爲hash（和java的hash一樣的結構） Map<Str

2020-07-05 15:19:10

24小時熱門文章

最新文章

最新評論文章