





  • 通常总是会为动态集合的字典操作预留一定的资源,并且通过额外的空间记录现有元素集合的大小或是链表的表头/尾,因此对于插入操作来说其运行时间为O(1)。
  • 因为读取/更新操作均建立在搜索的基础上,因此运行效率取决于定位待操作的数据项的时间。我们首先来看数组,如果所存储的元素集是无序的,那么搜索集合中的任一元素的期望时间E=(1+2+…+n)/n=O(n),因此搜索某个数据项几乎总是需要遍历整个集合。如果需要大量的搜索操作,那么对于现有集合可以通过排序执行适当的预处理,并在此之后调用运行时间为O(㏒n)的二分搜索以获得较好的整体性能。但这几乎总是受到外界环境不稳定因素的限制,例如动态插入操作将导致现有结构的序性质遭到破坏,并且这种预处理将会消耗O(n)或是O(n㏒n)的运行时间。再来看链表结构,因为其无法提供随机访问能力,因此这决定了即使对链表进行排序也无法运用二分搜索快速查找具有某个固定值的元素,并且同未排序的普通数组一样,链表的搜索操作的期望时间也为O(n)。
  • 对于数据的删除操作,我们发现在有序数组中还需要将已删除数据项所占位置之后的元素逐个前移,使得在维持序关系时整个数组仍然保持紧凑,而在链表中,虽然只需改变待删除数据项的前驱的指向,但高效利用空间的前提条件将会要求我们能够维护一个空闲链表(freelist),这些都需要额外的时间开销。
  • 最后我们知道这两种结构对存储空间的利用率都很高,谁说这不是一个优点呢,至少对于散列来说是的。


在解释散列的含义之前,我们先来深入的观察一下普通数组这种数据结构,由图1所示,将集合{a,b,c,d,e,f}存储在数组中时占据了索引为0~5的6个存储空间,我们可以形式化的表示为有序对(An ordered pair)的集合,即{(a,0),(b,1),(c,2),(d,3),(e,4),(f,5)}。但其实这个集合中任意一个有序对的元素之间的关系是未定义的(undefined),因此这样的有序对集合可以有6!个。然而我们是否可以构造一个关系,使得待存储的集合{a,b,c,d,e,f}中的任意一个元素通过这个关系都能找到一个指定的索引值,由下图更形象的表示:


根据上图我们知道原有集合中的元素被散列之后所得到的有序对的集合为{(d,0),(b,2),(c,2),(a,3),(f,4),(e,5)}。其中,散列表中的1号槽为空,表示经过散列函数作用之后,原集合中没有任何元素被散列至该位置,而2号槽中则存在两个元素,将两个不同元素散列至相同位置的情形我们称为碰撞(Collision)。如上图所示,我们通过使用链表将不同元素链接起来解决碰撞,在后文中还将介绍另外一种称为开放寻址(Open addressing)的解决方法。这里更具体的说明一下链接法的链接形式:因为散列至同一个槽的元素并无顺序上的先后要求,因此为效率计,我们将总是采用在链表头插入碰撞元素的做法,最终导致的结果是,在一个链表中,越靠近表头的节点,在原数组中被散列的次序越靠后。综上所述,可以对散列函数hash进行如下形式化定义:
    hash: elem→γ∈{0,1,2,…,m-1}


  • 如何设计一个好的散列函数?
  • 散列表的大小为多少较好,是否正如图2所示,使用与原集合大小相同的散列表?我们将通过量化证明。


    设所有元素之间均相互独立,且每个元素被散列至每个槽的概率均相等  ------------> 假设①
    并设原集合的尺寸为n,散列表的大小为m,装载因子α=n/m  -------------->假设②
    最重要的是,我们并不考虑散列函数所消耗的计算开销  ---------------->假设③
    设待查找的关键字为k,因此存在两种情况:Ⅰ、待查找关键字k不存在; Ⅱ、关键字k存在



  • 除余散列法
    设 hash(key)=key mod m,其中key表示被散列的关键字,而m则表示散列表的大小,mod则为取余操作。

  • 乘法散列法
    设 hash(key)=floor(m×(A×key mod 1)),其中floor()表示对表达式进行下取整,A∈(0,1),m如上同样表示散列表的大小,且在这种方法中对m并无任何特殊的要求。
    [A×key mod 1]表示将key乘上某个在0~1之间的数并取乘积的小数部分,该表达式等价于A×key-floor(A×key)
    这里最重要的是A的值应该如何设定,Don•Knuth老大认为A=(√5-1)/2 [黄金分割点] 比较好。

  • 全域散列法(universal hashing)
    设 hasha,b(key)=(a×key+b) mod m,如同除余散列法中一样,m的值应为质数,而a∈{1,2,3,…,m-1},b∈{0,1,2,…,m-1}且a,b的值应在运行时动态确定。

  • 完全散列法(perfect hashing)


开放寻址(open addressing)
    hash: (elem, i)→γ,其中 i,γ∈{0,1,2,…,m-1}
    并且该函数所形成的探查序列为 <hash(elem,0), hash(elem,1), …, hash(elem,m-1)>


  • 线性试探法
    设 hash(key, i)=(hash'(key)+i) mod m,其中 i=0,1,…,m-1,hash'为辅助散列函数
    在线性试探中,首次探查位置取决于hash'(key)的值,若发生碰撞,则接下来所探查的位置为(hash'(key)+1) mod m,从而所形成的探查序列为<hash'(key), hash'(key)+1,…, m-1, 0,…, hash'(key)-1>。因为散列表的大小为m,所以整个散列表总共提供m种不同的探查序列。并且由于线性试探使用连续探查的方式,因此随着散列表中元素的增加,所占用的槽逐渐呈连续分布状况,从而增加插入/搜索操作的期望时间。

  • 二次试探法
    设 hash(key,i)=(hash'(key)+c1i+c2i2) mod m,如上所述,i=0,1,…,m-1,hash'为辅助散列函数,c1,c2为辅助参数

  • 双重试探法
    设 hash(key,i)=(hash'(key)+i×hash''(key)) mod m,其中i=0,1,…,m-1,hash',hash''均为辅助散列函数
    双重试探法的首个探查位置为hash'(key),当产生碰撞之后,接下来的探查位置为(hash'(key)+hash''(key)) mod m,因此我们发现在双重试探法中,不仅初始探查位置依赖于关键字key,探查序列中的增量hash''(key)同样依赖于关键字key,因而整个散列表提供了m2种不同的探查序列,较之于前两种开放寻址具备了更多的灵活性。这里还要注意的是应保证hash''(key)与m互质,因为根据固定的偏移量所寻址的所有槽将形成一个群,若最大公约数p=gcd(m, hash''(key))>1,那么所能寻址的槽的个数为m/p<m,使得对于一个关键字来说无法充分利用整个散列表。举例来说,若初始探查位置为1,偏移量为3,整个散列表大小为12,那么所能寻址的槽为<1, 4, 7, 10>,寻址个数为12/gcd(12,3)=4。



  1. #include <iostream> 
  2. #include <cmath> 
  3. #include <ctime> 
  4. #include <string> 
  5. #include <exception> 
  6. #include <Windows.h> 
  7. #include <engine.h> 
  8. using namespace std; 
  10. //#define __TEST__ 
  11. #pragma warning(disable:4244) 
  12. #pragma warning(disable:4996) 
  13. #pragma warning(disable:4290) 
  14. const size_t KEY_SCALE = 600;        //the number of keys in source set 
  15. const size_t SLOTS_IN_CHAIN = 45;        //the number of slots in chained hash table 
  16. const size_t SLOTS_IN_OPENADDR = KEY_SCALE;    /*in open addressing hash table*/ 
  17. const size_t COUNT_OF_EXECUTE = 60;        //counts of hash by open addressing 
  19. class MatDraw{ 
  20. public
  21.     MatDraw(const mwSize&); 
  22.     ~MatDraw() 
  23.     { 
  24.         mxDestroyArray(paForXOrder); 
  25.         mxDestroyArray(paForYOrder); 
  26.         engClose(ep); 
  27.     } 
  28.     void mdPlot(double **, const size_t&); 
  29.     void EvalStr(string str) 
  30.     { engEvalString(ep, str.c_str()); } 
  31. private
  32.     MatDraw(const MatDraw&); 
  33.     MatDraw& operator=(const MatDraw&); 
  34. private
  35.     Engine *ep; 
  36.     mxArray *paForXOrder; 
  37.     mxArray *paForYOrder; 
  38.     size_t ArrLength; 
  39. }; 
  41. class Hash{ 
  42. public
  43.     virtual void plot() = 0; 
  44.     virtual void RunAndGetCollision() = 0; 
  45.     Hash(const size_t&, const size_t&); 
  46.     virtual ~Hash() 
  47.     { if(SrcSet) delete [] SrcSet; } 
  48. protected
  49.     typedef size_t index; 
  50.     void GeneRand(const size_t&); 
  51.     size_t GeneFrom(size_t left, size_t right) const    //generate random [left,right] 
  52.     { return (rand()%(right-left+1))+left; } 
  53.     size_t getClosePrime() const
  54.     void Exit() const { system("pause"); exit(0); } 
  55.     size_t *SrcSet;        //source set to be hashed 
  56.     size_t szSet;            //size of source set 
  57.     size_t approSlot;        //let user choose approximate Slot in hash table 
  58.     size_t nSlot;        //the size of hash table 
  59. protected
  60.     /*this universal function provide service for chain
  61.      *hash & open address at the same time*/ 
  62.     index unihash(const size_t &key, const size_t &arg_a, const size_t &arg_b) 
  63.     { 
  64.         //hash(key)=(a*key+b) mod m -->a & b are random 
  65.         return (arg_a*key+arg_b) % nSlot; 
  66.     } 
  67. }; 
  69. class chainHash : public Hash{ 
  70. private
  71.     typedef index (chainHash::*ChHsh)(const size_t&); 
  72.     struct ChainNode{ 
  73.         size_t key; 
  74.         ChainNode *next; 
  75.     }; 
  76.     struct HashTable{ 
  77.         ChainNode *head; 
  78.         size_t szCnt;        //the number of node in chain 
  79.     }; 
  80. public
  81.     typedef enum { REMAIN, MULTI, UNIVER } HashFunc; 
  82.     chainHash(const size_t&, const size_t&); 
  83.     ~chainHash(); 
  84.     void getCorresIndex(const HashFunc&); 
  85.     void IterEveryChain(const HashFunc &) const
  86.     void InsertIntoHashTable(const HashFunc&); 
  87.     void RunAndGetCollision(); 
  88.     void plot() 
  89.     { 
  90.         pmd->mdPlot(ColliMatrix,chainHash::NumOfHashF); 
  91.         pmd->EvalStr(string("legend('remainder','multiplicate','univerhash');").c_str()); 
  92.     } 
  93. private
  94.     chainHash(const chainHash&); 
  95.     chainHash& operator=(const chainHash&); 
  96.     /*three methods for chained hash*/ 
  97.     index remainder(const size_t &key) { return key%nSlot; } 
  98.     index multiplicate(const size_t &key) 
  99.     { 
  100.         //hash(key) = floor(m*(A*key mod 1)) 
  101.         float A = (sqrt(5.0)-1)/2;        //golden section ratio 
  102.         float temp = A*key; 
  103.         return (temp-static_cast<size_t>(temp))*nSlot; 
  104.     } 
  105.     index univerhash(const size_t &key) 
  106.     { 
  107.         //hash(key)=(a*key+b) mod m -->a & b are random 
  108.         return unihash(key, a, b); 
  109.     } 
  110. private
  111.     //here store the argument for the 'univerhash' in a instance 
  112.     size_t a, b; 
  113. private
  114.     HashTable *pht;        //dynamic allocate hash table 
  115.     ChainNode *pcn;        //allocate nodes in chain dynamically 
  116.     static ChHsh hfTable[];        //function table 
  117.     static size_t NumOfHashF; 
  118.     double **ColliMatrix;            //store the counts of Collision 
  119.     class MatDraw *pmd;        //picture pen 
  120. }; 
  122. class openAddrHash : public Hash { 
  123. private
  124.     typedef index (openAddrHash::*OAHashF)(const size_t&, const size_t&); 
  125.     struct HashTable { 
  126.         size_t szCnt; 
  127.         bool IsNotEmpty; 
  128.     }; 
  129. public
  130.     typedef enum { LINEAR, QUADRATIC, DBHASH} HashFunc; 
  131.     openAddrHash(const size_t&, const size_t&); 
  132.     ~openAddrHash(); 
  133.     void plot()  
  134.     { 
  135.         pmd->EvalStr(string("figure;").c_str()); 
  136.         pmd->mdPlot(ColliMatrix, openAddrHash::NumOfHashF); 
  137.         pmd->EvalStr(string("legend('linear','quadratic','doublehash');").c_str()); 
  138.     } 
  139.     void RunAndGetCollision(); 
  140. private
  141.     /*three methods for Open Addressing -->hash' & hash'' are assist functions*/ 
  142.     /* hash(key, i)=(hash'(key)+i) mod m*/ 
  143.     index linearprob(const size_t &key, const size_t &ix) 
  144.     { return (unihash(key, arg[0], arg[1])+ix)%nSlot; } 
  145.     /* hash(key, i)=(hash'(key)+c1*i+c2*i*i) mod m*/ 
  146.     index quadprob(const size_t &key, const size_t &ix) 
  147.     { return (unihash(key, arg[2], arg[3])+c1*ix+c2*ix*ix)%nSlot; } 
  148.     /* hash(key, i)=(hash'(key)+i*hash''(key)) mod m*/ 
  149.     index dbhashprob(const size_t &key, const size_t &ix) 
  150.     { return (unihash(key, arg[4], arg[5])+ix*unihash(key, arg[6], arg[7]))%nSlot; } 
  151.     void getCorresIndex(const HashFunc&) throw(exception); 
  152.     void printInfo(const HashFunc&); 
  153. private
  154.     //used in assist hash functions 
  155.     /*in array 'arg'  ---->
  156.      *arg[0]~arg[1] is used for linearprob
  157.      *arg[2]~arg[3] is used for quadprob
  158.      *arg[4]~arg[7] is for dbhashprob since it has two assist hash functions*/ 
  159. #define ARG_IN_HASHFUNC 8 
  160.     size_t arg[ARG_IN_HASHFUNC]; 
  161.     void GeneArg(const HashFunc&); 
  162.     /*for quadprob*/ 
  163. #define START 1 
  164. #define END 5 
  165.     /*assist arguments ranged from [START, END] -- here can be changed*/ 
  166.     size_t c1, c2;  /*extra arguments used in quadprob function*/ 
  167. private
  168.     HashTable *pht; 
  169.     double **ColliMatrix;        //total counts of collision 
  170.     class MatDraw *pmd;        //picture pen 
  171.     static OAHashF hfTable[]; 
  172.     static size_t NumOfHashF; 
  173. }; 
  175. chainHash::ChHsh chainHash::hfTable[] = {&chainHash::remainder, 
  176.                                            &chainHash::multiplicate, 
  177.                                            &chainHash::univerhash}; 
  178. size_t chainHash::NumOfHashF = sizeof(chainHash::hfTable)/sizeof(chainHash::hfTable[0]); 
  180. openAddrHash::OAHashF openAddrHash::hfTable[] = {&openAddrHash::linearprob, 
  181.                                                 &openAddrHash::quadprob, 
  182.                                                 &openAddrHash::dbhashprob}; 
  183. size_t openAddrHash::NumOfHashF = sizeof(openAddrHash::hfTable)/ 
  184.     sizeof(openAddrHash::hfTable[0]); 
  186. int main(int argc, char *argv[]) 
  187.     srand(static_cast<unsigned>(time(NULL))); 
  188.     Hash *ph = new chainHash(KEY_SCALE,SLOTS_IN_CHAIN); 
  189.     ph->RunAndGetCollision(); 
  190.     ph->plot(); 
  191.     delete ph; 
  192.     ph = new openAddrHash(KEY_SCALE,SLOTS_IN_OPENADDR); 
  193.     ph->RunAndGetCollision(); 
  194.     ph->plot(); 
  195.     delete ph; 
  196.     system("pause"); 
  197.     return EXIT_SUCCESS; 
  199. Hash::Hash(const size_t &szKey, const size_t &slot) : szSet(szKey), 
  200.     approSlot(slot),nSlot(getClosePrime()) 
  201.     if(!(SrcSet = new size_t[szSet])) 
  202.     { 
  203.         cout<<"Fail to Allocate Memory!"<<endl; 
  204.         Exit(); 
  205.     } 
  206.     GeneRand(szSet); 
  208. inline void Hash::GeneRand(const size_t &nSize) 
  209.     for(size_t index = 0; index != nSize; index++) 
  210.         SrcSet[index] = static_cast<size_t>(rand()); 
  212. inline size_t Hash::getClosePrime() const 
  213.     size_t start = approSlot; 
  214.     for( ; ; ) 
  215.     { 
  216.         size_t index = 2, bound = sqrt(static_cast<double>(start)); 
  217.         for(; index <= bound; index++ ) 
  218.             if(start%index == 0) break
  219.         if(index > bound) break
  220.         else ++start; 
  221.     } 
  222.     return start; 
  224. chainHash::chainHash(const size_t &nSize, const size_t &slot) : Hash(nSize, slot) 
  225.     if( !(pht = new HashTable[nSlot]) || 
  226.         !(pcn = new ChainNode[nSize]) ||  
  227.         !(ColliMatrix = new double*[chainHash::NumOfHashF])) 
  228.     { 
  229.         cout<<"Fail to Allocate Memory!"<<endl; 
  230.         Exit(); 
  231.     } 
  232.     if(!(pmd = new MatDraw(nSlot))) 
  233.     { 
  234.         cout<<"Fail to start initialize matlab engine!"<<endl; 
  235.         Exit(); 
  236.     } 
  237.     for(size_t index = 0; index != chainHash::NumOfHashF; index++) 
  238.     { 
  239.         ColliMatrix[index] = new double[nSlot]; 
  240.         if(!ColliMatrix[index]) { 
  241.             cout<<"Fail to Allocate Memory!"<<endl; 
  242.             Exit(); 
  243.         } 
  244.         memset(ColliMatrix[index], 0, nSlot*sizeof(double)); 
  245.     } 
  246.     a = GeneFrom(1,nSlot-1); 
  247.     b = GeneFrom(0,nSlot-1); 
  248.     memset(pht, 0, nSlot*sizeof(HashTable)); 
  249.     memset(pcn, 0, nSize*sizeof(ChainNode)); 
  250.     for(size_t index = 0; index != szSet; index++) 
  251.         pcn[index].key = SrcSet[index]; 
  253. chainHash::~chainHash()  
  254.     if(pht) delete [] pht;  
  255.     if(pcn) delete [] pcn; 
  256.     if(pmd) delete pmd; 
  257.     for(size_t index = 0; index != chainHash::NumOfHashF; index++) 
  258.         delete [] ColliMatrix[index]; 
  259.     delete [] ColliMatrix; 
  261. void chainHash::getCorresIndex(const HashFunc &hf) 
  262. #ifdef __TEST__ 
  263.     ChHsh phf = hfTable[hf]; 
  264.     for(size_t iter = 0; iter != szSet; iter++) 
  265.         cout<<SrcSet[iter]<<' '<<(this->*phf)(SrcSet[iter])<<endl; 
  266.     cout<<endl; 
  267. #endif 
  269. void chainHash::InsertIntoHashTable(const HashFunc &hf) 
  270.     ChHsh phf = hfTable[hf]; 
  271.     size_t szLabel; 
  272.     for(size_t index = 0; index != szSet; index++) 
  273.     { 
  274.         szLabel = (this->*phf)(pcn[index].key); 
  275.         pcn[index].next = pht[szLabel].head; 
  276.         pht[szLabel].head = &pcn[index]; 
  277.         ++pht[szLabel].szCnt; 
  278.     } 
  280. void chainHash::IterEveryChain(const HashFunc &hf) const 
  281. #ifdef __TEST__ 
  282.     if(hf == chainHash::REMAIN) 
  283.         cout<<"Iterate the chain hashed by <remainder>"<<endl; 
  284.     else if(hf == chainHash::MULTI) 
  285.         cout<<"Iterate the chain hashed by <multiplicate>"<<endl; 
  286.     else if(hf == chainHash::UNIVER) 
  287.         cout<<"Iterate the chain hashed by <univerhash>"<<endl; 
  288.     else { 
  289.         cout<<"Wrong : Iterate the chain hashed by NULL function"<<endl; 
  290.         Exit(); 
  291.     } 
  292. #endif 
  293.     for(size_t index = 0; index != nSlot; index++) 
  294.     { 
  295.         size_t szCnt = pht[index].szCnt; 
  296.         *(ColliMatrix[static_cast<size_t>(hf)]+index) = szCnt; 
  297. #ifdef __TEST__ 
  298.         cout<<"the number of nodes in the chain : "<<szCnt 
  299.             <<'\t'<<"the node :"
  300.         for(ChainNode *p=pht[index].head; p != NULL; p = p->next) 
  301.             cout<<p->key<<"-->"
  302.         cout<<endl; 
  303. #endif 
  304.     } 
  306. void chainHash::RunAndGetCollision() 
  307.     size_t limit = sizeof(chainHash::hfTable)/sizeof(chainHash::hfTable[0]); 
  308.     for(size_t index = 0; index != limit; ++index) 
  309.     { 
  310.         getCorresIndex(static_cast<HashFunc>(index)); 
  311.         InsertIntoHashTable(static_cast<HashFunc>(index)); 
  312.         IterEveryChain(static_cast<HashFunc>(index)); 
  313.         memset(pht, 0, nSlot*sizeof(HashTable)); 
  314.         for(size_t ix = 0; ix != szSet; ix++) 
  315.             pcn[ix].next = NULL; 
  316. #ifdef __TEST__ 
  317.         for(size_t ix = 0; ix !=nSlot; ix++) 
  318.             cout<<*(ColliMatrix[index]+ix)<<' '
  319.         cout<<endl<<endl; 
  320. #endif 
  321.     } 
  323. void openAddrHash::GeneArg(const HashFunc &hf) 
  324.     size_t start, end; 
  325.     switch(hf) { 
  326.     case openAddrHash::LINEAR: 
  327.         start = 0; end = 1+1; break
  328.     case openAddrHash::QUADRATIC: 
  329.         start = 2; end = 3+1; break
  330.     case openAddrHash::DBHASH: 
  331.         start = 4; end = 7+1; break
  332.     default
  333.         cout<<"Wrong : No existing hash function !"<<endl; 
  334.         Exit(); 
  335.     } 
  336.     for(size_t index = start; index != end; index += 2) 
  337.     { 
  338.         arg[index] = GeneFrom(1, nSlot-1); 
  339.         arg[index+1] = GeneFrom(0, nSlot-1); 
  340.     } 
  342. openAddrHash::openAddrHash(const size_t &nSize, const size_t &slot) : Hash(nSize, slot) 
  343.     if(!(pht = new HashTable[nSlot]) || 
  344.         !(ColliMatrix = new double*[openAddrHash::NumOfHashF]) ) 
  345.     { 
  346.         cout<<"Fail to Allocate Memory!"<<endl; 
  347.         Exit(); 
  348.     } 
  349.     if(!(pmd = new MatDraw(COUNT_OF_EXECUTE))) 
  350.     { 
  351.         cout<<"Fail to start initialize matlab engine!"<<endl; 
  352.         Exit(); 
  353.     } 
  354.     for(size_t index = 0; index != openAddrHash::NumOfHashF; index++) 
  355.     { 
  356.         if(!(ColliMatrix[index] = new double[COUNT_OF_EXECUTE])) 
  357.         { 
  358.             cout<<"Fail to Allcate Memory!"<<endl; 
  359.             Exit(); 
  360.         } 
  361.         memset(ColliMatrix[index], 0, COUNT_OF_EXECUTE*sizeof(double)); 
  362.     } 
  363.     memset(pht, 0, nSlot*sizeof(HashTable)); 
  364.     for(size_t index = 0; index != openAddrHash::NumOfHashF; index++) 
  365.         GeneArg(static_cast<HashFunc>(index)); 
  366.     c1 = GeneFrom(START, END); 
  367.     c2 = GeneFrom(START, END); 
  369. openAddrHash::~openAddrHash() 
  370.     if(pht) delete [] pht; 
  371.     if(pmd) delete pmd; 
  372.     for(size_t index = 0; index != openAddrHash::NumOfHashF; index++) 
  373.         delete [] ColliMatrix[index]; 
  374.     delete [] ColliMatrix; 
  376. void openAddrHash::getCorresIndex(const HashFunc &hf) throw(exception) 
  377. #ifdef __TEST__ 
  378.     printInfo(hf); 
  379. #endif 
  380.     OAHashF pOpenAddrHf = hfTable[hf]; 
  381.     size_t szLabel, ix; 
  382.     for(size_t index = 0; index != szSet; index++) 
  383.     { 
  384.         for(ix = 0; ix != nSlot; ix++) 
  385.         { 
  386.             szLabel = (this->*pOpenAddrHf)(SrcSet[index], ix); 
  387.             ++pht[szLabel].szCnt; 
  388. #ifdef __TEST__ 
  389.             cout<<SrcSet[index]<<'\t'<<szLabel<<endl; 
  390. #endif 
  391.             if(!pht[szLabel].IsNotEmpty) { 
  392.                 pht[szLabel].IsNotEmpty = true
  393.                 break
  394.             } 
  395.         } 
  396.         if(ix == nSlot) 
  397.             throw exception("hash Failure, restart ...\n"); 
  398.     } 
  399. #ifdef __TEST__ 
  400.     for(size_t index = 0; index != nSlot; index++) 
  401.         cout<<"Slot : "<<index<<"\tCounts of Collision : "<<pht[index].szCnt<<endl; 
  402. #endif 
  404. void openAddrHash::RunAndGetCollision() 
  405.     size_t totalCollision, totalKeyInHashTable; 
  406.     for(size_t index = 0; index != COUNT_OF_EXECUTE; index++) 
  407.     { 
  408.         for(size_t ix = 0; ix != openAddrHash::NumOfHashF; ix++) 
  409.         { 
  410.             try
  411.                 memset(pht, 0, nSlot*sizeof(HashTable)); 
  412.                 totalCollision = totalKeyInHashTable = 0; 
  413.                 getCorresIndex(static_cast<HashFunc>(ix)); 
  414.                 for(size_t j = 0; j != nSlot; j++) 
  415.                     totalCollision += pht[j].szCnt; 
  416.             } catch(exception &e) { 
  417.                 cout<<e.what(); 
  418.                 GeneArg(static_cast<HashFunc>(ix)); 
  419.                 --ix; continue
  420.             } 
  421.             ColliMatrix[ix][index] = totalCollision; 
  422.         } 
  423.         cout<<index<<" test has been finished!"<<endl; 
  424.         GeneRand(szSet);        //Regenerate source set & continue to test 
  425.     } 
  426. #ifdef __TEST__ 
  427.     for(size_t index = 0; index != openAddrHash::NumOfHashF; index++) 
  428.     { 
  429.         for(size_t ix = 0; ix != COUNT_OF_EXECUTE; ix++) 
  430.             cout<<ColliMatrix[index][ix]<<' '
  431.         cout<<endl; 
  432.     } 
  433. #endif 
  435. void openAddrHash::printInfo(const HashFunc &hf) 
  436.     cout<<"hash' & hash'' assist hash function --->" 
  437.         " (a*key+b) mod m, here m="<<nSlot<<endl; 
  438.     switch(hf) { 
  439.     case openAddrHash::LINEAR: 
  440.         cout<<"Linear Probing : \n"<<"a1="<<arg[0]<<"\tb1="<<arg[1]<<'\n'
  441.         cout<<"hash(key,i)=(hash'(key)+i) mod m"<<endl; 
  442.         break
  443.     case openAddrHash::QUADRATIC: 
  444.         cout<<"Quadratic Probing : \n"<<"a1="<<arg[2]<<"\tb1="<<arg[3]<<'\n'
  445.         cout<<"c1="<<c1<<"\tc2="<<c2<<'\n'
  446.         cout<<"hash(key,i)=(hash'(key)+c1*i+c2*i*i) mod m"<<endl; 
  447.         break
  448.     case openAddrHash::DBHASH: 
  449.         cout<<"DoubleHash Probing : \n"<<"a1="<<arg[4]<<"\tb1="<<arg[5]<<'\n'
  450.         cout<<"a2="<<arg[6]<<"\tb2="<<arg[7]<<'\n'
  451.         cout<<"hash(key,i)=(hash'(key)+i*hash''(key)) mod m"<<endl; 
  452.         break
  453.     default
  454.         cout<<"Wrong : There has no More Hash Function!"<<endl; 
  455.         Exit(); 
  456.     } 
  458. MatDraw::MatDraw(const mwSize &n_Length) : ArrLength(n_Length) 
  459.     double * InitForXOrder = new double[n_Length]; 
  460.     /*start matlab engine*/ 
  461.     if(!(ep = engOpen(NULL))) { 
  462.         cout<<"Fail to start Matlab!"<<endl; 
  463.         exit(0); 
  464.     } 
  465.     engSetVisible(ep, false);        /*hide the main window*/ 
  466.     /*create maxtrix as a variable*/ 
  467.     if(!(paForXOrder = mxCreateDoubleMatrix(1, n_Length, mxREAL)) || 
  468.         !(paForYOrder = mxCreateDoubleMatrix(1, n_Length, mxREAL))) 
  469.     { 
  470.         cout<<"Fail to create matrix!"<<endl; 
  471.         exit(0); 
  472.     } 
  473.     for(size_t index = 0; index != n_Length; index++) 
  474.         InitForXOrder[index] = index; 
  475.     /*copy InitForXOrder to mxArrary*/ 
  476.     memmove(mxGetPr(paForXOrder), InitForXOrder, ArrLength*sizeof(double)); 
  477.     /*write mxArray into matlab workerspace*/ 
  478.     engPutVariable(ep, "paForXOrder", paForXOrder); 
  479.     delete InitForXOrder; 
  481. /*RowsOfMatrix from [0,8)*/ 
  482. void MatDraw::mdPlot(double **pd, const size_t &RowsOfMatrix) 
  483.     char temp[1024]; 
  484.     string EvalStr("title('collision statistics');"), colStr("rgbykmc"); 
  485.     sprintf(temp, "xlabel('x=[0 : %d]');", ArrLength); 
  486.     EvalStr += string(temp); 
  487.     EvalStr += string("ylabel('the count ofs collision');"); 
  488.     EvalStr += string("hold on;"); 
  489.     for(size_t index = 0; index != RowsOfMatrix; index++) 
  490.     { 
  491.         memmove(mxGetPr(paForYOrder), pd[index],  
  492.             ArrLength*sizeof(double)); 
  493.         engPutVariable(ep, "paForYOrder", paForYOrder); 
  494.         EvalStr += string("plot(paForXOrder,paForYOrder,\'"
  495.             +colStr[index]+string("*-\');"); 
  496.         engEvalString(ep, EvalStr.c_str()); 
  497.         EvalStr.clear(); 
  498.     } 
  1. 右击解决方案 --> 打开属性窗口 --> 点击"VC++目录"选项卡。
  2. 在“包含目录”选项中添加头文件目录,如“d:\Program Files\MATLAB\R2009a\extern\include;”。
  3. 在“库目录”中添加库文件目录,如”d:\Program Files\MATLAB\R2009a\extern\lib\win32\microsoft;“。
  4. 最后选中”链接器“ --> "输入"选项卡,在”附加依赖项“中添加添加如下库"libeng.lib;libmx.lib;libmex.lib;"。

上述最后一步也可以换成在源代码中添加预处理指令,格式如#pragma comment(lib,"libeng.lib"),将上述三个库显式命令链接器加载。




散列表这种数据结构仅仅只是散列函数一个较为简单的应用。试想一下散列函数将输入映射为某个输出,既然可以将该输出解释为所要寻址的槽,那么自然也可以具有其他的解释,一个具有重大意义的应用领域即为密码学。这里简单提一下王小云教授MD5所采用的破解方式,准确来说她所采用的方法不叫破解,而是构造了一种能够快速产生碰撞的方法,即给出一个p1,通过该方法可以很快算出一个不等于p1的p2使得 MD5(p1)=MD5(p2),根据这一点就足以把MD5枪毙掉了。这种方法并不意味着能根据MD5的Hash函数反算出明文来,亦即这是一种单向加密函数——不存在逆函数可以将密文重新变为明文。最后要提的一点是,现有的加密方式也就那么几种,并且数据/字符所组合而成的输入也是有限的,那么自然可以通过穷举所有输入,并且根据现有的散列函数预先计算出所有的输出用以加速破解,详细见彩虹表

