hash也称“散列”, 是一种基于映射关系的存储方式,将任意长度的二进制值输出为固定长度的较小的二进制值,这种输出的小的固定长度的值为hash值;
1. 散列技术是在关键字key与存储位置之间建立对应的关系,计算得到存储们置,建立这种关系的函数就是散列函数f,存储位置为f(key);
2. 每个关键字对应唯一的存储位置,在查找时,根据定值key和对应的关系映射函数f,就可以很快的在集合中找到存储位置f(key);
hash表也称“散列表”,是一张映射表,将一组关键字key根据设定的hash函数f和处理碰撞的方法映射到一个有限的连续的地址集合上,并以关键字在地址集中的“像”作为记录在表中的存储位置;这种映射过程称为“散列”,得到的存储地址称为“散列地址”;
1. 根据关键字key直接找到存储位置的数据结构,查找速度快;
2. 在散列表中,通常会遇到一种情况key1 != key2, 却可以得到f(key1) = f(key2), 这种现象称为碰撞也称冲突;在碰撞中,关键字key对该散列函数f来说称做同义词;
3. hash表是基于数组的,数组创建后难于扩展,当hash表被填满时,性能会下降,所以程序员在创建hash表时,必须清楚想要创建的数据的大小;
由以上可以看出,hash表存在两种情况:1. hash冲突,2. hash表溢出
处理hash冲突和溢出的方法有:
以下摘录自百度
1). di=1,2,3,…,m-1,称线性探测再散列;
2). di=1^2,(-1)^2,2^2,(-2)^2,(3)^2,…,±(k)^2,(k<=m/2)称二次探测再散列;
3). di=伪随机数序列,称伪随机探测再散列。
2. 再散列法:Hi=RHi(key),i=1,2,…,k RHi均是不同的散列函数,即在同义词产生地址冲突时计算另一个散列函数地址,直到冲突不再发生,这种方法不易产生“聚集”,但增加了计算时间。
3. 链地址法(拉链法)
4. 建立一个公共溢出区