(萌O(∩_∩)O)哈希知识点小结

噶呜~先来了解一下什么是哈希吧?

当我们要在一堆东西中找到想要的那一个东西,我们常常通过比较来找,理想的情况是不经过任何比较,一次就能找到,怎么才能做到这样呢?那就在记录的储存位置和他的关键字之间建立一个确定的对应关系,我们称这种对应关系为哈希函数~小盆友们应该对哈希有了一个初步的印象了吧?其实,哈希函数就是一个映像,设定很灵活,只要使任何关键字由这个哈希函数所得的哈希函数值都落在一定范围内即可。当然,不同的关键字可能得到同一哈希地址,这就出现了所谓的冲突,至于怎么解决这种冲突,稍后就会了解到。

如何构造哈希函数呢?

1.直接定址法:取关键字或关键字的某个线性函数值为哈希地址,这种方法所得的地址集合和关键自己和大小相同,因此,对不同的关键字不会发生冲突,但实际应用中使用很少。

2.除法散列法最直观的一种,公式:index = value % 16,学过汇编的都知道,求模数其实是通过一个除法运算得到的,所以叫“除法散列法”。

3.平方散列法求index是非常频繁的操作,而乘法的运算要比除法来得省时(对现在的CPU来说,估计我们感觉不出来),所以我们考虑把除法换成乘法和一个位移操作。公式:index = (value * value) >> 28   右移,除以2^28。记法:左移变大,是乘。右移变小,是除。如果数值分配比较均匀的话这种方法能得到不错的结果,但我上面画的那个图的各个元素的值算出来的index都 是0——非常失败。也许你 还有个问题,value如果很大,value * value不会溢出吗?答案是会的,但我们这个乘法不关心溢出,因为我们根本不是为了获取相乘结果,而是为了获取index。

4.斐波那契(Fibonacci)散列法,平方散列法的缺点是显而易见的,所以我们能不能找出一个理想的乘数,而不是拿value本身当作乘数呢?答案是肯定的。

1,对于16位整数而言,这个乘数是40503

2,对于32位整数而言,这个乘数是2654435769

3,对于64位整数而言,这个乘数是11400714819323198485

这几个“理想乘数”是如何得出来的呢?这跟一个法则有关,叫黄金分割法则,而描述黄金分割法则的最经典表达式无疑就是著名的斐波那契数列,即如此形 式的序列:0, 1, 1, 2, 3, 5, 8, 13, 21, 34, 55, 89, 144,233, 377, 610, 987, 1597, 2584, 4181, 6765, 10946,…。另外,斐波那契数列的值和太阳系八大行星的轨道半径的比例出奇吻合。对我们常见的32位整数而言,公式:index = (value * 2654435769) >> 28.

暂时就写这么多了,有不足的还望各位大神多多补充~!

处理冲突的方法:

(1)线性再散列法,简单的按顺序遍历hash表,寻找下一个可用的槽;

(2)非线性再散列法,计算一个新的hash值;

(3)链地址法。

前两种看文字小盆友们应该都能明白了吧?重点讲讲第三种链地址法:

链地址法解决冲突的做法是:如果哈希表空间为 0 ~ m - 1 ,设置一个由 m 个指针分量组成的一维数组 ST[ m ], 凡哈希地址为 i 的数据元素都插入到头指针为 ST[ i ] 的链表中。这种方法有点近似于邻接表的基本思想,且这种方法适合于冲突比较严重的情况。

例: 设有 8 个元素 { a,b,c,d,e,f,g,h } ,采用某种哈希函数得到的地址分别为: {0 , 2 , 4 , 1 , 0 , 8 , 7 , 2} ,当哈希表长度为 10 时,采用链地址法解决冲突的哈希表如下图所示。

(萌O(∩_∩)O)哈希知识点小结

大家发现萌点所在了吗?orz~~只是小小总结一下,还有很多不足,多多包涵

上一篇:hadoop进不去web界面


下一篇:CCF系列之最优灌溉(201412-4)