[基础技能] 安全技术——哈希算法密码破解之彩虹表(Rainbow Table)学习

2022-02-24 08:34:16

1、基础知识

刚刚学习过数字签名的相关知识，以及数字签名的伪造技术，而伪造数字签名归根结底就是密码破解的一个过程，然而直接破解的速度是非常缓慢的，所以有人想出一种办法，直接建立出一个数据文件，里面事先记录了采用和目标采用同样算法计算后生成的Hash散列数值，在需要破解的时候直接调用这样的文件进行比对，破解效率就可以大幅度地，甚至成百近千近万倍地提高，这样事先构造的Hash散列数据文件在安全界被称之为Table。

其实简单理解就是使用一个大型数据字典来进行快速匹配暴力破解的方法，以空间来换取时间的方法。

具体的需要一些基础知识做支撑：

1、哈希算法

哈希（Hash）算法是单向散列算法，它把某个较大的集合P映射到另一个较小的集合Q中，假如这个算法叫H，那么就有Q = H（P）。对于P中任何一个值p都有唯一确定的q与之对应，但是一个q可以对应多个p。作为一个有用的Hash算法，H还应该满足：

H(p)速度比较快；给出一个q，很难算出一个p满足q = H(p)；即单向性。

给出一个p1，很难算出一个不等于p1的p2使得 H(p1)=H(p2)；强弱碰撞性。

正因为有这样的特性，Hash算法经常被用来保存密码————这样不会泄露密码明文，又可以校验输入的密码是否正确。常用的 Hash算法有MD5、SHA1等。

2、破解HASH

破解Hash的任务就是，对于给出的一个q，反算出一个p来满足q = H(p)。即直接采用碰撞的方法来打破它的强弱碰撞性。通常我们能想到的办法有两种：

1、暴力破解法，把P中的每一个p都算一下H(p)，直到结果等于q；

2、查表法，使用一个大型字典，把每个p和对应的q都记录下来，按q做一下索引，直接查找匹配。

两种办法理论上都是可以的，但是前一种需要大量时间，后一种需要大量存储。这种单纯的开销是很巨大的，所以目前我们认为Hash是足够安全的，十几位以上的密码也是强度足够的。

3、彩虹表时空的平衡

对于HASH的传统做法是把H(X)的所有输出穷举，查找H(X[y])==H(P)，得出P==X[y]。而彩虹表则是使用散列链的方式进行。

"散列链"是为了降低传统做法空间要求的技术，想法是定义一个衰减函数 R 把散列值变换成另一字符串。通过交替运算H函数和R函数，形成交替的密码和散列值链条。

2、详解

当面对要破解的哈希函数H，首先定义一个约简函数（reduction function）R，该函数的定义域和值域需要和哈希函数相反，通过该函数可以将哈希值约简为一个与原文相同格式的值（"plain text" value）。需要强调的是，由于哈希函数H是不可逆的，所以对于密文进行R运算几乎不可能得到明文原文。例如，五位字母明文“zhihu”进行H运算后得到了“D2A82C9A”，而对“D2A82C9A”进行R运算后得到另一个五位字母格式的值“vfkkd”。因为这个值落在H的定义域中，因此可以对它继续进行H运算。
就这样，将H运算、R运算、H运算……这个过程反复地重复下去，重复一个特定的次数 k 以后，就得到一条哈希链，例如k为2时得到：