redis6.0.5之lzf阅读笔记2--压缩

********************************************************************************************************************
#include "lzfP.h"

#define HSIZE (1 << (HLOG))
********************************************************************************************************************
/*
 * don't play with this unless you benchmark!
 * the data format is not dependent on the hash function.
 * the hash function might seem strange, just believe me,
 * it works ;)
不要修改这个,除非你做基准测试。这个数据格式不是依赖于hash函数。
hash函数看山去会比较奇怪,但是相信我,它能工作!
 */
#ifndef FRST
# define FRST(p) (((p[0]) << 8) | p[1])
# define NEXT(v,p) (((v) << 8) | p[2])
# if ULTRA_FAST
#  define IDX(h) ((( h             >> (3*8 - HLOG)) - h  ) & (HSIZE - 1))
# elif VERY_FAST
#  define IDX(h) ((( h             >> (3*8 - HLOG)) - h*5) & (HSIZE - 1))
# else
#  define IDX(h) ((((h ^ (h << 5)) >> (3*8 - HLOG)) - h*5) & (HSIZE - 1))
# endif
#endif
/*
 * IDX works because it is very similar to a multiplicative hash, e.g.
 * ((h * 57321 >> (3*8 - HLOG)) & (HSIZE - 1))
 * the latter is also quite fast on newer CPUs, and compresses similarly.
 *
 * the next one is also quite good, albeit slow ;)
 * (int)(cos(h & 0xffffff) * 1e6)
 */

#if 0   不想用的代码
/* original lzv-like hash function, much worse and thus slower */
原始的类lzv哈希行数,更差,因此更慢(这里就不用了)
# define FRST(p) (p[0] << 5) ^ p[1]
# define NEXT(v,p) ((v) << 5) ^ p[2]
# define IDX(h) ((h) & (HSIZE - 1))
#endif

#define        MAX_LIT        (1 <<  5)
#define        MAX_OFF        (1 << 13)
#define        MAX_REF        ((1 << 8) + (1 << 3))

#if __GNUC__ >= 3     GCC3.0以上
# define expect(expr,value)         __builtin_expect ((expr),(value))  用于优化编译后的代码
# define inline                     inline
#else
# define expect(expr,value)         (expr)
# define inline                     static
#endif

#define expect_false(expr) expect ((expr) != 0, 0)
#define expect_true(expr)  expect ((expr) != 0, 1)

/*
 * compressed format  压缩格式
 *
 * 000LLLLL <L+1>    ; literal, L+1=1..33 octets  
 不压缩的格式,最长可以表示32个不压缩字节,这里33应该为笔误
 * LLLooooo oooooooo ; backref L+2=3..8 octets, o+1=1..4096 offset 
 压缩格式,短序列重复 这里4096也不对,应该为8192,
 对于一个字符的重复不压缩,又因为LLL不能为0,否则会和不压缩的格式混淆,所以取值为1到6,加上2 ,也就是从3到8
 因为如果只是压缩两个字节,没有任何意义,用原字符表示也只需两个字节,没有减少长度
 * 111ooooo LLLLLLLL oooooooo ; backref L+9 octets, o+1=1..4096 offset 
 压缩格式, 长序列重复, 这里也是8192, 这里从9开始,因为短的(2到8)在上面已经包括了,最长为 2^8-1 + 9 = 263字节
 *
 */
********************************************************************************************************************
unsigned int
lzf_compress (const void *const in_data, unsigned int in_len,
          void *out_data, unsigned int out_len
#if LZF_STATE_ARG
              , LZF_STATE htab
#endif
              )
{
#if !LZF_STATE_ARG
  LZF_STATE htab;
#endif
  const u8 *ip = (const u8 *)in_data;  初始化指向数据的指针
        u8 *op = (u8 *)out_data;  指向输出数据开始的指针
  const u8 *in_end  = ip + in_len;  指向输入数据的结尾
        u8 *out_end = op + out_len; 指向输出数据的结尾
  const u8 *ref;

  /* off requires a type wide enough to hold a general pointer difference.
  off需要一个足够宽的类型来保存一个不同的指针
   * ISO C doesn't have that (size_t might not be enough and ptrdiff_t only
   * works for differences within a single object). We also assume that no
   * no bit pattern traps. Since the only platform that is both non-POSIX
   * and fails to support both assumptions is windows 64 bit, we make a
   * special workaround for it.
ISO C 没有这样的类型(size_t可能大小,ptrdiff_t只是对单一对象的差值),
我们假定没有位模式陷阱。 因此唯一一个既不支持POSIX模式也不支持上述两种假设的平台是64位的windows,
所以我们为它采用了一个特殊的解决方案
   */
#if defined (WIN32) && defined (_M_X64)   64位的windos平台
  unsigned _int64 off; /* workaround for missing POSIX compliance */  不兼容POSIX的解决方案
#else
  unsigned long off;
#endif
  unsigned int hval;
  int lit;

  if (!in_len || !out_len)  没有输入或输出,直接退出
    return 0;

#if INIT_HTAB
  memset (htab, 0, sizeof (htab));  
  -- 初始化hash表,这里sizeof (htab)的大小为2^16 * 4   sizeof(unsigned int) = 4 个字节
  -- typedef unsigned int LZF_HSLOT; typedef LZF_HSLOT LZF_STATE[1 << (HLOG)];  HLOG = 16
#endif

  lit = 0; op++; /* start run */

  hval = FRST (ip);  获取前面的2个字节的数据
  while (ip < in_end - 2)  如果指针ip指向比结尾少2个字节位置,则循环继续,这两个字节就是上面一开始就获取的hval
    {
      LZF_HSLOT *hslot;  

      hval = NEXT (hval, ip); 获取接下来的第三个字节,三个字节组成一个数
      hslot = htab + IDX (hval);  定位到hash表的槽
      
      ref = *hslot + LZF_HSLOT_BIAS;  
      指向引用的连续两个同样字符的位置,刚开始的时候为空,即*hslot中的值为0,ref指向传入数据开始位置
      
      *hslot = ip - LZF_HSLOT_BIAS;  
      赋值新的字符串hash值的位置 给 hash表中对应槽的内容,这样下一次再进来的时候ref指向就有值了

      if (1
#if INIT_HTAB
          && ref < ip /* the next test will actually take care of this, but this is faster */ 
          下一个测试会实际的解决这个问题,但是这个更快
#endif
          && (off = ip - ref - 1) < MAX_OFF
          && ref > (u8 *)in_data   因为初始化的时候全部是这个初始值,这个判断表示是初始值,不用进行下一步对比
          && ref[2] == ip[2]
#if STRICT_ALIGN
          && ((ref[1] << 8) | ref[0]) == ((ip[1] << 8) | ip[0])
#else
          && *(u16 *)ref == *(u16 *)ip
#endif
        )
        {
          /* match found at *ref++ */  在*ref++找到匹配项
          unsigned int len = 2;
          unsigned int maxlen = in_end - ip - len;
          maxlen = maxlen > MAX_REF ? MAX_REF : maxlen;  

          if (expect_false (op + 3 + 1 >= out_end)) /* first a faster conservative test */ 首先是更快的保守测试
            if (op - !lit + 3 + 1 >= out_end) /* second the exact but rare test */ 期次是精确而稀少的测试
              return 0;

          op [- lit - 1] = lit - 1; /* stop run */ 有新的匹配,需要将之前的非压缩字符保存起来
          op -= !lit; /* undo run if length is zero */ 如果非压缩字符长度为0,那么就回退一个字节,长度为0不需要记录

          for (;;) 开始对匹配的长度进行统计
            {
              if (expect_true (maxlen > 16))
                {
                  len++; if (ref [len] != ip [len]) break; 
                  因为匹配的长度至少为3,所以先加1到3,在进行比较下一个
                  
                  len++; if (ref [len] != ip [len]) break;
                  len++; if (ref [len] != ip [len]) break;
                  len++; if (ref [len] != ip [len]) break;

                  len++; if (ref [len] != ip [len]) break;
                  len++; if (ref [len] != ip [len]) break;
                  len++; if (ref [len] != ip [len]) break;
                  len++; if (ref [len] != ip [len]) break;

                  len++; if (ref [len] != ip [len]) break;
                  len++; if (ref [len] != ip [len]) break;
                  len++; if (ref [len] != ip [len]) break;
                  len++; if (ref [len] != ip [len]) break;

                  len++; if (ref [len] != ip [len]) break;
                  len++; if (ref [len] != ip [len]) break;
                  len++; if (ref [len] != ip [len]) break;
                  len++; if (ref [len] != ip [len]) break;
                }

              do
                len++;  因为匹配的长度至少为3,所以先加1到3,在进行比较下一个,直到不相等为止
              while (len < maxlen && ref[len] == ip[len]);

              break;
            }

          len -= 2; /* len is now #octets - 1 */  这里的长度为实际字节数减2
          ip++;  指向相等开始的下一个字符

          if (len < 7)  长度小于7,那么使用第一种压缩格式
            {
              *op++ = (off >> 8) + (len << 5);  这里表示将偏移量向后移动8位,保留前面几位,最高三位表示长度
            }
          else
            {
              *op++ = (off >> 8) + (  7 << 5); 
              这里的7 << 5 就是将最高三位设置为111,标志是长序列重复压缩,将偏移量的高位设置和标志在同一字节
              *op++ = len - 7;  将长度再减去7,进行保存(所以总的长度应该加上9)
            }

          *op++ = off;  将off低字节的值赋给下一个输出字节

          lit = 0; op++; /* start run */ 开启下一段的压缩

          ip += len + 1; 这里需要加上实际的长度,因为前面已经ip++了,所以  即只需要加 len+1 即可

          if (expect_false (ip >= in_end - 2))   (ip >= in_end - 2)  为假的概率高,所以用expect_false,提高程序效率
            break;
            
#if ULTRA_FAST || VERY_FAST 如果是超级快或者非常快,那么向后回退一格
          --ip;
# if VERY_FAST && !ULTRA_FAST  如果是非常快但不是超级快,再向后回退一格
          --ip;
# endif
这里目的是记录不同的字符的hash值,跳过就记录的少一点,超级快和非常快只差一格
所以超级快只有一个hash值,回退了一个字符
          hval = FRST (ip); 

          hval = NEXT (hval, ip);
          htab[IDX (hval)] = ip - LZF_HSLOT_BIAS;
          ip++;  加一个回去

# if VERY_FAST && !ULTRA_FAST  
但是非常快回退了两个字符,需要再记录一个hash值
          hval = NEXT (hval, ip);
          htab[IDX (hval)] = ip - LZF_HSLOT_BIAS;
          ip++;  再加一个回去,指向原先压缩之后的第一个字符
# endif
#else
    平常情况,需要把这一路上的hash值全部记录下来,这样能压缩的会更多
          ip -= len + 1;            
          do
            {
              hval = NEXT (hval, ip);
              htab[IDX (hval)] = ip - LZF_HSLOT_BIAS;
              ip++;
            }
          while (len--);
#endif
        }
      else
        {
          /* one more literal byte we must copy */ 我们必须再复制一个文本字节,输出第一个字节是用来表示原文标志的000LLLLL
          if (expect_false (op >= out_end)) 当超出输出结尾长度时,退出, (大部分情况下是假的)
            return 0;

          lit++; *op++ = *ip++;   刚开始的时候,肯定没有相等的,所以lit(原字节)加1, 输出采用原来字节

          if (expect_false (lit == MAX_LIT))  如果原字节的长度已经超过定义的最大长度32,那么结束这段序列,开始下一段
            {
              op [- lit - 1] = lit - 1; /* stop run */  
              负指针,向后回退lit个字节,-1是当前位置,再向前回退lit个字节,然后在这个位置写上长度值
              lit = 0; op++; /* start run */开始新的一段
            }
        }
    }
  此处最多可缺少3个字节没有被处理,否则压缩结果长度超出太多,表示输出的缓存不够大
  if (op + 3 > out_end) /* at most 3 bytes can be missing here */   
    return 0;

  while (ip < in_end)
    {
      lit++; *op++ = *ip++; 挨个往后赋值,从ip赋值给op,lit计数

      if (expect_false (lit == MAX_LIT)) 如果到最大计数,那么重新再来
        {
          op [- lit - 1] = lit - 1; /* stop run */
          lit = 0; op++; /* start run */
        }
    }

  op [- lit - 1] = lit - 1; /* end run */ 结束最后的非压缩段
  op -= !lit; /* undo run if length is zero */ 长度为0就撤销

  return op - (u8 *)out_data; 返回最后压缩的长度
}
*********************************************************************************************************************
花了3天的时间熟悉这个lzf算法,因为给出的网页(http://liblzf.plan9.de/)不能访问,所以主要根据代码debug来验证所想
前面的部分程序说明是过时或有笔误的,特别是对压缩格式的说明,先重新说明如下:
LZF压缩格式分为三种:
1原文表示
前面的000表示压缩格式,000是指原文,LLLLL表示原文的长度,这里默认需要加1
000LLLLL <L+1>    ; literal, L+1=1..33 octets  
不压缩的格式,最长可以表示32个不压缩字节,这里33应该为笔误
 
2短序列重复
这种格式是对于短序列的重复,为什么要设置这种格式,因为实际中短序列重复是比较多的,
如果也和长序列重复一样采用三个字节代价太高,所以这里采用了两个字节的压缩方式。
前面的三位LLL表示长度,后面是原字节的偏移量,就是当前位置和原字符串所在的位置的差值
 * LLLooooo oooooooo ; backref L+2=3..8 octets, o+1=1..4096 offset 
这里4096也估计也不对,应该为8192,
 对于一个字符的重复不压缩,又因为LLL不能为0,原文格式已经占用,也不能为111,因为111是长序列格式,
所以取值为1到6,加上2 ,也就是从3到8
 
这里需要说明 :因为如果只是压缩两个字节,没有任何意义,用原字符表示也只需两个字节,没有减少长度,
所以压缩的长度至少从3开始
 
3长序列重复(超过8个字节重复) 
111是长序列压缩的格式,后面5位和下下个字节一起组成偏移量,长度的则在下一个字节
111ooooo LLLLLLLL oooooooo ; backref L+9 octets, o+1=1..4096 offset 
压缩格式, 长序列重复, 这里也是8192, 
这里从9开始,因为短的(2到8)在上面已经包括了,最长为 2^8-1 + 9 = 264字节


整体的核心算法如下:

根据输入的数据,按每3个字节进行对比,如果后续的3个字节和前面的3个字节出现重复(3个字节是最短的有利于压缩的长度),
那么就可以继续对比第4个字节,依次往下,直到不等为止。
这部分数据就可以用前面的数据来表示(需要记录从哪里开始,长度是多少,这两个关键要素),
对于不重复的数据,那么需要将其原本记录下来,供后面输入的数据进行对比使用。

那么如何判别是否出现过重复的数据: 这里使用了一个3字节的hash映射,如果出现同样的三字节,那么映射值也必相等,
就可以从这个HASH映射中获取前面出现过的数据进行记录。 当然这里hash映射值会进行动态的调整,总是最近的一个引用值。
这个保证了引用的总是举例自己最近的重复数据
具体说明见源码解释。

*********************************************************************************************************************
********************lzf.h*************************************************************************************************
#include "lzfP.h"

#if AVOID_ERRNO
# define SET_ERRNO(n)
#else
# include <errno.h>
# define SET_ERRNO(n) errno = (n)
#endif

#if USE_REP_MOVSB /* small win on amd, big loss on intel */
#if (__i386 || __amd64) && __GNUC__ >= 3
# define lzf_movsb(dst, src, len)                \
   asm ("rep movsb"                              \
        : "=D" (dst), "=S" (src), "=c" (len)     \
        :  "0" (dst),  "1" (src),  "2" (len));
#endif
#endif

#if defined(__GNUC__) && __GNUC__ >= 5
#pragma GCC diagnostic push
#pragma GCC diagnostic ignored "-Wimplicit-fallthrough"
#endif
unsigned int
lzf_decompress (const void *const in_data,  unsigned int in_len,
                void             *out_data, unsigned int out_len)
{
  u8 const *ip = (const u8 *)in_data;  输入数据开始位置
  u8       *op = (u8 *)out_data;   输出数据开始位置
  u8 const *const in_end  = ip + in_len;  输入数据结束位置
  u8       *const out_end = op + out_len;  输出缓冲区结束位置

  do
    {
      unsigned int ctrl = *ip++; 获取标志位

      if (ctrl < (1 << 5)) /* literal run */ 原文表示,因为值小于2^5,所以是原文表示
        {
          ctrl++; 长度加1
 
          if (op + ctrl > out_end) 是否超过缓冲区
            {
              SET_ERRNO (E2BIG); 提示错误
              return 0;
            }

#if CHECK_INPUT
          if (ip + ctrl > in_end)  如果当前位置加上将要解压的长度超过 输入的缓冲区,说明出错
            {
              SET_ERRNO (EINVAL);
              return 0;
            }
#endif

#ifdef lzf_movsb  如果定义了更快的拷贝方法,就使用更快的方法
          lzf_movsb (op, ip, ctrl);
#else
          switch (ctrl) 挨个拷贝原文字符串
            {
              case 32: *op++ = *ip++; case 31: *op++ = *ip++; case 30: *op++ = *ip++; case 29: *op++ = *ip++;
              case 28: *op++ = *ip++; case 27: *op++ = *ip++; case 26: *op++ = *ip++; case 25: *op++ = *ip++;
              case 24: *op++ = *ip++; case 23: *op++ = *ip++; case 22: *op++ = *ip++; case 21: *op++ = *ip++;
              case 20: *op++ = *ip++; case 19: *op++ = *ip++; case 18: *op++ = *ip++; case 17: *op++ = *ip++;
              case 16: *op++ = *ip++; case 15: *op++ = *ip++; case 14: *op++ = *ip++; case 13: *op++ = *ip++;
              case 12: *op++ = *ip++; case 11: *op++ = *ip++; case 10: *op++ = *ip++; case  9: *op++ = *ip++;
              case  8: *op++ = *ip++; case  7: *op++ = *ip++; case  6: *op++ = *ip++; case  5: *op++ = *ip++;
              case  4: *op++ = *ip++; case  3: *op++ = *ip++; case  2: *op++ = *ip++; case  1: *op++ = *ip++;
            }
#endif
        }
      else /* back reference */ 非原文字符,需要根据偏移量和长度来拷贝
        {
          unsigned int len = ctrl >> 5;  首先获取长度或者控制字符

          u8 *ref = op - ((ctrl & 0x1f) << 8) - 1;  偏移量的高5位 再减去1,进行回退(真正的偏移量还差低字节)

#if CHECK_INPUT
          if (ip >= in_end) 如果已经到或者超过结束了,那么解压出错
            {
              SET_ERRNO (EINVAL);
              return 0;
            }
#endif
          if (len == 7) 如果是长序列压缩  7就是111就是长序列
            {
              len += *ip++;  下一个字节就是长度
#if CHECK_INPUT
              if (ip >= in_end) 
                {
                  SET_ERRNO (EINVAL);
                  return 0;
                }
#endif
            }

          ref -= *ip++; 低字节的偏移量也要回退

          if (op + len + 2 > out_end)  当前位置加解压长度加2超过 输出缓冲区结尾,解压出错
            {
              SET_ERRNO (E2BIG);
              return 0;
            }

          if (ref < (u8 *)out_data)  如果引用值小于原字符序列开始值,解压也出错
            {
              SET_ERRNO (EINVAL);
              return 0;
            }

#ifdef lzf_movsb
          len += 2;  长度值需要加2
          lzf_movsb (op, ref, len);
#else
          switch (len)
            {
              default:
                len += 2;

                if (op >= ref + len)
                如果当前操作符所在位置大于  引用值 + 当前解压长度 所在位置,
                那么表示前面重复的数据已经全部解压出来,否则就有重叠的数据还没有解压出来,需要挨个解压
                  {
                    /* disjunct areas */ 分开区域 即 不重合区域
                    memcpy (op, ref, len); 直接拷贝即可
                    op += len;
                  }
                else
                  {
                  重合区域,一个字节一个字节的拷贝,就是压缩的时候引用了自身,例如
                  a123123123123abc,这里123123123就会被自身引用,导致数据
                    /* overlapping, use octte by octte copying */ 
                    do
                      *op++ = *ref++; 
                    while (--len);
                  }

                break;

              case 9: *op++ = *ref++; /* fall-thru */  依次 下降拷贝
              case 8: *op++ = *ref++; /* fall-thru */
              case 7: *op++ = *ref++; /* fall-thru */
              case 6: *op++ = *ref++; /* fall-thru */
              case 5: *op++ = *ref++; /* fall-thru */
              case 4: *op++ = *ref++; /* fall-thru */
              case 3: *op++ = *ref++; /* fall-thru */
              case 2: *op++ = *ref++; /* fall-thru */
              case 1: *op++ = *ref++; /* fall-thru */
              case 0: *op++ = *ref++; /* two octets more */  这里的两个字节就是加2的效果
                      *op++ = *ref++; /* fall-thru */
            }
#endif
        }
    }
  while (ip < in_end);  

  return op - (u8 *)out_data;
}
#if defined(__GNUC__) && __GNUC__ >= 5
#pragma GCC diagnostic pop
#endif
*********************************************************************************************************************

 

上一篇:洛谷7月月赛 B 题解


下一篇:数据库-03