Node.js躬行记（6）——自制短链系统

2022-09-25 14:28:33

　　短链顾名思义是一种很短的地址，应用广泛，例如页面中有一张二维码图片，包含的是一个原始地址（如下所示），如果二维码中的链接需要修改，那么就得发代码替换掉。

原始地址：https://github.com/pwstrick/daily
短链：http://t.cn/4fYKXF

　　但如果二维码图包含的是一条短链，那么只要修改短链中的映射关系，就能不发代码了。当然了，前提是有一套短链系统维护着他们之间的关系，下图是列表和新增的界面。

　　前端界面的代码省略了，直接看短链用Node.js实现的后端代码。

一、MySQL

　　在 web_short_chain 表中，主键 id 是一个自增的整数，short 字段存储着短链中的 key，也就是 http://t.cn/4fYKXF 中的 4fYKXF 之类的数据，并且是全表唯一的，目前还未对其建索引。

CREATE TABLE `web_short_chain` (
  `id` int(11) NOT NULL AUTO_INCREMENT,
  `short` varchar(10) COLLATE utf8mb4_bin NOT NULL COMMENT '短链地址中的key',
  `url` varchar(200) COLLATE utf8mb4_bin NOT NULL COMMENT '原始地址',
  `ctime` timestamp NULL DEFAULT CURRENT_TIMESTAMP,
  `mtime` timestamp NULL DEFAULT CURRENT_TIMESTAMP ON UPDATE CURRENT_TIMESTAMP,
  `status` tinyint(4) NOT NULL DEFAULT '1' COMMENT '状态',
  PRIMARY KEY (`id`),
  UNIQUE KEY `short_UNIQUE` (`short`)
) ENGINE=InnoDB AUTO_INCREMENT=1 DEFAULT CHARSET=utf8mb4 COLLATE=utf8mb4_bin COMMENT='短链存储'

二、计算 short 的值

　　需要两步才能将原始地址映射成短链地址，第一步是使用 MurmurHash（么么哈希）算法，由Austin Appleby在2008年发明，可将原始地址转换成一个哈希值，算法如下（最新版本 MurmurHash3）。

function MurmurHashV3(key, seed) {
  if (typeof key === "string") key = createBuffer(key);
  var remainder, bytes, h1, h1b, c1, c1b, c2, c2b, k1, i;
  remainder = key.length & 3; // key.length % 4
  bytes = key.length - remainder;
  h1 = seed;
  c1 = 0xcc9e2d51;
  c2 = 0x1b873593;
  i = 0;
  while (i < bytes) {
    k1 =
      (key[i] & 0xff) |
      ((key[++i] & 0xff) << 8) |
      ((key[++i] & 0xff) << 16) |
      ((key[++i] & 0xff) << 24);
    ++i;
    k1 = ((k1 & 0xffff) * c1 + ((((k1 >>> 16) * c1) & 0xffff) << 16)) & 0xffffffff;
    k1 = (k1 << 15) | (k1 >>> 17);
    k1 = ((k1 & 0xffff) * c2 + ((((k1 >>> 16) * c2) & 0xffff) << 16)) & 0xffffffff;
    h1 ^= k1;
    h1 = (h1 << 13) | (h1 >>> 19);
    h1b = ((h1 & 0xffff) * 5 + ((((h1 >>> 16) * 5) & 0xffff) << 16)) & 0xffffffff;
    h1 = (h1b & 0xffff) + 0x6b64 + ((((h1b >>> 16) + 0xe654) & 0xffff) << 16);
  }
  k1 = 0;
  switch (remainder) {
    case 3:
      k1 ^= (key[i + 2] & 0xff) << 16;
    case 2:
      k1 ^= (key[i + 1] & 0xff) << 8;
    case 1:
      k1 ^= key[i] & 0xff;
      k1 = ((k1 & 0xffff) * c1 + ((((k1 >>> 16) * c1) & 0xffff) << 16)) & 0xffffffff;
      k1 = (k1 << 15) | (k1 >>> 17);
      k1 = ((k1 & 0xffff) * c2 + ((((k1 >>> 16) * c2) & 0xffff) << 16)) & 0xffffffff;
      h1 ^= k1;
  }
  h1 ^= key.length;
  h1 ^= h1 >>> 16;
  h1 = ((h1 & 0xffff) * 0x85ebca6b + ((((h1 >>> 16) * 0x85ebca6b) & 0xffff) << 16)) & 0xffffffff;
  h1 ^= h1 >>> 13;
  h1 = ((h1 & 0xffff) * 0xc2b2ae35 + ((((h1 >>> 16) * 0xc2b2ae35) & 0xffff) << 16)) & 0xffffffff;
  h1 ^= h1 >>> 16;
  return h1 >>> 0;
}

　　在得到一个整型的哈希值后，就得转换成字符，像上面短链中的字符是 6 个，也就是将10进制转换成62进制，如下所示。

function string10to62(n) {
  if (n === 0) {
    return "0";
  }
  var digits = "0123456789abcdefghijklmnopqrstuvwxyzABCDEFGHIJKLMNOPQRSTUVWXYZ";
  var result = "";
  while (n > 0) {
    result = digits[n % digits.length] + result;
    n = parseInt(n / digits.length, 10);
  }
  return result;
}

三、缓存

　　在将映射关系存入数据库时，可将其直接存入 redis 缓存中，采用哈希的数据结构，也就是将计算出的 short 作为 key，原始地址作为 value。

　　假设每条关系所占空间是50字节，那么2000W条记录大概占用 1G左右，为了节省空间，缓存的超时时间会设为 7 天。

　　每次在访问短链时，首先从缓存中读取，若有，就直接跳转；若无，则查询数据库，再将映射关系存入缓存中。

//读取redis
let url = await services.common.redisShortChainGet(short);
ctx.status = 302;     //临时跳转
if(url) {
  ctx.redirect(getCompleteUrl(url, querystring));
  return;
}
//缓存中不存在，则读取数据库
const data = await services.common.getOneShortChain({ short });
if(!data) {
  ctx.body = "短链不存在";
  return;
}
//将数据库中读取的短链缓存起来
await services.common.redisShortChainSet(short, data.url);
ctx.redirect(getCompleteUrl(data.url, querystring));

　　网上的一些文章在判断短链是否存在时，会采用布隆过滤器。

　　它实际上是一个很长的二进制向量和一系列随机映射函数。布隆过滤器可以用于检索一个元素是否在一个集合中。它的优点是空间效率和查询时间都远远超过一般的算法，长度是 10 亿的布隆过滤器，也只需要 125MB左右的内存空间。

　　布隆过滤器的缺点是有一定的误识别率和删除困难，例如下图中的 A 和 E 是存在于布隆过滤器中的，它们的映射位置都设成了 1，而 B 并不存在，但它的映射指向了两个是 1 的位置，从而就造成了误识别。

码农公寓

一、MySQL

二、计算 short 的值

三、缓存

相关文章