java实现一个短URL生成器

前言

短网址就是将一个长网址转换成一个短网址,访问短网址会重定向到原来的长网址,短网址会更利于传播和推广。微博就会将我们发的长网址转换成短网址,
java实现一个短URL生成器

显示效果
java实现一个短URL生成器

查看HTML源码
java实现一个短URL生成器

微博将 https://www.cnblogs.com/strongmore/p/14520111.html 转换成了http://t.cn/A6t8dUoR

实现

通过发号策略,每次来一个长网址,发一个号,这里我们使用SnowFlake(雪花算法)实现发号,然后转成62进制。

雪花算法

/**
 * 分布式Id生成器-雪花算法
 */
public class SnowFlake {

  /**
   * 起始的时间戳
   */
  private final static long START_STMP = 1480166465631L;

  /**
   * 每一部分占用的位数
   */
  private final static long SEQUENCE_BIT = 12; //序列号占用的位数
  private final static long MACHINE_BIT = 5;   //机器标识占用的位数
  private final static long DATACENTER_BIT = 5;//数据中心占用的位数

  /**
   * 每一部分的最大值
   */
  private final static long MAX_DATACENTER_NUM = ~(-1L << DATACENTER_BIT);
  private final static long MAX_MACHINE_NUM = ~(-1L << MACHINE_BIT);
  private final static long MAX_SEQUENCE = ~(-1L << SEQUENCE_BIT);

  /**
   * 每一部分向左的位移
   */
  private final static long MACHINE_LEFT = SEQUENCE_BIT;
  private final static long DATACENTER_LEFT = SEQUENCE_BIT + MACHINE_BIT;
  private final static long TIMESTMP_LEFT = DATACENTER_LEFT + DATACENTER_BIT;

  private long datacenterId;  //数据中心
  private long machineId;     //机器标识
  private long sequence = 0L; //序列号
  private long lastStmp = -1L;//上一次时间戳

  public SnowFlake(long datacenterId, long machineId) {
    if (datacenterId > MAX_DATACENTER_NUM || datacenterId < 0) {
      throw new IllegalArgumentException(
          "datacenterId can't be greater than MAX_DATACENTER_NUM or less than 0");
    }
    if (machineId > MAX_MACHINE_NUM || machineId < 0) {
      throw new IllegalArgumentException(
          "machineId can't be greater than MAX_MACHINE_NUM or less than 0");
    }
    this.datacenterId = datacenterId;
    this.machineId = machineId;
  }

  /**
   * 产生下一个ID
   */
  public synchronized long nextId() {
    long currStmp = getNewstmp();
    if (currStmp < lastStmp) {
      throw new RuntimeException("Clock moved backwards.  Refusing to generate id");
    }

    if (currStmp == lastStmp) {
      //相同毫秒内,序列号自增
      sequence = (sequence + 1) & MAX_SEQUENCE;
      //同一毫秒的序列数已经达到最大4096
      if (sequence == 0L) {
        currStmp = getNextMill();
      }
    } else {
      //不同毫秒内,序列号置为0
      sequence = 0L;
    }

    lastStmp = currStmp;

    return (currStmp - START_STMP) << TIMESTMP_LEFT //时间戳部分
        | datacenterId << DATACENTER_LEFT       //数据中心部分
        | machineId << MACHINE_LEFT             //机器标识部分
        | sequence;                             //序列号部分
  }

  private long getNextMill() {
    long mill = getNewstmp();
    while (mill <= lastStmp) {
      mill = getNewstmp();
    }
    return mill;
  }

  private long getNewstmp() {
    return System.currentTimeMillis();
  }

  public static void main(String[] args) {
    SnowFlake snowFlake = new SnowFlake(2, 3);

    for (int i = 0; i < (1 << 12); i++) {
      System.out.println(snowFlake.nextId());
    }

  }
}

转62进制

/**
 * 进制转换工具,最大支持十进制和62进制的转换
 * 1、将十进制的数字转换为指定进制的字符串;
 * 2、将其它进制的数字(字符串形式)转换为十进制的数字
 */
public class NumericConvertUtils {

  /**
   * 在进制表示中的字符集合,0-Z分别用于表示最大为62进制的符号表示
   */
  private static final char[] digits = {'0', '1', '2', '3', '4', '5', '6', '7', '8', '9',
      'a', 'b', 'c', 'd', 'e', 'f', 'g', 'h', 'i', 'j', 'k', 'l', 'm',
      'n', 'o', 'p', 'q', 'r', 's', 't', 'u', 'v', 'w', 'x', 'y', 'z',
      'A', 'B', 'C', 'D', 'E', 'F', 'G', 'H', 'I', 'J', 'K', 'L', 'M',
      'N', 'O', 'P', 'Q', 'R', 'S', 'T', 'U', 'V', 'W', 'X', 'Y', 'Z'};

  /**
   * 将十进制的数字转换为指定进制的字符串
   *
   * @param number 十进制的数字
   * @param seed   指定的进制
   * @return 指定进制的字符串
   */
  public static String toOtherNumberSystem(long number, int seed) {
    if (number < 0) {
      number = ((long) 2 * 0x7fffffff) + number + 2;
    }
    char[] buf = new char[32];
    int charPos = 32;
    while ((number / seed) > 0) {
      buf[--charPos] = digits[(int) (number % seed)];
      number /= seed;
    }
    buf[--charPos] = digits[(int) (number % seed)];
    return new String(buf, charPos, (32 - charPos));
  }

  /**
   * 将其它进制的数字(字符串形式)转换为十进制的数字
   *
   * @param number 其它进制的数字(字符串形式)
   * @param seed   指定的进制,也就是参数str的原始进制
   * @return 十进制的数字
   */
  public static long toDecimalNumber(String number, int seed) {
    char[] charBuf = number.toCharArray();
    if (seed == 10) {
      return Long.parseLong(number);
    }

    long result = 0, base = 1;

    for (int i = charBuf.length - 1; i >= 0; i--) {
      int index = 0;
      for (int j = 0, length = digits.length; j < length; j++) {
        //找到对应字符的下标,对应的下标才是具体的数值
        if (digits[j] == charBuf[i]) {
          index = j;
        }
      }
      result += index * base;
      base *= seed;
    }
    return result;
  }
}  

将一个long型数字转成包含0-9,A-Z,a-z共62个字符的62进制字符串。将生成的字符串和短网址服务器域名连接即为最终的短网址,如https://t.cn/FWSc3ki8mY

public class Main {

  public static void main(String[] args) {
    SnowFlake snowFlake = new SnowFlake(0, 0);
    for (int i = 0; i < 10; i++) {
      System.out.println(NumericConvertUtils.toOtherNumberSystem(snowFlake.nextId(), 62));
    }
  }

}

输出结果为

FWSc3ki8mY
FWSc3ki8mZ
FWSc3ki8n0
FWSc3ki8n1
FWSc3ki8n2
FWSc3ki8n3
FWSc3ki8n4
FWSc3ki8n5
FWSc3ki8n6
FWSc3ki8n7

整体流程

  1. 利用发号器创建短网址,保存长网址和短网址的映射关系到数据库或Redis。
  2. 短网址服务器接收到请求,根据 FWSc3ki8mY 找到原来的长网址,返回302,告诉浏览器重定向到长网址。

待优化地方

现在的实现对于同一个长网址,每次创建的短网址也是不同的,如果每次创建前去数据库查询的话,效率太低,可以使用 LRU 缓存最近的N次映射结果,先查缓存,再查数据库,兼顾了空间和性能。

参考

如何将一个长URL转换为一个短URL?
短 URL 系统是怎么设计的?
新浪短网址服务

上一篇:布隆过滤器


下一篇:pytorch中 += 操作被视为是原地操作