力扣 187. 重复的DNA序列

题目来源:https://leetcode-cn.com/problems/repeated-dna-sequences/

大致题意:
给定一个 DNA 序列,由 A C G T 四种字母组成。找出长度为 10 的出现次数大于 1 的子串

思路

正常就是 subString + 哈希表解决
不过可以用 滑动窗口 + 位运算 的方法,这样理论上时空复杂度更低

滑动窗口 + 位运算

使用一个长度为 10 的滑动窗口表示当前字符串。
因为字符串是由 A C G T 四种字母组成,于是可以将它们表示为 0 1 2 3,二进制为 00 01 10 11,将窗口内的 10 个字符,变成一个 20 位的二进制数,这样就可以用一个整数表示一个子串,不同的子串对应的整数一定是不同的

  1. 在窗口滑动的过程中,每次需要将二进制数左移 2 位(x << 2),然后将当前字母转义后(num)插入尾部 (x | num),然后取后 20 位,也就是当前子串(x & ((1 << 20) - 1))
  2. 之后将当前整数放入哈希表

代码:

public List<String> findRepatedDnaSequences(String s) {
        // 存字符对应的数字
        Map<Character, Integer> charMap = new HashMap<Character, Integer>();
        charMap.put('A', 0);
        charMap.put('C', 1);
        charMap.put('G', 2);
        charMap.put('T', 3);
        // 数字存储的字符长度
        final int L = 10;
        // 存储符合条件的字符串列表
        List<String> ans = new ArrayList<String>();
        if (s.length() <= L)
            return ans;
        // 当前窗口对应字符串转换的整数
        int x = 0;
        // 初始时,先放入 9 个字符
        for (int i = 0; i < L - 1; i++) {
            x = (x << 2) | charMap.get(s.charAt(i));
        }
        // 存储每段字符串出现的次数
        Map<Integer, Integer> strMap = new HashMap<Integer, Integer>();
        for (int i = L - 1; i < s.length(); i++) {
            // 更新窗口 左移两位,将当前字符放入尾部,然后取后 20 位
            x = ((x << 2) | charMap.get(s.charAt(i))) & ((1 << (L * 2)) - 1);
            System.out.println(s.substring(i - L + 1, i + 1));
            // 更新 map
            strMap.put(x, strMap.getOrDefault(x, 0) + 1);
            System.out.println(strMap.get(x));
            // 若当前窗口对应字符串出现次数大于 1,放入答案列表
            if (strMap.get(x) == 2) {
                ans.add(s.substring(i - L + 1, i + 1));
            }
        }
        return ans;
    }
上一篇:【论文泛读187】使用 BERT 基于阿拉伯语方面的情感分析


下一篇:Emacs-187-创建名称中带有空白的文件