题目来源:https://leetcode-cn.com/problems/repeated-dna-sequences/
大致题意:
给定一个 DNA 序列,由 A C G T 四种字母组成。找出长度为 10 的出现次数大于 1 的子串
思路
正常就是 subString + 哈希表解决
不过可以用 滑动窗口 + 位运算 的方法,这样理论上时空复杂度更低
滑动窗口 + 位运算
使用一个长度为 10 的滑动窗口表示当前字符串。
因为字符串是由 A C G T 四种字母组成,于是可以将它们表示为 0 1 2 3,二进制为 00 01 10 11,将窗口内的 10 个字符,变成一个 20 位的二进制数,这样就可以用一个整数表示一个子串,不同的子串对应的整数一定是不同的
- 在窗口滑动的过程中,每次需要将二进制数左移 2 位(x << 2),然后将当前字母转义后(num)插入尾部 (x | num),然后取后 20 位,也就是当前子串(x & ((1 << 20) - 1))
- 之后将当前整数放入哈希表
代码:
public List<String> findRepatedDnaSequences(String s) {
// 存字符对应的数字
Map<Character, Integer> charMap = new HashMap<Character, Integer>();
charMap.put('A', 0);
charMap.put('C', 1);
charMap.put('G', 2);
charMap.put('T', 3);
// 数字存储的字符长度
final int L = 10;
// 存储符合条件的字符串列表
List<String> ans = new ArrayList<String>();
if (s.length() <= L)
return ans;
// 当前窗口对应字符串转换的整数
int x = 0;
// 初始时,先放入 9 个字符
for (int i = 0; i < L - 1; i++) {
x = (x << 2) | charMap.get(s.charAt(i));
}
// 存储每段字符串出现的次数
Map<Integer, Integer> strMap = new HashMap<Integer, Integer>();
for (int i = L - 1; i < s.length(); i++) {
// 更新窗口 左移两位,将当前字符放入尾部,然后取后 20 位
x = ((x << 2) | charMap.get(s.charAt(i))) & ((1 << (L * 2)) - 1);
System.out.println(s.substring(i - L + 1, i + 1));
// 更新 map
strMap.put(x, strMap.getOrDefault(x, 0) + 1);
System.out.println(strMap.get(x));
// 若当前窗口对应字符串出现次数大于 1,放入答案列表
if (strMap.get(x) == 2) {
ans.add(s.substring(i - L + 1, i + 1));
}
}
return ans;
}