所有 DNA 由一系列缩写为 A,C,G 和 T 的核苷酸组成,例如:“ACGAATTCCG”。在研究 DNA 时,识别 DNA 中的重复序列有时会对研究非常有帮助。
编写一个函数来查找 DNA 分子中所有出现超过一次的10个字母长的序列(子串)。
示例:
输入: s = "AAAAACCCCCAAAAACCCCCCAAAAAGGGTTT"
输出: ["AAAAACCCCC", "CCCCCAAAAA"]
答案:
1public List<String> findRepeatedDnaSequences(String s) {
2 Set seen = new HashSet();
3 Set repeated = new HashSet();
4 for (int i = 0; i + 9 < s.length(); i++) {
5 String ten = s.substring(i, i + 10);
6 if (!seen.add(ten))
7 repeated.add(ten);
8 }
9 return new ArrayList(repeated);
10}
解析:
意思是每次截取10个字符的子串,并且这种字串出现的次数超过一次,代码很简单,每次截取的时候都会存放到seen集合中,如果存放失败,表示出现了重复,再来看一种写法
1public List<String> findRepeatedDnaSequences(String s) {
2 Set<Integer> words = new HashSet<>();
3 Set<String> repeated = new HashSet<>();
4 char[] map = new char[26];
5 //map['A' - 'A'] = 0;
6 map['C' - 'A'] = 1;
7 map['G' - 'A'] = 2;
8 map['T' - 'A'] = 3;
9 for (int i = 0; i < s.length() - 9; i++) {
10 int v = 0;
11 for (int j = i; j < i + 10; j++) {
12 v <<= 2;
13 v |= map[s.charAt(j) - 'A'];
14 }
15 if (!words.add(v)) {
16 repeated.add(s.substring(i, i + 10));
17 }
18 }
19 return new ArrayList(repeated);
20}
这种解法和第一种其实原理都是一样的,只不过这里存储的是一个int类型,因为0,1,2,3分别表示的是ACGT,int类型的每两位用来存储ACGT中一个,我们还可以每3位存储,最多也就是30位,小于int类型的32位,就是把下面第12行的v<<=2改为v<<=3。但不能每4位存储,因为这样超过了int的范围。