所有 DNA 都由一系列縮寫為 A岩遗,C,G 和 T 的核苷酸組成凤瘦,例如:“ACGAATTCCG”宿礁。在研究 DNA 時(shí),識(shí)別 DNA 中的重復(fù)序列有時(shí)會(huì)對(duì)研究非常有幫助蔬芥。
編寫一個(gè)函數(shù)來(lái)查找 DNA 分子中所有出現(xiàn)超過(guò)一次的 10 個(gè)字母長(zhǎng)的序列(子串)梆靖。
示例:
輸入:s = "AAAAACCCCCAAAAACCCCCCAAAAAGGGTTT"
輸出:["AAAAACCCCC", "CCCCCAAAAA"]
來(lái)源:力扣(LeetCode)
鏈接:https://leetcode-cn.com/problems/repeated-dna-sequences
著作權(quán)歸領(lǐng)扣網(wǎng)絡(luò)所有。商業(yè)轉(zhuǎn)載請(qǐng)聯(lián)系官方授權(quán)笔诵,非商業(yè)轉(zhuǎn)載請(qǐng)注明出處返吻。
我這里用的是list,其實(shí)用set性能更好乎婿,list進(jìn)行查詢是O(logn)测僵,而set是O(1)的。
public List<String> findRepeatedDnaSequences(String s) {
int len = s.length();
List<String> res = new ArrayList<String>();
if (len <= 10) return res;
Map<String, Integer> all = new HashMap<String, Integer>();
for (int i = 0; i <= len - 10; i++) {
String str = s.substring(i, i+10);
if (all.containsKey(str)) {
all.put(str, all.get(str) + 1);
} else {
all.put(str,1);
}
}
for (Map.Entry<String, Integer> stringIntegerEntry : all.entrySet()) {
if (stringIntegerEntry.getValue() > 1) {
res.add(stringIntegerEntry.getKey());
}
}
return res;
}
```