您当前的位置: 首页 > 

IT之一小佬

暂无认证

  • 1浏览

    0关注

    1192博文

    0收益

  • 0浏览

    0点赞

    0打赏

    0留言

私信
关注
热门博文

重复的DNA序列

IT之一小佬 发布时间:2022-04-26 11:39:12 ,浏览量:1

DNA序列 由一系列核苷酸组成,缩写为 'A', 'C', 'G' 和 'T'.。

例如,"ACGAATTCCG" 是一个 DNA序列 。 在研究 DNA 时,识别 DNA 中的重复序列非常有用。

给定一个表示 DNA序列 的字符串 s ,返回所有在 DNA 分子中出现不止一次的 长度为 10 的序列(子字符串)。你可以按 任意顺序 返回答案。

示例 1:

输入:s = "AAAAACCCCCAAAAACCCCCCAAAAAGGGTTT" 输出:["AAAAACCCCC","CCCCCAAAAA"]

示例 2:

输入:s = "AAAAAAAAAAAAA" 输出:["AAAAAAAAAA"]

示例代码1: 【哈希表】

from collections import defaultdict


class Solution(object):
    def findRepeatedDnaSequences(self, s):
        l = 10
        dic = defaultdict(int)
        ans = []
        for i in range(len(s) - l + 1):
            res = s[i:i + l]
            dic[res] += 1
            if dic[res] == 2:
                ans.append(res)
        return ans


s = "AAAAACCCCCAAAAACCCCCCAAAAAGGGTTT"
obj = Solution()
ret = obj.findRepeatedDnaSequences(s)
print(ret)

思路分析:

  • 使用哈希表统计 s 所有长度为 10的子串的出现次数,返回所有出现次数超过 10的子串。
  • 代码实现时,一边遍历子串一边记录答案,为了不重复记录答案,只统计当前出现次数为 2 的子串。

复杂度分析:

  • 时间复杂度:O(NL),其中 N 是字符串s 的长度,L=10即目标子串的长度。
  • 空间复杂度:O(NL)。

示例代码2:  【滑动窗口】

class Solution(object):
    def findRepeatedDnaSequences(self, s):
        l = 10
        if len(s) < l:
            return []
        ans, window = set(), set()
        for i in range(len(s) - l + 1):
            tmp = s[i:i + l]
            if tmp not in window:
                window.add(tmp)
            else:
                ans.add(tmp)
        return list(ans)


s = "AAAAACCCCCAAAAACCCCCCAAAAAGGGTTT"
s = "AAAAAAAAAAA"
obj = Solution()
ret = obj.findRepeatedDnaSequences(s)
print(ret)
关注
打赏
1665675218
查看更多评论
立即登录/注册

微信扫码登录

0.0505s