我是一名使用Biopython分析基因突变的分子生物学家,我的问题是:
我有一个包含许多不同序列(百万)的文件,其中大多数是重复的.我需要找到重复项并丢弃它们,并保留每个唯一序列的一个副本.我打算使用模块editdist来计算它们之间的编辑距离,以确定重复项是哪些,但是editdist只能使用2个字符串,而不是文件.
任何人都知道如何将模块与文件而不是字符串一起使用吗?
解决方法:
假设您的文件仅由每行一个序列组成的序列组成,我建议以下几点:
seq_file = open(#your file)
sequences = [seq for seq in seq_file]
uniques = list(set(sequences))
假设您有足够的记忆力.几百万?
预计到达时间:
正在读取上面的评论(但没有评论特权)-假设任何重复项的序列ID都相同,那么它将起作用.如果重复的序列可以具有不同的序列ID,则将知道哪个先出现以及文件中它们之间是什么.