python-从列表中消除半重复项的高性能方法

我有一系列困惑:莫尔斯电码字符串,字母或单词之间没有空格.我的计划是进行字典攻击,以找到最佳的解决方案候选人.我的武器是Python.

我有17000个英语单词的列表.我还列出了与拼图主题相关的单词,但这些单词的数量要少得多,如果这些单词出现,它们的得分应该会更高.

因此,在脚本的开头,当我生成单词列表时,我使用了一个形式为元组的列表(单词,scoremultiplier).这是一小部分:

[('zoned', 1.0), 
 ('zonely', 1.0), 
 ('zoner', 1.0), 
 ('zones', 1.0), 
 ('zoning', 1.0), 
 ('zoo', 1.0), 
 ('zoom', 1.0), 
 ('zoomed', 1.0), 
 ('zooming', 1.0), 
 ('zooms', 1.0), 
 ('zoos', 1.0), 
 ('ten', 1.0), 
 ('tens', 1.0), 
 ('gnash', 1.0), 
 ('shag', 1.0), 
 ('75th', 2.0), 
 ('seventy', 2.0), 
 ('fifth', 2.0)]

在我将所有内容解析出来的文件中,我只想将高价值的单词放在最后,而不用手动摆脱文件主体中的任何重复项.因此,我需要写一些东西来摆脱第一个值等于后一个元组的早期元组.

我可以用蛮力做到这一点:

for firstkey, (firstword, firstfactor) in enumerate(wordlist):
    for laterkey, (laterword, laterfactor) in enumerate(wordlist[firstkey+1:]):
        if firstword == laterword:
            del wordlist[firstkey]
            break

但是仅脚本的那部分就花费了将近45秒钟,而我的17000个单词甚至还不是完整的字典. (该代码除完成时间外还未经测试,因此它甚至可能无法工作.)这似乎也非常不符合Python风格,尽管我现在正在学习Python(并且完全做了一些我的第一个编程工作)这个项目.

有一个更好的方法吗?我不能使用set(),因为重复的单词是不相等元组的一部分.我是否需要以某种方式重组我的数据?还是我应该准备每次运行一整分钟后都准备好?

解决方法:

我可能会误解这个问题,但是看来您可以从元组列表中生成一个字典.以后的值将自动覆盖以前的值:

lst = [
    ('foo', 1),
    ('bar', 2),
    ('foo', 10)
]

print dict(lst) # {'foo': 10, 'bar': 2}
上一篇:PHP中的cURL:curl_exec()或exec(‘curl’)?


下一篇:一次迭代两个大数组