使用python在tar bz2文件中组织文件

我有大约200,000个文本文件放在bz2文件中.我遇到的问题是,当我扫描bz2文件以提取我需要的数据时,它变得非常慢.它必须通过整个bz2文件来查看我正在寻找的单个文件.反正有加速吗?

此外,我想可能在tar.bz2中组织文件,所以我可以让它知道在哪里看.反正有组织放入bz2的文件吗?

更多信息/编辑:
我需要查询每个文本文件的压缩文件.是否有更好的压缩方法支持如此大量的文件并且完全压缩?

解决方法:

你必须使用bzip2吗?阅读它是documentation,很明显它不是为支持随机访问而设计的.也许您应该使用更符合您要求的压缩格式.好的旧Zip格式支持随机访问,但当然可能压缩得更厉害.

上一篇:序列化,反序列化,模拟ATM机


下一篇:Python的压缩文件处理 zipfile & tarfile