论__大量文本内容去重的方式
本文由 Luzhuo 编写,请尊重个人劳动成果,转发请保留该信息.
原文: http://blog.csdn.net/Rozol/article/details/50640179
微博: http://weibo.com/u/2524456400
最近拿到大量的文本文件,文件的大小少个几十M,多则几十G,这么多且大的文本想必有很多的文本是重复的,于是相对它进行去重.
想出了第一种方案,没想到内存很快就被撑爆了,于是想出了第二种方案,不过那个效率,不好意思说了.
网上说的根据哈希码和文本长度对文本进行快速去重的方案一点都不靠谱,因为哈希码和长度一样的文本内容实在是太多了.
结论
- 第一种方案速度比第一种方案快,但是对内存要求高,而且顺序可能会乱掉.
- 第二种方案速度非常慢,不过对内存要求不高,可以放在云端处理^-^.
方案一
- 使用这种方案的结果将会是这样的(完全就是拼内存),于是就想出了方案二
方案二
GitHub Code
代码寄托在Github上,有兴趣的可以去看看.
代码: https://github.com/LZLuzhuo/QuickClearRepeat
另外我想告诉你用 哈希码和长度 有多不靠谱.文件也存在Github上.