论__HashCode和内容Length做快速去重有多不靠谱

2023-11-12 17:40:46

论__HashCode和内容Length做快速去重有多不靠谱

本文由 Luzhuo 编写,请尊重个人劳动成果,转发请保留该信息.
原文: http://blog.csdn.net/Rozol/article/details/50640258
微博: http://weibo.com/u/2524456400

最近拿到大量的文本文件,文件的大小少个几十M,多则几十G,这么多且大的文本想必有很多的文本是重复的,于是想对它进行去重.
于是想出两种方案,见 Blog:http://blog.csdn.net/Rozol/article/details/50640179

例子

!@#$%allen = zzzzbanana

.llllllll = 00000000.

000000000p = 0000000022

004tttttt = 158520520

004water = 00年9月10日

0099887722 = canelaheng

012345pian = 1996-11-15

03/08/1992 = mishkaming

1234567yjo = 1234567zLP

ballo = ban01

bianzuo = archiepeng

更多请看Github上的The hashcode and length is equal, but different contents.txt文件

结论

504,2424条数据中有19,2509对数据的HashCode和Length是相同的(不重复),这么高的几率(7.64%),这有多不靠谱.

提取的文件已经寄存在Github上,感兴趣可以去看看.

Github:The hashcode and length is equal, but different contents.txt