海量的数据的处理

1、若有1T的数据,需要实现由大到小的排列,你用什么办法,说说你的思路和想法?

解题思路:1、内存大小,比如256M

     2、每一条数据的大小1K

      这样的话1T有的数据条数大约为230

      内存中可以存放的数据条数为218

      把这些数据分成份数必须大于212=4096

     根据某一种hash算法把数据写到n个文件中

    

2、有10个G的数据,如果两条数据一样,则表示该两条数据重复了,现在给你512的内存,把这10G中重复次数最高的10条数据取出来。

上一篇:阿里秋招面试全解析(含内推岗)


下一篇:MT【340】彭塞列闭合定理