Reservoir Sampling 蓄水池采样算法

https://blog.csdn.net/huagong_adu/article/details/7619665

https://www.jianshu.com/p/63f6cf19923d

https://www.cnblogs.com/snowInPluto/p/5996269.html

https://www.cnblogs.com/xudong-bupt/p/4053652.html

https://www.jianshu.com/p/51f7089c082b

概念:

在一个给定长度的数组中随机等概率抽取一个数据很容易,但如果面对的是长度未知的海量数据流呢?蓄水池采样(Reservoir Sampling)算法就是来解决这个问题的, 它在分析一些大数据集的时候非常有用。

场景说明:

应用场景场景说明:在一个海量广告数据中抽样100个query,其中特征包含pv(query的搜索次数)、adpv(出广告的搜索次数)、adshow(出广告之后的总共ad展示量)、click(点击数量)

蓄水池抽样:随机生成一个数(0,1)值u,令a = u(1/pv),取前100个大的a值。

 

上一篇:Python : 标准库-random


下一篇:如何确定linux串口上剩余的写入/输出缓冲区空间量?