https://blog.csdn.net/huagong_adu/article/details/7619665
https://www.jianshu.com/p/63f6cf19923d
https://www.cnblogs.com/snowInPluto/p/5996269.html
https://www.cnblogs.com/xudong-bupt/p/4053652.html
https://www.jianshu.com/p/51f7089c082b
概念:
在一个给定长度的数组中随机等概率抽取一个数据很容易,但如果面对的是长度未知的海量数据流呢?蓄水池采样(Reservoir Sampling)算法就是来解决这个问题的, 它在分析一些大数据集的时候非常有用。
场景说明:
应用场景场景说明:在一个海量广告数据中抽样100个query,其中特征包含pv(query的搜索次数)、adpv(出广告的搜索次数)、adshow(出广告之后的总共ad展示量)、click(点击数量)
蓄水池抽样:随机生成一个数(0,1)值u,令a = u(1/pv),取前100个大的a值。