在大数据时代,我们建模数据量可能达到千万级甚至TB。大数据在给投资者介绍时很必要,容易得到融资。但对于数据科学家来说,有时候我们只需要数据集中的一部分,并不需要全部的数据。这个时候我们就要对数据集进行随机的抽样。如果用全量数据建模或数据分析,成本太高,需要高性能服务器存储数据。这对中小公司来说不现实。
最经典案例是二战中德军坦克问题。在第二次世界大战期间,西方盟国不懈地努力确定德国的生产规模,并以两种主要方式进行处理:常规情报收集和统计估计。
英国人用统计学方法估计德国坦克数量和德国真实坦克数量非常接近,远比情报部门数据准确。
python的pandas中自带有抽样的方法。这是相关官网文档介绍:
pandas.DataFrame.sample - pandas 1.2.3 documentationpandas.pydata.org
输入参数说明
欢迎各位学习更多数据分析知识(博主录制)
https://edu.51cto.com/sd/8faab