本节书摘来自华章出版社《python 与数据挖掘 》一书中的第1章,第1.1节,作者张良均 杨海宏 何子健 杨 征,更多章节内容可以访问云栖社区“华章计算机”公众号查看。
第1章
数据挖掘概述
广义的数据挖掘是指针对收集的大规模数据,应用整套科学工具和挖掘技术(如数据、计算、可视化、分析、统计、实验、问题定义、建模与验证等),从数据之中发现隐含的、对决策有参考意义的信息、价值和趋势。因此,数据挖掘是一个横跨多学科的计算机科学分支。强调它隶属计算机科学范畴,是希望读者认识到这个领域的核心需求,尽早摆脱对编程实现的恐惧,避免陷入“数据挖掘只需将模型或算法套用于数据集之上”的误区。这也是本书的写作目的之一。
1.1 数据挖掘简介
随着计算机技术的全面发展,企业生产、收集、存储和处理数据的能力大大提高,数据量与日俱增。数据的积累实质上是企业的经验和业务的沉淀。越来越多的企业引入“数据思维”——不只是依赖于数据的统计分析,更强调对数据进行挖掘,期待从这一“未来世界的石油”中发现潜在的价值。这一迫切的“开采”需求在世界范围内酝酿了一次“大数据”变革。
数据挖掘的确是21世纪最具话题性的技术之一,包含数据预处理、算法应用、模型评价、结果检验等多个部分,并依靠其丰富的内涵向外延伸出数据分析、数据ETL、机器学习等多个领域。