本节书摘来自华章出版社《R语言与数据挖掘最佳实践和经典案例》一 书中的第1章,第1.1节,作者:(澳)Yanchang Zhao,更多章节内容可以访问云栖社区“华章计算机”公众号查看。
1.1 数据挖掘
数据挖掘是从大量的数据中发现有趣知识的过程[Han and Kamber, 2000]。数据挖掘是一个涉及多个领域的交叉学科,包括统计学、机器学习、信息检索、模式识别以及生物信息学。数据挖掘已经在许多领域中得到了广泛应用,例如零售、金融、通信以及社交媒体行业。
数据挖掘的主要技术包括分类与预测、聚类、离群点检测、关联规则、序列分析、时间序列分析和文本挖掘,同时还包括一些新的技术,例如社交网络分析和情感分析。想要了解更多关于数据挖掘相关技术的详细介绍可以参考有关数据挖掘的教材[Han and Kamber, 2000; Hand et al, 2001; Witten and Frank, 2005]。CRISP-DM(Cross Industry Standard Process For Data Mining,数据挖掘的跨行业标准过程)将一个真实应用中的数据挖掘过程划分为6个主要阶段:业务理解、数据理解、数据预处理、建模、评估和部署。本书的重点是建模阶段,其中也有部分章节介绍数据探索和模型评估。读者想要获取更多关于数据挖掘的信息可以参考第15章中的在线资源。