数据挖掘:运用基于计算机的方法(包括新技术)从数据中获得有用知识的整个过程,这就叫做数据挖掘。
在当今竞争的世界中,数据挖掘所扮演的角色越来越重要。
数据挖掘是一个迭代的过程。它从大量数据中搜寻有价值,非同寻常的新信息。这是人和计算机合作的结果。
数据挖掘的基本目标为:预测 和 描述。
预测性数据挖掘:生成给定数据集所描述的系统模型
描述性数据挖掘: 在可用的数据基础上生成新的,非同寻常的信息。
数据挖掘的基本任务:
分类——发现某个预测学习功能,将一个数据项分类到几个预定义类中的一个
回归——发现某个预测学习功能,讲一个数据项映射到一个真实值预测变量上
聚类——一个常见的描述性任务,用于确定有限的一组类别或聚类,来描述数据
总结概括——一项附加的描述性任务,涉及寻找数据集与子集的简单描述的方法。
关联建模——发现一个本地模型,来描述变量之间或者数据集货其一部分的特征值之间的重要相关性能
变化和偏差监测——发现数据集中最重要的变化。
要成为数据挖掘过程的分析者和设计者,除了具备全面的专业知识外,还要有创新思维和从不同角度看待问题的主动性。