数据挖掘（Data Mining）：基础导论

2024-02-25 22:55:51

数据挖掘基础

定义

2. 关系规则挖掘（Association Rule Mining）

3. 分类（Classification）

4. 回归（Regression）

5. 异常检测（Anomaly detection）

总结

数据挖掘基础

定义

数据挖掘涉及从数据中提取隐含的、以前未知的和潜在有用的信息(Frawley, 1991)。

数据挖掘的特征

提取重要的、隐含的信息
- 数据（基础）中未明确提供的答案。
- 通常为其他目的收集的数据。
有价值的信息以前未知且可能有用。
- 分析师和领域专家发挥着重要作用。
  - 90% 的准确率如果你已经知道那 90%，那是没用的
- 你想用提取的信息做某事。
  - 10% 错误预测的后果是什么？
信息来自真实数据。
- 使用机器学习、统计学的方法和数据库。
- 包括多种类型的数据（表格、文本、图形等）。

学科挑战

可延展性
- 专门的数据结构（数据库）
- 智能搜索（AI）
高维
- 降维（统计）
数据异质性（Heterogeneity）
- 交易（transactions）（数据库）
- 图（social network analysis, network science）
- 文本（信息检索（information retrieval）和 NLP）
机会样本（Opportunistic samples）
- 假设生成，总结
数据所有权和分布（Data ownership and distribution）

数据挖掘延伸领域：

定向市场营销、欺诈检测、库存管理、个性化医疗、基因与疾病之间的关联等。

数据挖掘的五大任务

1. 聚类（Clustering）

给定一组对象，将它们分组，使一组中的对象彼此更相似，而不同组中的对象彼此不太相似。

应用

市场细分：将市场细分为不同的客户子集，其中任何子集都可以被选为市场目标，以通过不同的营销组合实现。
文档聚类：根据重要信息查找彼此相似的文档组出现在其中的术语。
在社交网络中查找社区。

2. 关系规则挖掘（Association Rule Mining）

给定一组记录，每个记录都包含来自给定集合的一定数量的项目，生成依赖规则，该规则将根据其他项目的出现来预测一个项目的出现。

应用

营销、促销和假设分析：如果我们停止销售 X 和 Y 会发生什么？
超市货架管理：识别足够多的顾客一起购买的物品。
库存管理：消费电器维修公司希望预测其消费产品的维修性质，并为维修车辆配备合适的零件以减少数量走访消费者家庭。

3. 分类（Classification）

给定由某些特征描述的对象集合并具有类属性，对新的对象赋予对应的类属性。

应用

直接营销：通过瞄准可能购买新产品的一组消费者来降低邮寄成本。
欺诈检测：预测信用卡交易中的欺诈案例。
客户流失/流失：预测客户是否可能会被竞争对手抢走.
识别肿瘤细胞为良性或恶性。
分类蛋白质的二级结构。
分类新闻报道。
天空调查编目：识别天空物体的类别

4. 回归（Regression）

根据其他变量的值预测给定连续值变量的值。

应用

根据广告支出预测新产品的销售额。
预测作为温度、湿度、气压等函数的风速。
股票市场指数的时间序列预测。

5. 异常检测（Anomaly detection）

识别特征与其余数据显着不同的观测值。

应用

信用卡欺诈检测。
网络入侵检测。
疾病的异常模式。
生态系统干扰，例如干旱、洪水、火灾、飓风等。

总结

监督方法（未涵盖，但可在项目中使用）：分类，回归。
无监督方法：聚类，关联规则挖掘，异常检测。
上面的分类法是对现实的简化。有的方法介于两者之间，可以使用一类中的方法来解决另一类中的部分问题。
监督方法和非监督方法也分别称为预测和描述。

码农公寓

数据挖掘基础

定义

数据挖掘的特征

学科挑战

数据挖掘的五大任务

1. 聚类（Clustering）

2. 关系规则挖掘（Association Rule Mining）

3. 分类（Classification）

4. 回归（Regression）

5. 异常检测（Anomaly detection）

总结

相关文章