目录
2. 关系规则挖掘(Association Rule Mining)
数据挖掘基础
定义
数据挖掘涉及从数据中提取隐含的、以前未知的和潜在有用的信息(Frawley, 1991)。
数据挖掘的特征
- 提取重要的、隐含的信息
- 数据(基础)中未明确提供的答案。
- 通常为其他目的收集的数据。
- 有价值的信息以前未知且可能有用。
- 分析师和领域专家发挥着重要作用。
- 90% 的准确率如果你已经知道那 90%,那是没用的
- 你想用提取的信息做某事。
- 10% 错误预测的后果是什么?
- 分析师和领域专家发挥着重要作用。
- 信息来自真实数据。
- 使用机器学习、统计学的方法和数据库。
- 包括多种类型的数据(表格、文本、图形等)。
学科挑战
- 可延展性
- 专门的数据结构(数据库)
- 智能搜索(AI)
- 高维
- 降维(统计)
- 数据异质性(Heterogeneity)
- 交易(transactions)(数据库)
- 图(social network analysis, network science)
- 文本(信息检索(information retrieval)和 NLP)
- 机会样本(Opportunistic samples)
- 假设生成,总结
- 数据所有权和分布(Data ownership and distribution)
数据挖掘延伸领域:
定向市场营销、欺诈检测、库存管理、个性化医疗、基因与疾病之间的关联等。
数据挖掘的五大任务
1. 聚类(Clustering)
给定一组对象,将它们分组,使一组中的对象彼此更相似,而不同组中的对象彼此不太相似。
应用
- 市场细分:将市场细分为不同的客户子集,其中任何子集都可以被选为市场目标,以通过不同的营销组合实现。
- 文档聚类:根据重要信息查找彼此相似的文档组出现在其中的术语。
- 在社交网络中查找社区。
2. 关系规则挖掘(Association Rule Mining)
给定一组记录,每个记录都包含来自给定集合的一定数量的项目,生成依赖规则,该规则将根据其他项目的出现来预测一个项目的出现。
应用
- 营销、促销和假设分析:如果我们停止销售 X 和 Y 会发生什么?
- 超市货架管理:识别足够多的顾客一起购买的物品。
- 库存管理:消费电器维修公司希望预测其消费产品的维修性质,并为维修车辆配备合适的零件以减少数量走访消费者家庭。
3. 分类(Classification)
给定由某些特征描述的对象集合并具有类属性,对新的对象赋予对应的类属性。
应用
- 直接营销:通过瞄准可能购买新产品的一组消费者来降低邮寄成本。
- 欺诈检测:预测信用卡交易中的欺诈案例。
- 客户流失/流失:预测客户是否可能会被竞争对手抢走.
- 识别肿瘤细胞为良性或恶性。
- 分类蛋白质的二级结构。
- 分类新闻报道。
- 天空调查编目:识别天空物体的类别
4. 回归(Regression)
根据其他变量的值预测给定连续值变量的值。
应用
- 根据广告支出预测新产品的销售额。
- 预测作为温度、湿度、气压等函数的风速。
- 股票市场指数的时间序列预测。
5. 异常检测(Anomaly detection)
识别特征与其余数据显着不同的观测值。
应用
- 信用卡欺诈检测。
- 网络入侵检测。
- 疾病的异常模式。
- 生态系统干扰,例如干旱、洪水、火灾、飓风等。
总结
- 监督方法(未涵盖,但可在项目中使用):分类,回归。
- 无监督方法:聚类,关联规则挖掘,异常检测。
- 上面的分类法是对现实的简化。有的方法介于两者之间,可以使用一类中的方法来解决另一类中的部分问题。
- 监督方法和非监督方法也分别称为预测和描述。