数据挖掘(Data Mining):基础导论

目录

数据挖掘基础

定义

数据挖掘的特征

学科挑战

数据挖掘的五大任务

1. 聚类(Clustering)

2. 关系规则挖掘(Association Rule Mining)

3. 分类(Classification)

4. 回归(Regression)

5. 异常检测(Anomaly detection)

总结


数据挖掘基础

定义

数据挖掘涉及从数据中提取隐含的、以前未知的和潜在有用的信息(Frawley, 1991)。

数据挖掘的特征

  • 提取重要的、隐含的信息
    •  数据(基础)中未明确提供的答案。
    •  通常为其他目的收集的数据。
  • 有价值的信息以前未知且可能有用。
    • 分析师和领域专家发挥着重要作用。
      •   90% 的准确率如果你已经知道那 90%,那是没用的
    • 你想用提取的信息做某事。 
      • 10% 错误预测的后果是什么?
  • 信息来自真实数据。
    • 使用机器学习、统计学的方法和数据库。
    • 包括多种类型的数据(表格、文本、图形等)。
       

学科挑战

  • 可延展性
    • 专门的数据结构(数据库)
    • 智能搜索(AI)
  • 高维
    • 降维(统计)
  • 数据异质性(Heterogeneity)
    • 交易(transactions)(数据库)
    • 图(social network analysis, network science)
    • 文本(信息检索(information retrieval)和 NLP)
  • 机会样本(Opportunistic samples)
    • 假设生成,总结
  • 数据所有权和分布(Data ownership and distribution)

数据挖掘延伸领域:

定向市场营销、欺诈检测、库存管理、个性化医疗、基因与疾病之间的关联等。

数据挖掘的五大任务

1. 聚类(Clustering)

给定一组对象,将它们分组,使一组中的对象彼此更相似,而不同组中的对象彼此不太相似。

数据挖掘(Data Mining):基础导论

应用 

  • 市场细分:将市场细分为不同的客户子集,其中任何子集都可以被选为市场目标,以通过不同的营销组合实现。
  • 文档聚类:根据重要信息查找彼此相似的文档组出现在其中的术语。
  • 在社交网络中查找社区。

2. 关系规则挖掘(Association Rule Mining)

给定一组记录,每个记录都包含来自给定集合的一定数量的项目,生成依赖规则,该规则将根据其他项目的出现来预测一个项目的出现。

应用

  • 营销、促销和假设分析:如果我们停止销售 X 和 Y 会发生什么? 
  • 超市货架管理:识别足够多的顾客一起购买的物品。
  • 库存管理:消费电器维修公司希望预测其消费产品的维修性质,并为维修车辆配备合适的零件以减少数量走访消费者家庭。

3. 分类(Classification)

给定由某些特征描述的对象集合并具有类属性,对新的对象赋予对应的类属性。

应用

  • 直接营销:通过瞄准可能购买新产品的一组消费者来降低邮寄成本。
  • 欺诈检测:预测信用卡交易中的欺诈案例。
  • 客户流失/流失:预测客户是否可能会被竞争对手抢走.
  • 识别肿瘤细胞为良性或恶性。
  • 分类蛋白质的二级结构。
  • 分类新闻报道。
  • 天空调查编目:识别天空物体的类别

4. 回归(Regression)

根据其他变量的值预测给定连续值变量的值。

应用

  • 根据广告支出预测新产品的销售额。
  • 预测作为温度、湿度、气压等函数的风速。
  • 股票市场指数的时间序列预测。

5. 异常检测(Anomaly detection)

识别特征与其余数据显着不同的观测值。

应用

  • 信用卡欺诈检测。
  • 网络入侵检测。
  • 疾病的异常模式。
  • 生态系统干扰,例如干旱、洪水、火灾、飓风等。

总结

  1. 监督方法(未涵盖,但可在项目中使用):分类,回归。
  2. 无监督方法:聚类,关联规则挖掘,异常检测。
  3. 上面的分类法是对现实的简化。有的方法介于两者之间,可以使用一类中的方法来解决另一类中的部分问题。
  4. 监督方法和非监督方法也分别称为预测和描述。

 

 

 

上一篇:A Neural Transition-based Model for Argumentation Mining 2021 August


下一篇:Mining infuential genes based on deep learning(翻译)