【数据挖掘】数据挖掘算法 组件化思想 示例分析 ( 组件化思想 | Apriori 算法 | K-means 算法 | ID3 算法 )

文章目录

一、 数据挖掘算法组件化思想

二、 Apriori 算法 ( 关联分析算法 )

三、 K-means 算法 ( 聚类分析算法 )

四、 ID3 算法 ( 决策树算法 )



一、 数据挖掘算法组件化思想


0 . 数据挖掘算法的五个标准组件 :


① 模型或模式结构 : 决策树模型 , ( 信念 ) 贝叶斯模型 , 神经网络模型 等 ;

② 数据挖掘任务 : 概念描述 , 关联分析 , 分类 , 聚类 , 异常检测 , 趋势分析 等 ;

③ 评分函数 : 误差平方和 , 最大似然 , 准确率 等 ;

④ 搜索和优化方法 : 随机梯度下降 ;

⑤ 数据管理策略 : 数据存储 , 数据库相关 ;


1 . 模型或模式结构 : 通过 数据挖掘过程 得到知识 ; 是算法的输出格式 , 使用 模型 / 模式 将其表达出来, 如 : 线性回归模型 , 层次聚类模型 , 频繁序列模式 等 ;



2 . 数据挖掘任务分类 : 根据数据挖掘的目标 , 可以将数据挖掘任务分为以下几类 : ① 模式挖掘 , ② 描述建模 , ③ 预测建模 ;



① 模式挖掘 : 如 异常模式 , 频繁模式 ;


② 描述建模 : 如 聚类分析 ;


③ 预测建模 : 如 分类预测 , 趋势分析等 ;



3 . 评分函数 :



① 评分函数概念 : 评分函数用于评估 数据集 与 模型 ( 模式 ) 的拟合程度 , 值 越大 ( 越小 ) 越好 ;


② 评分函数作用 : 为 模型 ( 模式 ) 选出最合适的参数值 ;



4 . 搜索和优化算法作用 : 确定 模型 ( 模式 ) 以及其相关的 参数值 , 该模型 ( 模式 ) 使评分函数 达到某个最大 ( 最小 ) 值 ; 本质是帮助评分函数取得 最大 ( 最小 ) 值的方法 ;



① 结构确定求参数 ( 优化问题 ) : 模型 ( 模式 ) 结构确定后 , 目的就是为了确定参数值 , 针对固定的 模式 ( 模型 ) 结构 , 确定一组参数值 , 使评分函数最优 , 这是优化问题 ;


② 结构不确定 ( 搜索问题 ) : 搜索 既需要确定 模型 ( 模式 ) 的结构 , 又需要确定其参数值 , 这种类型是搜索问题 ;



5 . 数据管理策略 : 传统数据与大数据 ;



① 传统数据 ( 内存管理数据 ) : 传统的数据管理方法是将数据都放入内存中 , 少量数据 , 直接在内存中处理 , 不需要特别关注数据管理技术 ;


② 大数据 ( 集群管理数据 ) : 数据挖掘中的数据一般是 GB , TB 甚至 PB 级别的大数据 , 如果使用传统的内存算法处理这些数据 , 性能会很低 ;




二、 Apriori 算法 ( 关联分析算法 )


1 . 数据挖掘任务 : 关联模式挖掘 ;



2 . 模型 ( 模式 ) 结构 : 关联规则 , 类似于键值对结构 , 如购买啤酒的很大几率购买尿布 , 规则如下 : {啤酒} -> {尿布} ;



3 . 搜索空间 : 针对一个 “格” , 这个 “格” 是所有条目的可能组合 ; 如对购买的商品进行关联分析 , 那么搜索空间就是所有的商品 ;



4 . 搜索空间示例 : 有 4 种商品 A , B , C , D , 购买时有可能产生哪些组合呢 :


如果购买 1 个商品 , 有 C(4 , 1) 种组合 ;

如果购买 2 个商品 , 有 C(4 , 2) 种组合 ;

如果购买 3 个商品 , 有 C(4 , 3) 种组合 ;

如果购买 4 个商品 , 有 C(4 , 4) 种组合 ;


搜索空间就是上面的所有可能组合 ; 其中 C(4 , 2) 就是从 4 个元素的集合中任选 2 个的组合 , 参考离散数学的排列组合公式 ;



5 . 搜索空间概念 : 搜索和优化算法的搜索空间 , 如宽度优先遍历图时 , 先要有图的数据结构 , 这个图的数据结构就是搜索空间 ;



6 . 评分函数 : 支持度 , 可信度 ;



7 . 搜索和优化算法 : 宽度优先搜索 ;



8 . 数据管理策略 : 内存中管理数据 ;




三、 K-means 算法 ( 聚类分析算法 )


1 . 数据挖掘任务 : 聚类分析 ;



2 . 模型 ( 模式 ) 结构 : 聚类结果 , 将数据分组 , 若干组数据就是聚类分析的结果 ;



3 . 搜索空间 : 找到中心点 , 其它成员向其靠拢 , 以此为依据分组 ;



4 . 评分函数 : 误差平方和 ;



5 . 搜索优化方法 : 梯度下降方法 ;



6 . 数据管理策略 : 内存管理 ;




四、 ID3 算法 ( 决策树算法 )


1 . 数据挖掘任务 : 分类 ;



2 . 模型 ( 模式 ) 结构 : 决策树 , 树型结构 ;



3 . 搜索空间 : 决策树的所有可能的组合 ;



4 . 评分函数 : 准确率 , 分类结果越准确越好 ; 信息增益 ;



5 . 搜索优化方法 : 贪婪算法 , 确保当前步骤最优 , 但全局不一定最优 ;

6 . 数据管理策略 : 内存管理 ;

上一篇:最大子序列和的问题的解(1)


下一篇:如何设置基于Windows 2000/2003/20008平台下的智能域名服务器