本节书摘来自华章出版社《R语言数据挖掘》一书中的第2章,第2.3节,作者[哈萨克斯坦]贝特·麦克哈贝尔(Bater Makhabel),李洪成 许金炜 段力辉 译,更多章节内容可以访问云栖社区“华章计算机”公众号查看。
2.3 混合关联规则挖掘
关联规则挖掘有两个有意义的应用:一是多层次和多维度关联规则挖掘;二是基于约束的关联规则挖掘。
2.3.1 多层次和多维度关联规则挖掘
对于给定的事务数据集,若数据集的某些维度存在概念层次关系,则需要对该数据集进行多层次关联规则挖掘。对事物数据集可用的任何关联规则挖掘算法都可以用于该任务。下表给出亚马逊商店的一个例子。
下面是多层次模式挖掘的流程图。
基于概念层次,低层次概念可以投影到高层次概念,具有高层次概念的新数据集可以代替原始的低层次概念。
可以在每个概念层次计算支持计数。许多类Apriori算法在计算支持计数时稍微有些不同。下面是几种不同的方法:
对所有的层次使用统一的最小支持度阈值。
对较低的层次使用较小的支持度阈值。
基于组的最小支持度阈值。
有时,Apriori性质并不总成立。这里有一些例外。
多层次关联规则是从概念层次的多层次中挖掘出来的。
2.3.2 基于约束的频繁模式挖掘
基于约束的频繁模式挖掘是使用用户设定的约束对搜索空间进行剪枝的启发式算法。
常见的约束有(但不局限于)以下几种情况:
知识类型的约束(指定我们想要挖掘什么)
数据约束(对初始数据集的限制)
维度层次约束
兴趣度约束
规则约束