《Python数据挖掘:概念、方法与实践》——第2章关联规则挖掘

本节书摘来自华章社区《Python数据挖掘:概念、方法与实践》一书中的第2章关联规则挖掘,作者[美] 梅甘·斯夸尔(Megan Squire),更多章节内容可以访问云栖社区“华章社区”公众号查看

第2章
关联规则挖掘
在数据挖掘工具箱中,计量某个模式的频率是一项关键任务。在某些情况下,较频繁出现的模式可能最终成为更加重要的模式。如果我们可以发现经常同时出现的两个或者三个项目,就更为有趣了。
在本章中,我们开始研究频繁项集,然后将其扩展为称作关联规则的一类模式。我们将介绍如下主题:
什么是频繁项集?使用哪些技术找出频繁项集?瓶颈在哪里?如何加速这一过程?
如何将频繁项集扩展为关联规则?
什么是好的关联规则?我们将根据数据库中的支持程度、对规则本身的置信度以及我们找出的规则所增加的价值,学习描述特定关联规则的价值。
为此,我们将编写一个程序,在关于一组软件项目的元数据(事实)公开数据集中寻找频繁项集。然后,学习在用于描述那些项目的标记中寻找频繁项集。接着,将学习通过计算数据库支持度,然后增加概率导向(X蕴含Y)置信区间,将频繁项集扩展为关联规则。最后,将学习如何解读关联规则。具体地说,我们应该理解关联规则说明以及没有说明的情况。

上一篇:Windows 特殊文件夹小全


下一篇:Android--序列化XML数据