关于apriori算法的一个简单的例子

2022-07-18 14:10:28

　　apriori算法是关联规则挖掘中很基础也很经典的一个算法，我认为很多教程出现大堆的公式不是很适合一个初学者理解。因此，本文列举一个简单的例子来演示下apriori算法的整个步骤。

　　下面这个表格是代表一个事务数据库D，其中最小支持度为50%，最小置信度为70%，求事务数据库中的频繁关联规则。

Tid	项目集
1	面包，牛奶，啤酒，尿布
2	面包，牛奶，啤酒
3	啤酒，尿布
4	面包，牛奶，花生

　　apriori算法的步骤如下所示:

　　(1)生成候选频繁1-项目集C1={{面包}，{牛奶}，{啤酒}，{花生}，{尿布}}。

　　(2)扫描事务数据库D，计算C1中每个项目集在D中的支持度。从事务数据库D中可以得出每个项目集的支持数分别为3,3,3,1,2，事务数据库D的项目集总数为4，因此可得出C1中每个项目集的支持度分别为75%，75%，75%，25%，50%。根据最小支持度为50%，可以得出频繁1-项目集L1={{面包}，{牛奶}，{啤酒}，{尿布}}。

　　(3)根据L1生成候选频繁2-项目集C2={{面包，牛奶}，{面包，啤酒}，{面包，尿布}，{牛奶，啤酒}，{牛奶，尿布}，{啤酒，尿布}}。

　　(4)扫描事务数据库D，计算C2中每个项目集在D中的支持度。从事务数据库D中可以得出每个项目集的支持数分别为3,2,1,2,1,2，事务数据库D的项目集总数为4，因此可得出C2中每个项目集的支持度分别为75%，50%，25%，50%，25%，50%。根据最小支持度为50%，可以得出频繁2-项目集L2={{面包，牛奶}，{面包，啤酒}，{牛奶，啤酒}，{啤酒，尿布}}。

　　(5)根据L2生成候选频繁3-项目集C3={{面包，牛奶，啤酒}，{面包，牛奶，尿布}，{面包，啤酒，尿布}，{牛奶，啤酒，尿布}}，由于C3中项目集{面包，牛奶，尿布}中的一个子集{牛奶，尿布}是L2中不存在的，因此可以去除。同理项目集{面包，啤酒，尿布}、{牛奶，啤酒，尿布}也可去除。因此C3={面包，牛奶，啤酒}。

　　(6)扫描事务数据库D，计算C3中每个项目集在D中的支持度。从事务数据库D中可以得出每个项目集的支持数分别为2，事务数据库D的项目集总数为4，因此可得出C2中每个项目集的支持度分别为50%。根据最小支持度为50%，可以得出频繁3-项目集L3={{面包，牛奶，啤酒}}。

　　(7)L=L1UL2UL3={{面包}，{牛奶}，{啤酒}，{花生}，{尿布}，{面包，牛奶}，{面包，啤酒}，{牛奶，啤酒}，{啤酒，尿布}，{面包，牛奶，啤酒}}。

　　(8)我们只考虑项目集长度大于1的项目集，例如{面包，牛奶，啤酒}，它的所有非真子集{面包}，{牛奶}，{啤酒}，{面包，牛奶}，{面包，啤酒}，{牛奶，啤酒}，分别计算关联规则{面包}—>{牛奶，啤酒}，{牛奶}—>{面包，啤酒}，{啤酒}—>{面包，牛奶}，{面包，牛奶}—>{啤酒}，{面包，啤酒}—>{牛奶}，{牛奶，啤酒}—>{面包}的置信度，其值分别为67%，67%，67%，67%，100%，100%。由于最小置信度为70%，可得}，{面包，啤酒}—>{牛奶}，{牛奶，啤酒}—>{面包}为频繁关联规则。也就是说买面包和啤酒的同时肯定会买牛奶，买牛奶和啤酒的同时也是会买面包。

码农公寓

相关文章