本节书摘来自华章出版社《推荐系统:技术、评估及高效算法》一书中的第2章,第2.1节,作者 [ 美]弗朗西斯科·里奇(Francesco Ricci)利奥·罗卡奇(Lior Rokach)布拉哈·夏皮拉(Bracha Shapira)保罗 B.坎特(Paul B.Kantor),更多章节内容可以访问云栖社区“华章计算机”公众号查看
2.1 简介
推荐系统典型地运用了其他相邻领域的技术和方法,如人机交互和信息检索。但是,大多数系统的核心算法都可以理解成数据挖掘技术的一个特例。
数据挖掘的过程一般由三个连续执行的步骤组成:数据预处理[59]、数据分析和结果解释(见图2.1)。我们将在2.2节中分析一些最重要的数据预处理方法。鉴于数据抽样、数据降维、距离函数在推荐系统中的意义及所担任的重要角色,我们将特别关注这些内容。从2.3节到2.5节,将总体介绍在推荐系统中最常使用的数据挖掘方法:分类、聚类、关联规则发现(图2.1详细显示了本章中包含的不同主题)。
本章不会完整回顾数据挖掘方法,而是强调数据挖掘算法在推荐系统领域中的影响,并概述已经成功应用的主要数据挖掘技术。感兴趣的读者可以进一步参考数据挖掘课本(见[28,73]),或参考贯穿全章的引文。