【原】Coursera—Andrew Ng机器学习—课程笔记 Lecture 16—Recommender Systems 推荐系统

2023-02-10 07:30:08

Lecture 16 Recommender Systems 推荐系统

16.1 问题形式化 Problem Formulation

在机器学习领域，对于一些问题存在一些算法，能试图自动地替你学习到一组优良的特征。通过推荐系统(recommender systems)，将领略一小部分特征学习的思想。

假使有 5 部电影，3部爱情片、2部动作片。 4 个用户为其中的部分电影打了分。现在希望构建一个算法，预测每个人可能给没看过的电影打多少分，以此作为推荐的依据。

下面引入一些标记:
n_u       代表用户的数量
n_m      代表电影的数量
r(i， j)   如果用户 j 给电影 i 评过分则 r(i， j) = 1
y^(i，j)    代表用户 j 给电影 i 的评分（注：这里 i 和 j 不要搞反）
m_j       代表用户 j 评过分的电影的总数

16.2 基于内容的推荐系统 Content Based Recommendations

1 定义

在一个基于内容的推荐系统算法中，假设对于我们希望推荐的东西有一些数据，是这些东西的特征。
现在假设每部电影都有两个特征， x₁ 代表电影的浪漫程度，x₂代表电影的动作程度。

则每部电影都有一个特征向量，如 x⁽¹⁾是第一部电影的特征向量，为[0.9 0]。
下面我们采用线性回归模型，针对每一个用户都训练一个线性回归模型，如θ⁽¹⁾ 是第一个用户的模型的参数。于是有:
θ^(j)用户 j 的参数向量
x⁽ⁱ⁾电影 i 的特征向量
对于用户 j 和电影 i，我们预测其评分为：(θ^(j))^Tx⁽ⁱ⁾

2 代价函数

针对用户 j，该线性回归模型的代价为预测误差的平方和，加上正则化项:

其中 i: r(i， j) 表示我们只计算那些用户 j 评过分的电影。在一般的线性回归模型中，误差项和正则项应该都是乘以1/2m，在这里我们将m去掉，且不对方差项θ₀进行正则化处理。
上面的代价函数只是针对一个用户的，为了学习所有用户，我们将所有用户的代价函数求和:

如果我们要用梯度下降法来求解最优解，我们计算代价函数的偏导数后得到梯度下降的更新公式为:

16.3 协同过滤 Collaborative Filtering

在之前的基于内容的推荐系统中，使用电影的特征，训练出了每一个用户的参数。相反地，如果拥有用户的参数，可以学习得出电影的特征。

但是如果既没有用户的参数，也没有电影的特征，这两种方法都不可行了。可以使用协同过滤算法，同时学习这两者。

优化目标便改为同时针对x和θ进行。是一个：预测 θ，再反过来预测 x，再预测 θ，再预测 x 的迭代过程。

16.4 协同过滤算法 Collaborative Filtering Algorithm

协同过滤的代价函数定义为：

对代价函数求偏导数:

(注:在协同过滤从算法中，通常不使用方差项，如果需要的话，算法会自动学得。)
协同过滤算法使用步骤如下:

1. 初始 x 和 θ 为一些随机小值
2. 使用梯度下降算法最小化代价函数 J
3. 在训练完算法后，通过计算 θ^Tx 预测用户 j 给电影 i 的评分
通过这个学习过程获得的特征矩阵包含了有关电影的重要数据，这些数据不总是人能读懂的，但是可以用这些数据作为给用户推荐电影的依据。

总结：

16.5 向量化:低秩矩阵分解 Vectorization_ Low Rank Matrix Factorization

协同过滤算法的向量化实现
举例:
1）给出一件产品，能否找到与之相关的其它产品。
2）一位用户最近看上一件产品，有没有其它相关的产品可以推荐给他。

现在有5部电影，4位用户，矩阵 Y 就是一个 5 行 4 列的矩阵，存储每个用户对每个电影的评分数据：

通过使用 θ 和 x 计算，可以预测出每个用户对每个电影打的分数：

现在将所有 x 都集中在一个大的矩阵X中，每一部电影是一行；

将所有 θ 集中在一个大的Θ中，每个用户是一行。

则有：

因为矩阵X乘Θ的转置，在数学上具有低秩属性。因此这个算法也被称为低秩矩阵分解 low rank matrix factorization。

现在已经学习到了特征参数向量，那么可以使用这些向量做一些别的事情，比如度量两部电影之间的相似性。例如，如果一位用户正在观看电影 x⁽ⁱ⁾ ，可以根据两部电影的特征向量之间的距离 ∥x⁽ⁱ⁾ − x^(j)∥，寻找另一部相似电影 x^(j)：

16.6 推行工作上的细节:均值归一化 Mean Normalization

现在新增一个用户 Eve，她没有为任何电影评分，那么我们以什么为依据为 Eve 推荐电影呢?

如果根据之前的模型，因为她没有打分，代价函数第一项为0。算法目标变为最小化最后一项，最后得到 θ⁽⁵⁾中的元素都是0。现在拿着 θ⁽⁵⁾预测出的瓶分都是0。这没有什么意义，因此需要做一些处理。

首先需要对结果 Y 矩阵进行均值归一化处理，将每一个用户对某一部电影的评分减去所有用户对该电影评分的平均值:

然后利用这个新的 Y 矩阵来训练算法。最后在预测评分时，需要在预测值的基础上加回平均值，即预测值等于 (θ^(j))^Tx⁽ⁱ⁾+ μ_i 。因此对于 Eve，新模型预测出的她的打分都是该电影的平均分。