大部分的文章讲WGAN都会从GAN开始扯,然后到WGAN这里直接扔出一个公式
或者
然后开始讲这就是EM距离,讲的是模拟推土机推土的距离,至于怎么推土的,不好意思,没有。
《从Wasserstein距离、对偶理论到WGAN》这篇文章中讲的是这土是怎么推的,本文内容基于这篇文章,主要工作是根据自身理解情况调整内容顺序,并添加一些个人理解的内容。
1.Wasserstein距离
真正的Wasserstein距离公式实际上是长下面这个样子的:
其中表示服从的联合分布,是的边缘分布,因此有下面的关系成立
和
表示下确界,简单理解就是最小值。分布和的距离。距离可以使用各种形式,最常用的有各种范数,还有余弦距离等等。
边缘分布可以从概率的角度来解释,但在EM距离中通常采用“推土机”推土的比喻,实际上就是将一个分布转换成另一个分布需要做的工作是多少,表示的就是从x处搬运到y处所需要的成本,这个成本可以理解为做的功是多少,或者移动的距离是多少,总是会得到一个表示成本的数字,如下图所示:
推土机距离图示:左边p(x)每处的沙土被分为若*分,然后运输到右端q(x)的同色的位置(或者不动)
因此,可以将理解为成本(也就是距离),将理解为搬运的策略,取最小就得到了最小的搬运成本。
2.从W距离到线性规划
公式(1)看起来比较复杂,实际上可以转换成一种更好理解的形式,即有约束的优化问题:
问题1:目标是求
的最小值,其中是确定的,且需要满足以下约束:
积分只是求和的连续极限形式,因此可以将式(2)写成离散的形式,将和离散化,写成很长的向量[1]和如下:
因此式(2)就相当于和对应位置相乘,也就是内积,这里排列规则就是先把x固定,然后枚举所有的y,然后再换一个x再枚举所有的y,这样就可以将x,y的所有组合都写在向量里。
现在把约束条件同样的进行离散化。
写成矩阵形式就是,
现在得出问题1的另一种形式了
很容易看出这是一个在线性约束下的最小值优化问题,
3.线性规划与对偶
[1]中讲的已经很明白了,实在没什么好讲的,复制粘贴至此。
让我们用更一般的记号,把线性规划问题重写一遍,常见的形式有两种:
这两种形式本质上是等价的,只不过在讨论第一种的时候相对简单一点(真的只是简单一点点,并没有本质差别),而从(6)式可以知道,我们目前只关心第一种情况。注意,为了避免混乱,我们必须声明一下各个向量的大小。我们假设每个向量都是列向量,经过转置之后就代表一个行向量,都是维向量,其中也就是权重,就是对的各个分量加权求和;是维向量,自然是一个的矩阵了,实际上就是描述了个等式约束。
弱对偶形式
在规划和优化问题中,“对偶形式”是一个非常重要的概念。一般情况下,“对偶”是指某种变换,能将原问题转化为一个等价的、但是看起来几乎不一样的新问题,即
“对偶”之所以称为“对偶”,是因为将新问题进行同样形式的变换后,通常来说能还原为原问题,即
即“对偶”像是一面镜子,原问题和新问题相当于“原像”和“镜像”,解决了一个问题,就等价于解决了另一个问题。所以就看哪个问题更简单了。
最大 vs 最小
这里我们先介绍“弱对偶形式”,其实它推导起来还是挺简单的。
我们的目标是,设置最小值在处取到,那么我们有,我们可以在两边乘以一个,使得等式变成一个标量:。
如果此时假设,那么(因为),则。也就是说,在条件下的任意总是不大于,“总是”意味着即使对于最大那个也一样,所以我们就有
这便称为“弱对偶形式”,它的形式就是:“左边的最大”还大不过“右端的最小”。
对应的“强对偶形式”如下:
就是只保留相等关系。
几点评注
对于弱对偶形式,也许下面几点值得进一步说明一下:
1、现在我们将原来的最小值问题变成了一个最大值问题,这便有了对偶的味道。当然,弱对偶形式之所以“弱”,是因为我们目前找到的对偶形式只是原来问题的一个下界,还没有证明它们二者相等。
2、弱对偶形式在很多优化问题中(包括非线性优化)都成立。如果二者真的相等,那么就是真正意义上的对偶了,称为强对偶形式。
3、理论上,我们确实需要证明式(8)左右两端相等才能进一步应用它。但从应用角度,其实弱对偶形式给出的下界都已经够用了,因为深度学习中的问题都很复杂,能有一个近似的目标去优化都已经很不错了。
4、读者可能会想问:前面我们为什么要假设y而不干脆假设?假设后者当然简单很多,但问题是后者在实践中很难实现,所以只能假设前者。
4.WGAN
根据式(9)和式(6)可以得到下面的问题
左边是从W距离出发转换成的线性规划问题,右边是该线性规划的对偶问题。式(5)中b是由和拼接起来的,可以写成类似的形式如下:
因此现在就可以变成连加的形式,
约束条件代入之后可以得到下面的结果
弄了这么一大圈就是为了找到式(1)的一个对偶形式
且
因此
即如果,它的最大值不会小于原来的最大值,所以我们可以放心地让g=−fg=−f,从而
由于p和q都是分布,因此可以写成期望的形式,利用极大似然估计法来拟合真实分布。
现在终于得到了Wasserstein的期望的计算形式。
参考文献:
[1]https://spaces.ac.cn/archives/6280