WGAN理论推导

    大部分的文章讲WGAN都会从GAN开始扯,然后到WGAN这里直接扔出一个公式

                                                      WGAN理论推导

或者

                                                  WGAN理论推导

    然后开始讲这就是EM距离,讲的是模拟推土机推土的距离,至于怎么推土的,不好意思,没有。

    《从Wasserstein距离、对偶理论到WGAN》这篇文章中讲的是这土是怎么推的,本文内容基于这篇文章,主要工作是根据自身理解情况调整内容顺序,并添加一些个人理解的内容。

    1.Wasserstein距离

        真正的Wasserstein距离公式实际上是长下面这个样子的:

                                             WGAN理论推导

        其中WGAN理论推导表示WGAN理论推导服从WGAN理论推导的联合分布,WGAN理论推导WGAN理论推导的边缘分布,因此有下面的关系成立

                            WGAN理论推导  和WGAN理论推导

      WGAN理论推导表示下确界,简单理解就是最小值。WGAN理论推导分布WGAN理论推导WGAN理论推导的距离。距离可以使用各种形式,最常用的有各种范数,还有余弦距离等等。

   边缘分布可以从概率的角度来解释,但在EM距离中通常采用“推土机”推土的比喻,实际上就是将一个分布转换成另一个分布需要做的工作是多少,WGAN理论推导表示的就是从x处搬运WGAN理论推导到y处所需要的成本,这个成本可以理解为做的功是多少,或者移动的距离是多少,总是会得到一个表示成本的数字,如下图所示:

WGAN理论推导

              推土机距离图示:左边p(x)每处的沙土被分为若*分,然后运输到右端q(x)的同色的位置(或者不动)

   因此,可以将WGAN理论推导理解为成本(也就是距离),将WGAN理论推导理解为搬运的策略,WGAN理论推导取最小就得到了最小的搬运成本。

    2.从W距离到线性规划

                                                            WGAN理论推导

        公式(1)看起来比较复杂,实际上可以转换成一种更好理解的形式,即有约束的优化问题:

        问题1:目标是求

                                                                   WGAN理论推导

的最小值,其中WGAN理论推导是确定的,且需要满足以下约束:

                                                 WGAN理论推导  WGAN理论推导

       积分只是求和的连续极限形式,因此可以将式(2)写成离散的形式,将WGAN理论推导WGAN理论推导离散化,写成很长的向量[1]WGAN理论推导WGAN理论推导如下:

                                                  WGAN理论推导

        因此式(2)就相当于WGAN理论推导WGAN理论推导对应位置相乘,也就是内积WGAN理论推导,这里排列规则就是先把x固定,然后枚举所有的y,然后再换一个x再枚举所有的y,这样就可以将x,y的所有组合都写在向量里。

        现在把约束条件WGAN理论推导同样的进行离散化。

    WGAN理论推导WGAN理论推导WGAN理论推导

    写成矩阵形式就是WGAN理论推导

    现在得出问题1的另一种形式了

                                                      WGAN理论推导

    很容易看出这是一个在线性约束下的最小值优化问题,

   3.线性规划与对偶

      [1]中讲的已经很明白了,实在没什么好讲的,复制粘贴至此。

       让我们用更一般的记号,把线性规划问题重写一遍,常见的形式有两种:

                                     WGAN理论推导
    这两种形式本质上是等价的,只不过在讨论第一种的时候相对简单一点(真的只是简单一点点,并没有本质差别),而从(6)式可以知道,我们目前只关心第一种情况。注意,为了避免混乱,我们必须声明一下各个向量的大小。我们假设每个向量都是列向量,经过转置之后就代表一个行向量,WGAN理论推导都是WGAN理论推导维向量,其中WGAN理论推导也就是权重,WGAN理论推导就是对WGAN理论推导的各个分量加权求和;WGAN理论推导WGAN理论推导维向量,自然WGAN理论推导是一个WGAN理论推导的矩阵了,WGAN理论推导实际上就是描述了WGAN理论推导个等式约束。

     弱对偶形式 

        在规划和优化问题中,“对偶形式”是一个非常重要的概念。一般情况下,“对偶”是指某种变换,能将原问题转化为一个等价的、但是看起来几乎不一样的新问题,即

                                                    WGAN理论推导


“对偶”之所以称为“对偶”,是因为将新问题进行同样形式的变换后,通常来说能还原为原问题,即

                                                    WGAN理论推导


即“对偶”像是一面镜子,原问题和新问题相当于“原像”和“镜像”,解决了一个问题,就等价于解决了另一个问题。所以就看哪个问题更简单了。

    最大 vs 最小 

    这里我们先介绍“弱对偶形式”,其实它推导起来还是挺简单的。

    我们的目标是WGAN理论推导,设置最小值在WGAN理论推导处取到,那么我们有WGAN理论推导,我们可以在两边乘以一个WGAN理论推导,使得等式变成一个标量:WGAN理论推导

如果此时假设WGAN理论推导,那么WGAN理论推导(因为WGAN理论推导),则WGAN理论推导。也就是说,在条件WGAN理论推导下的任意WGAN理论推导总是不大于WGAN理论推导,“总是”意味着即使对于最大那个也一样,所以我们就有

                                           WGAN理论推导
这便称为“弱对偶形式”,它的形式就是:“左边的最大”还大不过“右端的最小”。

        对应的“强对偶形式”如下:

                                            WGAN理论推导

        就是只保留相等关系。

        几点评注 

      对于弱对偶形式,也许下面几点值得进一步说明一下:

1、现在我们将原来的最小值问题变成了一个最大值问题WGAN理论推导,这便有了对偶的味道。当然,弱对偶形式之所以“弱”,是因为我们目前找到的对偶形式只是原来问题的一个下界,还没有证明它们二者相等。

2、弱对偶形式在很多优化问题中(包括非线性优化)都成立。如果二者真的相等,那么就是真正意义上的对偶了,称为强对偶形式。

3、理论上,我们确实需要证明式(8)左右两端相等才能进一步应用它。但从应用角度,其实弱对偶形式给出的下界都已经够用了,因为深度学习中的问题都很复杂,能有一个近似的目标去优化都已经很不错了。

4、读者可能会想问:前面我们为什么要假设yWGAN理论推导而不干脆假设WGAN理论推导?假设后者当然简单很多,但问题是后者在实践中很难实现,所以只能假设前者。

    4.WGAN

    根据式(9)和式(6)可以得到下面的问题

                          WGAN理论推导

    左边是从W距离出发转换成的线性规划问题,右边是该线性规划的对偶问题。式(5)中b是由WGAN理论推导WGAN理论推导拼接起来的,WGAN理论推导可以写成类似的形式如下:

                                                           WGAN理论推导

    因此WGAN理论推导现在就可以变成连加的形式,

                                          WGAN理论推导

    约束条件WGAN理论推导代入之后可以得到下面的结果

                                                      WGAN理论推导

     弄了这么一大圈就是为了找到式(1)的一个对偶形式

                       WGAN理论推导

    且WGAN理论推导

   因此

                                       WGAN理论推导

    即如果WGAN理论推导,它的最大值不会小于原来的最大值,所以我们可以放心地让g=−fg=−fWGAN理论推导,从而

                        WGAN理论推导

    由于p和q都是分布,因此可以写成期望的形式,利用极大似然估计法来拟合真实分布。

                                WGAN理论推导

    现在终于得到了Wasserstein的期望的计算形式。

参考文献:

[1]https://spaces.ac.cn/archives/6280

 

 

 

 

 

 

 

 

 

 

 

 

 

 

上一篇:自用初始化脚本


下一篇:判断Long型数据是否相等