Normalizing Flows (NF) - 流模型 - 研究方向

Normalizing Flows: An Introduction and Review of Current Methods (2020 TPAMI)

Open problems and possible research directions

1. Inductive biases (归纳性偏差)

1.1 role of the base measure (基准测量的作用)

一般来说,normalizing flow的基本度量被认为是一个简单的分布(例如,uniform或高斯)。然而,这并不需要是这样的。任何我们可以轻松抽取样本并计算出对数概率密度函数log probability density function都是可能的,这个分布的参数可以在训练中学习。

理论上说,base measure不应该是重要的:任何可以计算出CDF的分布都可以成为任何可以计算出 CDF 的分布,都可以通过应用inverse CDF 来模拟simulate。然而,在实践中,如果structure在base measure中被提供,所产生的变换可能会变得更容易学习。换句话说,base measure的选择可以被看作是对分布的一种先验或归纳偏见其本身也可能是有用的。例如,[Jaini等人,2019b]在建模尾部行为modelling tail behaviour的背景下探讨了生成转换的复杂性和base measure的形式之间的trade-off。

1.2 Form of diffeomorphisms (微分同胚的形式)

探索的大部分flows是三角流triangular flows(耦合coupling或自回归架构autoregressive)。Residual networks和neural ODEs 也正在积极研究和应用。一个自然的问题是:有没有其他有效的微分同胚建模model diffeomorphisms方法计算?架构有什么归纳偏差可以施加?例如,斯潘蒂尼等人[2017] 调查三角流的稀疏性与目标分布的马尔可夫性质。

一个相关的问题是,当人们需要学习a conditional probability distribution时,如何以最佳方式建立conditional normalizing flows? 特里佩和特纳[2017] 建议对每个条件使用不同的flows,但是这种方法没有利用权重共享weigt sharing,所以在内存和数据使用方面效率低下。阿塔诺夫等[2019] 提出使用仿射耦合层affine coupling layer,其中参数 θ 取决于条件。条件分布特别适用于时间序列建模,其中需要找到 p(yt|y<t) [Kumar et al., 2019]。

1.3 loss function

大多数现有的flows是通过minimization源分布source和目标分布target distribution之间的KL-divergence来训练的(或者,等同于,用对数可能性最大化log-likelihood maximization)。然而,也可以使用其他损失,这将使normalizing flows在更广泛的最优传输理论optimal transport theory的背景下进行。在这个方向上已经完成了有趣的工作包括Flow-GAN和Wasserstein距离的最小化minimization,suggested by[Arjovsky等人,2017;Tolstikhin等人,2018]。

2. Generalisation to non-Euclidean spaces(非欧几里得空间的泛化)

2.1 flows on manifolds (

在manifolds上modelling probability distributions在许多领域都有应用,包括机器人学、分子生物学、光学、流体力学和等离子体物理学。如何更好地在一个general differentiable manifold上面构建一个normalizing flow仍然是一个开放的问题。在manifold上应用normalizing flow framework的一种方法是,在欧氏空间上找到一个基分布base distribution,并将其转移到manifold of interest。有两种主要的方法。1)将manifold嵌入Euclidean space,并 "restrict "the measure。或者2)induce the measure from the tangent。我们将依次简要地讨论这两种方法。

2.2 discrete distributions (离散分布)

对离散空间上的分布进行建模很重要,然而,在一系列问题中,将normalizing flows推广到离散分布仍然是一个在实践中开放的问题。离散潜变量discrete latent variables由丁等人[2019] 作为沿着分段双射映射piece-bijective map推进连续随机变量continuous random variables的辅助工具。 但是,如果我们的一个或两个分布是离散的, 我们可以定义normalizing flows吗? 这对许多应用是有用的,包括自然语言建模、图的生成和其他。

为此,Tran等人[2019] 在有限集合finite set上建立了双射函数模型 model bijective functions,并表明在这种情况下,变量的变化the change of variables由以下公式给出:pY(y) = pZ(g-1(y)),即,没有雅各布项Jacobian term(与定义1比较)。对于具有离散变量的函数的反向传播,他们使用直通梯度估计器straight-through gradient estimator. 然而,这种方法不能扩展到具有大量元素的分布。

另外,Hoogeboom等人[2019b]在ZD上直接建立加性耦合层additive coupling layers的双射bijections模型。其他方法将离散变量discrete variable转化为连续潜伏变量continuous latent variable,然后在连续潜势空间中continuous latent space中应用normalizing flows。

一种不同的方法是去量化dequantization,(即在离散数据中加入噪声,使其成为连续数据),它可以用于序数变量ordinal variables,如离散的像素强度discretized pixel intensities。噪声可以是均匀的uniform,但也可以是其他形式同时这种非量化甚至可以作为一个潜在的变量latent variable模型被学习。Hoogeboom等人[2020]分析了不同选择的去量子化目标和去量子化分布的不同选择对性能的影响。

上一篇:C++格式标识和操纵器


下一篇:学习数据结构day6