概
本文讨论identifiability的问题, 即
\[p_{\theta}(x) = p_{\tilde{\theta}}(x) \Rightarrow \theta = \tilde{\theta} \]在何种情况下能够成立, 或者近似成立.
主要内容
假设观测数据\(x\)和隐变量\(z\)满足联合分布:
\[p_{\theta^*}(x, z) = p_{\theta^*}(x|z) p_{\theta^*}(z), \]因为隐变量是未知的, 所以我们接触到的实际上只有边际分布
\[p_{\theta^*}(x) = \int_z p_{\theta^*}(x, z)\mathrm{d}z. \]在实际估计参数\(\theta\)的时候, 很有可能发生:
\[p_{\theta}(x) = p_{\tilde{\theta}}(x) \approx p_{\theta^*}(x), \: \theta \not = \tilde{\theta}. \]即两个不同的联合分布\(p_{\theta}(x, z), p_{\tilde{\theta}}(x, z)\)但是却对应着同一个边际分布, 这就identifiability的问题.
在经典的VAE框架中, 已经有工作指出, 无监督下, 即仅凭观测数据\(x\), 是无法保证identifiability的.
本文的模型
本文需要用到一些额外的信息\(u\), 考虑如下分布:
\[p_{\theta}(x, z|u) = p_f(x|z) p_{T,\lambda}(z|u), \: \theta = (f, T, \lambda). \]注: \(x \in \mathbb{R}^d, z \in \mathbb{R}^n, u \in \mathbb{R}^m\).
其中,
\[x = f(z) + \epsilon \Rightarrow p_{f}(x|z) = p_{\epsilon}(x - f(z)). \] \[p_{T, \lambda}(z|mu) = \prod_{i}\frac{Q_i(z_i)}{Z_i(u)}\exp [\sum_{j=1}^k T_{i,j}(z_i) \lambda_{i,j}(u)], \]即假设先验\(z|\mu\)满足的是指数族的分布.
套用VAE的框架:
- encoder:
- decoder:
既估计的后验分布为\(q_{\phi}(z|x,\mu)\), 则ELBO:
\[\mathbb{E}_{q_{\mathcal{D}(x,u)}}[\mathbb{E}_{q_{\phi}(z|x,u)}[\log p_{\theta}(x, z|u) - \log q_{\phi}(z|x,u)]]. \]Identifiability
\(\sim\)定义: 定义\(\sim\)等价关系如下:
\[(f, T, \lambda) \sim (\tilde{f}, \tilde{T}, \tilde{\lambda}) \Leftrightarrow \\ \exist A, c, \: \mathrm{s.t.} \: T(f^{-1}(x)) = A\tilde{T}(\tilde{f}^{-1}(x)) + c, \forall x \in \mathcal{X}, \]其中\(A \in \mathbb{R}^{nk \times nk}\). 若\(A\)还是个可逆矩阵, 则
\[(f, T, \lambda) \sim_{A} (\tilde{f}, \tilde{T}, \tilde{\lambda}). \]显然, 如果
\[p_{\theta}(x|u) = p_{\tilde{\theta}}(x|u) \Rightarrow \theta \sim_A \tilde{\theta}, \]那么可以说是在线性变换允许范围内是identifiable的.
接下来给出的定理说明了什么时候\(\theta, \tilde{\theta}\)是\(\sim_A\)-identifiable的.
定理: 在前述定义的模型下, 对于\(\theta = (f, T, \lambda)\), 以及任意\(\tilde{\theta} =(\tilde{f}, \tilde{T}, \tilde{\lambda})\)满足
\[p_{\theta}(x|u)= p_{\tilde{\theta}}(x|u), \: a.e., \]若一下条件成立, 则\(\theta \sim_A \tilde{\theta}\):
- 若\(\varphi_{\epsilon}\)为\(p_{\epsilon}\)的特征函数(这里即为对于的傅里叶变换), 且\(\varphi_{\epsilon} \not = 0, \: a.e.\).
- \(f\)是一个单射.
- \(T_{i, j}\)几乎处处可微, 且\((T_{ij})_j(x)\)线性独立, 即
对于\(i=1,\ldots, n\)均成立.
4. 存在不同的点\(u^0, \cdots, u^{nk}\), 使得
可逆.
证明流程:
利用条件1, 2证明
利用条件4证明
\[T(f^{-1}(x)) = A\tilde{T}(\tilde{f}^{-1}(x)) + c, \: A = L^{-T}\tilde{L}^T. \]利用条件3证明\(A\)可逆.
注: 显然条件四一定程度熵说明了为什么无监督不行(因为其相当于\(\lambda(u)\)为常数).
注: 关于引理2的证明我有疑问, 我认为应当这般证明:
令\(\mathcal{X}_i = \{x \in \mathbb{R}, T_i'(x) = 0\}\), 取\(\theta_i\not=0, \theta_j = 0, j\not=i\), 则
\[\langle T'(x), \theta \rangle = 0, \forall x \in \mathcal{X_i} \Rightarrow \langle T(x), \theta \rangle = \mathrm{const}, \]由定义知\(\mathcal{X}_i\)的测度为0.
注: 本文还有一些别的identifiability的讨论, 这里不多赘述.