1.相对熵,KL散度
\(真实分布p(x),近似分布q(x)对其建模,则分布p(x),q(x)之间的相对熵/KL散度为\)
注意KL\((p||q)\ne\)KL\((q||p)\),相对熵不是一个对称量
\(KL散度可以看做是两个分布p(x)和q(x)之间不相似程度的度量\)
2.KL散度的近似公式
\(对于p(x),可以用q(x|\theta)来近似这个分布,然后用p(x)与q(x|\theta)之间的KL散度来最小化,求出\theta参数,但是这个行不通,因为真实分布p(x)未知\)
\(但是我们有已经观察到了服从p(x)分布的有限数量的训练点x_n,n=1,..,N,那关于p(x)的期望就可以通过这些点的有限加和,用公式(1.35)来近似,即\)