1. Generalized Bayesian decision
-
Formulation
- Soft decision: qx(⋅∣y)
- Cost function: C(x,qx)
-
Cost function
- proper: px∣y(⋅∣y)=arg{qx≥0:∑aq(a)=1}minE[C(x,qx(⋅))∣y=y]
- local: C(x,qx)=ϕ(x,qx(x))
-
Log-loss criterion: C(x,q)=−Alogqx(x)+B(x), A>0
- proper and local
Theorem: When the alphabet X consists of at least 3 values (∣X∣≜L≥3), then the log-loss is the only smooth local, proper cost function.
Proof: Let ql≜q×(xl),pl≜px∣y(xl∣y),ϕl(⋅)≜ϕ(xl,⋅)
proper⟹p1,…,pL={q1,…,qL≥0:∑l=1Lql=1}argminl=1∑Lplϕl(ql)
拉格朗日乘子法⟹p1,…,pL=q1,…,qLargminφ, with φ=l=1∑Lplϕl(ql)+λ(p1,…,pL)[l=1∑Lql−1]
proper⟹∂qk∂φ∣∣∣∣q=pl,l=1,…,L=pkϕ˙k(pk)+λ(p1,…,pL)=0,k=1,…,L
- 由 locality 可推出 λ 为常数,ϕk(q)=−λlnq+ck, k=1,...,L
-
Gibbs inequality
if x∼px(⋅), ∀q(⋅)we have Ex[logp(x)]≥E[logq(x)]x∑p(x)logp(x)≥x∑p(x)logq(x)"="⟺p(x)=q(x)
2. Discrete information theory
-
Entropy: H(x)≜minqxE[C(x,qx)]
-
Conditional entropy: H(x∣y)≜∑ypy(y)H(x∣y=y)
H(x∣y=y)≜minqxE[C(x,qx)∣y=y] -
Mutual information: I(x;y)≜H(x)−H(x∣y)=H(x)+H(y)−H(xy)
-
Conditional mutual information: I(x;y∣z)≜H(x∣z)−H(x∣y,z)
-
Chain rule: I(x;y,z)=I(x;z)+I(x;y∣z)
-
Information divergence(KL distance)
- Definition
D(p×∥qx)≜Epx[−logqx(x)]−Epx[−logpx(x)]=a∑px(a)logqx(a)px(a)
-
Properties
-
≥0(只有 p=q 的时候才能取 = 吗?)
-
I(x;y)=D(px,y∣∣pxpy)
-
δ→0limδ2D(py(⋅;x)∥py(⋅;x+δ))=21Jy(x)
-
-
Data processing inequality (DPI)
Theorem: if x↔y↔t is a Markov chain, then
I(x;y)≥I(x;t)
with “=” ⟺ x↔t↔y is a Markov chainCorollary: deterministic g(⋅), I(x;y)≥I(x;g(y))
Corollary: t=t(y) is sufficient ⟺I(x;y)=I(x;t)
Proof: 应用互信息链式法则
Remark: 证明不等式的时候注意取等号的条件 I(x;y∣t)=0
Theorem: 若 qx′(b)=∑a∈XW(b∣a)px(a),qy′(b)=∑a∈XW(b∣a)py(a)
那么对任意 W(⋅∣⋅) 有 D(qx′∣∣qy′)≤D(px∣∣py)Proof: 待完成 …
Theorem: 对确定性函数 ϕ(⋅),w=ϕ(z),有 Jw(x)=Jz(x)
Proof: 待完成 …
3. Information geometry
-
Probability simplex
- 若字符集有 M 个字符,则概率单形为 M-1 维的超平面,且只位于第一象限
-
Boundary
- 根据 p,q 是否位于边界(即存在 p(y′)=0) 可决定 D(p∣∣q)<∞ 还是 D(p∣∣q)=∞
-
Local information geometry
取 p0∈int(PY),对任意分布(向量) p 定义其归一化表示
ϕ(y)=2p0(y)p(y)−p0(y)
p0 的邻域被定义为一个球
{p:∣ϕp(y)∣≤B, ∀y}
那么对小邻域内的两个分布 p1,p2 有
D(p1∣∣p2)=y∑∣ϕ1(y)−ϕ2(y)∣2(1+o(1))≈∣∣ϕ1−ϕ2∣∣2
证明:代入散度公式,应用泰勒级数展开化简。其中需要注意到
y∑2p0(y)ϕ(y)=y∑p(y)−p0(y)=0
Remark:直观理解就是小邻域内散度近似为欧氏距离
4. Information projection
- Definition: q 向闭集 P 内的投影 p∗=argminp∈PD(p∣∣q)
- 存在性:由于 D(p∣∣q) 非负且对 p 连续,而 P 非空且为闭集,因此一定存在
- 唯一性:不一定唯一,但如果 P 为凸集,则 p* 唯一
- Pythagoras’ Theorem
Theorem(Pythagoras’ Theorem): p* 是 q 向非空闭凸集 P 上的投影,那么任意 p∈P 有
D(p∣∣q)≥D(p∣∣p∗)+D(p∗∣∣q)
Proof: 取 pλ=λp+(1−λ)p∗∈P由投影定义可知 ∂λ∂D(pλ∣∣q)∣∣∣λ=0≥0
代入化简可得证
Remark: 直观理解就是不可能通过多次中间投影,使整体的KL距离(散度)减小
Corollary: 如果 q 不在 Py 的边界上,那么其在线性分布族 P 上的投影 p∗ 也不可能在 Py 的边界上,除非 P 中的所有元素都在某个边界上
Proof: 应用散度的 Boundary、毕达哥拉斯定理
-
Linear families
-
Definition: L 是一个线性分布族,如果对于一组映射函数 t(⋅)=[t1(),...,tK()]T 和对应的常数 tˉ=[tˉ1,...,tˉK]T,有 Ep[ti(y)]=tˉi,i=1,…,K for all p∈L
≜T⎣⎢⎡t1(1)−tˉ1⋮tK(1)−tˉK⋯⋱⋯t1(M)−tˉ1⋮tK(M)−tˉK⎦⎥⎤⎣⎢⎡p(1)⋮p(M)⎦⎥⎤=0 -
性质
- L 的维度为 M-rank(T)-1
- L 是一个闭集、凸集
- p1,p2∈L,那么 p=λp1+(1−λ)p2∈PY, λ∈R,注意 λ 可以取 [0,1] 之外的数
Theorem(Pythagoras’ Identity): q 向线性分布族 L 的投影 p∗ 满足以下性质
D(p∥q)=D(p∥p∗)+D(p∗∥q), for all p∈L
Proof: 类似前面不等式的证明,只不过现在由于 λ∈R 所以不等号变成了等号Theorem(Orthogonal families): p∗∈PY 为任一分布,则向线性分布族 Lt(p∗) 的投影为 p∗ 的所有分布都属于一个指数分布 εt(p∗)
$$
\mathcal{L}{\mathbf{t}}\left(p^{*}\right) \triangleq\left{p \in \mathcal{P}^{\mathcal{Y}}: \mathbb{E}{p}[\mathbf{t}(\mathbf{y})]=\overline{\mathbf{t}} \triangleq \mathbb{E}_{p^{*}}[\mathbf{t}(\mathbf{y})]\right} \\begin{aligned} \mathcal{E}_{\mathbf{t}}\left(p^{}\right) \triangleq\left{q \in \mathcal{P}^{\mathcal{Y}}: q(y)=p^{}(y) \exp \left{\mathbf{x}^{\mathrm{T}} \mathbf{t}(y)-\alpha(\mathbf{x})\right}\right.\ \text { for all }\left.y \in \mathcal{Y}, \text { some } \mathbf{x} \in \mathbb{R}^{K}\right} \end{aligned}
$$
其中需要注意的是 Lt(p∗),Et(p∗) 的表达形式并不唯一,括号内的 p∗ 均可以替换为对应集合内的任意一个其他分布,他们表示的是同一个集合Remarks:
- 根据上面的定理,可以由 t(⋅),tˉ 求出 q 向线性分布族的投影 p*
- 在小邻域范围内,可以发现 Lt(p∗),Et(p∗) 的正规化表示 ϕLTϕE=0,即二者是正交的
-