1. Bayesian parameter estimation
-
Formulation
- Prior distribution px(⋅)
- Observation py∣x(⋅∣⋅)
- Cost C(a,a^)
-
Solution
- x^(⋅)=argminf(⋅)E[C(x,f(y))]
- x^(y)=aargmin∫XC(x,a)px∣y(x∣y)dx
-
Specific case
-
MAE(Minimum absolute-error)
- C(a,a^)=∣a−a^∣
- x^ is the median of the belief px∣y(x∣y)
-
MAP(Maximum a posteriori)
- C(a,a^)={1,0,∣a−a^∣>εotherwise
- x^MAP(y)=argmaxapx∣y(a∣y)
-
BLS(Bayes’ least-squares)
-
C(a,a^)=∣∣a−a^∣∣2
-
x^BLS(y)=E[x∣y]
-
proposition
-
unbiased: b=E[e(x,y)]=E[x^(y)−x]=0
-
误差的协方差矩阵就是 belief(后验分布?)的协方差阵的期望
ΛBLS=E[Λx∣y(y)]
-
-
-
-
Orthogonality
x^(⋅) is BLS⟺E[[x^(y)−x]gT(y)]=0Proof: omit
2. Linear least-square estimation
-
Drawback of BLS x^BLS(y)=E[x∣y]
- requires posterior p(x∣y), which needs p(x) and p(y∣x)
- calculating posterior is complicated
- estimator is nonlinear
-
Definition of LLS
- x^LLS(y)=argf(⋅)∈BminE[∣∣x−f(y)∣∣2]B={f(⋅):f(y)=Ay+d}
- 注意 x^(y) 是一个随机变量,是关于 y 的一个函数
- LLS 与 BLS 都是假设 x 为一个随机变量,有先验分布,不同之处在于 LLS 要求估计函数为关于观测值 y 的线性函数,因此 LLS 只需要知道二阶矩,而 BLS 需要知道后验均值
-
Property
-
Orthogonality
x^(⋅) is LLS⟺E[x^(y)−x]=0 and E[(x^(y)−x)yT]=0 -
推论:由正交性可得到
- x^LLS(y)=μX+ΛxyΛy−1(y−μy)
- ΛLLS≜E[(x−x^LLS(y))(x−x^LLS(y))T]=Λx−ΛxyΛy−1ΛxyT
Proof: x 可以是向量
⟹:反证法
- suppose E[x^LLS(y)−x]=b=0,take x^′=x^LLS−b
then E[∣∣x^′−x∣∣2]=E[∣∣x^−x∣∣2]−b2<E[∣∣x^−x∣∣2]
与 LLS 的定义矛盾; -
e=x^(y)−x
Take x^′=x^LLS−ΛeyΛy−1(y−μy)
KaTeX parse error: No such environment: align at position 8: \begin{̲a̲l̲i̲g̲n̲}̲ M &= E\left[(\…
由于 E[∣∣x−f(y)∣∣2]=tr{M},LLS 的 MSE 应当最小
由于 Λy 正定,因此应有 ΛeyΛy−1ΛeyT=0
故 E[(x^−μx)(y−μy)T]=0⟹E[(x^(y)−x)yT]=0⟸:suppose another linear estimator x^′
KaTeX parse error: No such environment: align at position 8: \begin{̲a̲l̲i̲g̲n̲}̲ E\left[(\hat x…
第三个等号是由于 x^′−x^=A′y+d′同样的根据上面 MSE=tr{M} 可得到 x^ 有最小的 MSE
-
-
联合高斯分布的情况
- 定理:如果 x 和 y 是联合高斯分布的,那么
x^BLS(y)=x^LLS(y)
证明:eLLS=x^LLS−x 也是高斯分布
由于 E[eLLS yT]=0,故 eLLS 与 y 相互独立
E[eLLS∣y]=E[eLLS]=0→E[x^LLS∣y]=x^LLS=E[x∣y]
- 通常如果只有联合二阶矩信息,那么 LLS 是 minmax
- 定理:如果 x 和 y 是联合高斯分布的,那么
3. Non-Bayesian formulation
-
Formulation
- observation: distribution of y parameterized by x, py(y;x)
not conditioned on x, py∣x(y∣x)
此时 x 不再是一个随机变量,而是未知的一个参数 - bias: b(x)=E[x^(y)−x]
- 误差协方差矩阵 Λe(x)=E[(e(x,y)−b(x))(e(x,y)−b(x))T]
- observation: distribution of y parameterized by x, py(y;x)
-
**有效(valid)**估计器不应当显式地依赖于 x
-
MVU: Minimum-variance unbiased estimator
- 在 MMSE 条件下最优估计就是 MVU 估计
KaTeX parse error: No such environment: align at position 8: \begin{̲a̲l̲i̲g̲n̲}̲ MSE &= E[e^2]=…
- 在 MMSE 条件下最优估计就是 MVU 估计
-
MVU 可能不存在
- 可能不存在无偏估计,即 A=∅
- 存在无偏估计 A=∅,但是不存在某个估计量在所有情况(任意 x)下都是最小方差
4. CRB
定理:满足正规条件时
E[∂x∂lnpy(y;x)]=0 for all x
有
λx^(X)≥Jy(x)1
其中 Fisher 信息为
Jy(x)=E[(∂x∂lnpy(y;x))2]=−E[∂x2∂2lnpy(y;x)]
证明:取 f(y)=∂x∂lnpy(y;x),有 E[f(y)]=0
cov(e(y),f(y))=∫(x^(y)−x)∂x∂py(y;x)dy=1
1=cov(e,f)≤Var(e)Var(f)
备注
- 正规条件不满足时,CRB 不存在
- Fisher 信息可以看作 py(y;x) 的曲率
4. 有效估计量
-
定义:可以达到 CRB 的无偏估计量
-
有效估计量一定是 MVU 估计量
-
MVU 估计量不一定是有效估计量,也即 CRB 不一定是紧致(tight)的,有时没有估计量可以对所有的 x 达到 CRB
-
性质:(唯一的、无偏的,可以达到 CRB)
x^ is efficient⟺x^(y)=x+Jy(x)1∂x∂lnpy(y;x)
证明:有效估计量 ⟺ 可以达到 CRB ⟺ 取等号 Var(e)Var(f)=1 ⟺ 取等号 e(y)=k(x)f(y) ⟺ e(y)=x+k(X)f(y)
Jy(x)1=E[e2(y)]=k(x)E[e(y)f(y)]=k(x)
5. ML estimation
- Definition
x^ML(⋅)=argamaxp(y∣a)
Bonennult 发布了37 篇原创文章 · 获赞 27 · 访问量 2万+ 私信 关注Proposition: if efficient estimator exists, it’s ML estimator
x^eff(⋅)=x^ML(⋅)
Proof:
x^eff(y)=x+Jy(x)1∂x∂lnp(y;x)
由于有效(valid)估计器不应当依赖于 x,因此上式中 x 取任意一个值都应当是相等的,可取 x^ML(y)
x^eff(y)=x^ML(y)+Jy(x)1∂x∂lnp(y;x)∣∣∣x=x^ML=x^ML(y)
备注:反之不一定成立,即 ML 估计器不一定是有效的,比如有时候全局的有效估计器(efficient estimator)不存在,也即此时按公式计算得到的 x^eff(y) 实际上是依赖于 x 的,那么此时就不存在一个全局最优的估计器,此时的 ML 估计器也没有任何好的特性。