概率论基础（四）随机变量的数学特征

2024-02-29 15:18:04

心血来潮填了好久之前埋下的坑，虽然感觉还是有点潦草；不过反正这些东西日常也是会用到的，之后及时更新吧~

这部分内容包括

数学期望
方差
- Markov 不等式
协方差和相关系数
- 协方差阵

随机变量的数学期望

这里仅仅给出一些定义、常用的性质的介绍；在实际应用中，更为常用的是各中分布，要记住它们的分布、期望、方差等性质，更重要的是会推导的过程；在此不列出，在下面的链接中给出了较为全面的推导：常用概率分布的矩母函数、特征函数以及期望、方差的推导

一元情况下略，注意按照定义期望存在需要满足绝对可积，是为了保障期望这个积分有明确的数学意义。下面仅给出随机向量的数学期望：

定理：设 \(X=(X_1,...X_n)\) 是随机向量，若 X 有联合 pdf，以及实函数 \(g(X)\) 使得

\[\int_{\R^n}|g(\mathbf x)|f(\mathbf x)d\mathbf x<\infty \]

则 \(Y=g(\mathbf x)\) 有数学期望

\[E(Y)=\int_{\R^n}g(\mathbf x)f(\mathbf x)d\mathbf x<\infty \]

离散情况下有类似的表达。

数学期望有性质：

\(EX\) 有限的充分必要条件是 \(E|X|<\infty\)
设 \(E|X_j|<\infty\) 则随机向量的线性组合/乘积的期望为对应的期望的线性组合/乘积。另外，若 \(X_1\le X_2\) 则 \(EX_1\le EX_2\) 。可以通过简单的定义（积分）证明。

e.g. （以概率 1 发生）证明 \(E|X|=0\) 的充分必要条件为

\[P(X=0)=1\tag{1.1} \]

充分性是显然的，下证必要性：用 \(I_{\{n|X|>1\}}\) 表示事件 \(\{n|X|>1\}\) 的示性函数，根据上面的性质，有

\[P(|X|>1/n)=P(n|X|>1)=E(I_{\{n|X|>1\}})\\\le E(n|X|I_{\{n|X|>1\}})\le n|X|=0 \]

其中，利用示性函数将一个事件的概率转化为期望；第一个不等式成立是因为当示性函数取 1 时 \(n|X|>1\) ；第二个不等式成立是根据示性函数的性质。因此，由概率的连续性得到

\[P(|X|>0)=P(\cup_{n=1}^\infty \{|X|<1/n\})=\lim_{n\rightarrow\infty}P(|X|<1/n)=0 \]

即 \(P(|X|=0)=1\)。

当 \(P(X = 0) = 1\), 我们称 \(X = 0\) 以概率 1 发生, 记做 \(X = 0, wp1\). 这里 wp1. 表示 with probability 1.
完全类似地, 我们把 \(P(X ≤ Y ) = 1\) 记做 \(X ≤ Y , wp1\).
以概率 1 发生又称作几乎处处或几乎必然 (almost surely) 发生, 用 \(a.s.\) 表示.

随机变量的方差

定义：若果随机变量 X 的期望 \(\mu=EX\) 有限，就称 \(E(X-\mu)^2\) 为 X 的方差。

性质：

\(Var(a + bX) = b^2 Var(X)\)
\(Var(X) = E(X − \mu)^2 < E(X − c) ^2\) , 只要 \(c ≠ \mu\) （说明随机变量 X 在均方误差意义下距离 \(\mu\) 最近）
\(Var(X) = 0\) 的充分必要条件是 \(P(X = \mu) = 1\) （根据上一节中的例子）
\(Var(\sum_{ j=1}^n X_j ) =\sum_{i=1}^n\sum_ {j=1}^n [E(X_i X_j ) − \mu_i \mu_j ]\)
当 \(X_1 , X_2 , · · · , X_n\) 相互独立, \(Var( \sum_{j=1}^n X_j ) = \sum_{j=1}^n Var(X j )\)

Markov 不等式

定理：对随机变量 X 和 \(ε > 0\), 有

\[P(|X| ≥ ε) ≤ {1\over \varepsilon^\alpha}E|X|^α , α=1,2...\tag{2.1} \]

取 \(X-EX\)，并另 \(\alpha=2\) 就得到了切比雪夫 (Chebyshev) 不等式

\[P(|X − EX| ≥ ε) ≤{1\over\varepsilon^2} Var(X), ε > 0. \tag{2.2} \]

证明如下，利用示性函数

\[P(|X|\ge\varepsilon)=EI(|X|\ge ε)\le E{|X|^\alpha\over ε^\alpha}I(|X|\geε)\\\le{1\over \varepsilon^\alpha}E|X|^α \]

和上一节的证明一样第一个不等式利用了示性函数取 1 时 \({|X|^\alpha\over ε^\alpha}>1\) ；第二个不等式消去了示性函数。

协方差和相关系数

定义：当 \(E|(X − \mu_X )(Y − \mu_Y )| < ∞\) 时，称

\[E(X − \mu_X )(Y − \mu_Y )\tag{3.1} \]

为随机变量 \(X, Y\) 的协方差 (covariance), 记做 \(Cov(X, Y )\) 或 \(σ_{XY}\) . 当 \(Cov(X, Y ) = 0\) 时, 称 \(X, Y\) 不相关. 实际计算中，更为常用的计算协方差的公式是

\[\sigma_{XY}=EXY-EXEY\tag{3.2} \]

另外，仅从公式就可以看出，一个随机变量的方差可以看成是它和自己的协方差。

定义（相关系数）：当 \(0 < σ_X σ_Y < ∞\), 称

\[\rho_{XY}={\sigma_{XY}\over \sigma_X\sigma_Y}\tag{3.2} \]

为 \(X, Y\) 的 相关系数 (correlation coeﬃcient). 有时也用 \(ρ(X, Y )\) 表示相关系数 \(ρ_{XY}\) .

容易得到相关系数的一些性质（证明参见 C-S 不等式）：

\(|\rho_{XY}|\le1\)
\(|ρ_ XY | = 1\) 的充分必要条件是有常数 \(a, b\) 使得 \(P(Y = a + bX) = 1\)
如果 \(X, Y\) 独立, 则 \(X, Y\) 不相关

需要说明的是，协方差和相关系数刻画的仅仅是变量之间的一阶性质；而独立则意味着两者的任意阶都没有关系，所以不相关并不意味着两者独立。需要区分相关和独立之间的区别，最好的方式就是牢记两者的定义。

e.g. （不相关也不独立）设 \((X,Y)\) 在单位圆 D 内均匀分布，则 X 和 Y 不相关和不独立。

不独立可以从边际分布 \(Y|X=x\) 的表达式中看出来（含有 x）。下面说明不相关：易知 \(EX=EY=0\) ，因此

\[Cov(X,Y)=\int\int_D xyf(x,y)dxdy={1\over\pi}\int_{-1}^1ydy\int_{-\sqrt{1-y^2}}^\sqrt{1-y^2}xdx=0 \]

所以 X 和 Y 不相关。

然而有特殊情况：在正态分布中，不相关和独立等价。

协方差阵

定义：如果随机向量 \(X=(X_1,...,X_n)\) 的数学期望 \(\mathbf{\mu} =E\mathbf X\) 存在且每个 \(X_i\) 的方差有限，则称

\[\Sigma=E(X-\mu)'(X-\mu)=(\sigma_{ij})_{n\times n} \]

为 X 的协方差矩阵，其中 \(\sigma_{ij}\) 是 \(X_i,X_j\) 的协方差。

显然，协方差阵是对称。

定理：对于协方差阵来说

\(\Sigma\) 非负定
\(\Sigma\) 退化的充分必要条件是存在不全为零的一组常数使得 \(P(\sum_{i=1}^na_i(X_i-\mu_i)=0)=1\) （矩阵退化即使指其行列式=0）

证明：任取一个 n 为向量 a ，有

\[a\Sigma a'=\sum_i\sum_ja_ia_j\sigma_{ij}=\sum_i\sum_ja_ia_jE(X_i-\mu_i)(X_j-\mu_j)\\=E[\sum_i\sum_ja_ia_j(X_i-\mu_i)(X_j-\mu_j)]=E(\sum_ia_i(X_i-\mu_i)^2)\\=Var(\sum_ia_i(X_i-\mu_i))\ge0 \]

证明了协方差阵非负定。而对于其退化条件，即存在一个非零向量 a 使得上面的等号成立，利用式（1.1）的结果即可得到。

码农公寓

随机变量的数学期望

随机变量的方差

Markov 不等式

协方差和相关系数

协方差阵

相关文章