概率论基础(四)随机变量的数学特征

心血来潮填了好久之前埋下的坑,虽然感觉还是有点潦草;不过反正这些东西日常也是会用到的,之后及时更新吧~

这部分内容包括

  • 数学期望
  • 方差
    • Markov 不等式
  • 协方差和相关系数
    • 协方差阵

随机变量的数学期望

这里仅仅给出一些定义、常用的性质的介绍;在实际应用中,更为常用的是各中分布,要记住它们的分布、期望、方差等性质,更重要的是会推导的过程;在此不列出,在下面的链接中给出了较为全面的推导:常用概率分布的矩母函数、特征函数以及期望、方差的推导

一元情况下略,注意按照定义期望存在需要满足绝对可积,是为了保障期望这个积分有明确的数学意义。下面仅给出随机向量的数学期望:

定理:设 \(X=(X_1,...X_n)\) 是随机向量,若 X 有联合 pdf,以及实函数 \(g(X)\) 使得

\[\int_{\R^n}|g(\mathbf x)|f(\mathbf x)d\mathbf x<\infty \]

则 \(Y=g(\mathbf x)\) 有数学期望

\[E(Y)=\int_{\R^n}g(\mathbf x)f(\mathbf x)d\mathbf x<\infty \]

离散情况下有类似的表达。

数学期望有性质:

  • \(EX\) 有限的充分必要条件是 \(E|X|<\infty\)

  • 设 \(E|X_j|<\infty\) 则随机向量的线性组合/乘积的期望为对应的期望的线性组合/乘积。 另外,若 \(X_1\le X_2\) 则 \(EX_1\le EX_2\) 。可以通过简单的定义(积分)证明。

e.g. (以概率 1 发生)证明 \(E|X|=0\) 的充分必要条件为

\[P(X=0)=1\tag{1.1} \]

充分性是显然的,下证必要性:用 \(I_{\{n|X|>1\}}\) 表示事件 \(\{n|X|>1\}\) 的示性函数,根据上面的性质,有

\[P(|X|>1/n)=P(n|X|>1)=E(I_{\{n|X|>1\}})\\\le E(n|X|I_{\{n|X|>1\}})\le n|X|=0 \]

其中,利用示性函数将一个事件的概率转化为期望;第一个不等式成立是因为当示性函数取 1 时 \(n|X|>1\) ;第二个不等式成立是根据示性函数的性质。因此,由概率的连续性得到

\[P(|X|>0)=P(\cup_{n=1}^\infty \{|X|<1/n\})=\lim_{n\rightarrow\infty}P(|X|<1/n)=0 \]

即 \(P(|X|=0)=1\)。

  • 当 \(P(X = 0) = 1\), 我们称 \(X = 0\) 以概率 1 发生, 记做 \(X = 0, wp1\). 这 里 wp1. 表示 with probability 1.
  • 完全类似地, 我们把 \(P(X ≤ Y ) = 1\) 记做 \(X ≤ Y , wp1\).
  • 以概率 1 发生又称作几乎处处或几乎必然 (almost surely) 发生, 用 \(a.s.\) 表示.

随机变量的方差

定义: 若果随机变量 X 的期望 \(\mu=EX\) 有限,就称 \(E(X-\mu)^2\) 为 X 的方差。

性质:

  • \(Var(a + bX) = b^2 Var(X)\)
  • \(Var(X) = E(X − \mu)^2 < E(X − c) ^2\) , 只要 \(c ≠ \mu\) (说明随机变量 X 在均方误差意义下距离 \(\mu\) 最近)
  • \(Var(X) = 0\) 的充分必要条件是 \(P(X = \mu) = 1\) (根据上一节中的例子)
  • \(Var(\sum_{ j=1}^n X_j ) =\sum_{i=1}^n\sum_ {j=1}^n [E(X_i X_j ) − \mu_i \mu_j ]\)
  • 当 \(X_1 , X_2 , · · · , X_n\) 相互独立, \(Var( \sum_{j=1}^n X_j ) = \sum_{j=1}^n Var(X j )\)

Markov 不等式

定理:对随机变量 X 和 \(ε > 0\), 有

\[P(|X| ≥ ε) ≤ {1\over \varepsilon^\alpha}E|X|^α , α=1,2...\tag{2.1} \]

取 \(X-EX\),并另 \(\alpha=2\) 就得到了切比雪夫 (Chebyshev) 不等式

\[P(|X − EX| ≥ ε) ≤{1\over\varepsilon^2} Var(X), ε > 0. \tag{2.2} \]

证明如下,利用示性函数

\[P(|X|\ge\varepsilon)=EI(|X|\ge ε)\le E{|X|^\alpha\over ε^\alpha}I(|X|\geε)\\\le{1\over \varepsilon^\alpha}E|X|^α \]

和上一节的证明一样第一个不等式利用了示性函数取 1 时 \({|X|^\alpha\over ε^\alpha}>1\) ;第二个不等式消去了示性函数。

协方差和相关系数

定义:当 \(E|(X − \mu_X )(Y − \mu_Y )| < ∞\) 时,称

\[E(X − \mu_X )(Y − \mu_Y )\tag{3.1} \]

为随机变量 \(X, Y\) 的协方差 (covariance), 记做 \(Cov(X, Y )\) 或 \(σ_{XY}\) . 当 \(Cov(X, Y ) = 0\) 时, 称 \(X, Y\) 不相关. 实际计算中,更为常用的计算协方差的公式是

\[\sigma_{XY}=EXY-EXEY\tag{3.2} \]

另外,仅从公式就可以看出,一个随机变量的方差可以看成是它和自己的协方差。

定义(相关系数):当 \(0 < σ_X σ_Y < ∞\), 称

\[\rho_{XY}={\sigma_{XY}\over \sigma_X\sigma_Y}\tag{3.2} \]

为 \(X, Y\) 的 相关系数 (correlation coefficient). 有时也用 \(ρ(X, Y )\) 表示相关系数 \(ρ_{XY}\) .

容易得到相关系数的一些性质(证明参见 C-S 不等式):

  • \(|\rho_{XY}|\le1\)
  • \(|ρ_ XY | = 1\) 的充分必要条件是有常数 \(a, b\) 使得 \(P(Y = a + bX) = 1\)
  • 如果 \(X, Y\) 独立, 则 \(X, Y\) 不相关

需要说明的是,协方差和相关系数刻画的仅仅是变量之间的一阶性质;而独立则意味着两者的任意阶都没有关系,所以不相关并不意味着两者独立。需要区分相关和独立之间的区别,最好的方式就是牢记两者的定义。

e.g. (不相关也不独立)设 \((X,Y)\) 在单位圆 D 内均匀分布,则 X 和 Y 不相关和不独立。

不独立可以从边际分布 \(Y|X=x\) 的表达式中看出来(含有 x)。下面说明不相关:易知 \(EX=EY=0\) ,因此

\[Cov(X,Y)=\int\int_D xyf(x,y)dxdy={1\over\pi}\int_{-1}^1ydy\int_{-\sqrt{1-y^2}}^\sqrt{1-y^2}xdx=0 \]

所以 X 和 Y 不相关。

  • 然而有特殊情况:在正态分布中,不相关和独立等价

协方差阵

定义:如果随机向量 \(X=(X_1,...,X_n)\) 的数学期望 \(\mathbf{\mu} =E\mathbf X\) 存在且每个 \(X_i\) 的方差有限,则称

\[\Sigma=E(X-\mu)'(X-\mu)=(\sigma_{ij})_{n\times n} \]

为 X 的协方差矩阵,其中 \(\sigma_{ij}\) 是 \(X_i,X_j\) 的协方差。

显然,协方差阵是对称。

定理:对于协方差阵来说

  • \(\Sigma\) 非负定
  • \(\Sigma\) 退化的充分必要条件是存在不全为零的一组常数使得 \(P(\sum_{i=1}^na_i(X_i-\mu_i)=0)=1\) (矩阵退化即使指其行列式=0)

证明:任取一个 n 为向量 a ,有

\[a\Sigma a'=\sum_i\sum_ja_ia_j\sigma_{ij}=\sum_i\sum_ja_ia_jE(X_i-\mu_i)(X_j-\mu_j)\\=E[\sum_i\sum_ja_ia_j(X_i-\mu_i)(X_j-\mu_j)]=E(\sum_ia_i(X_i-\mu_i)^2)\\=Var(\sum_ia_i(X_i-\mu_i))\ge0 \]

证明了协方差阵非负定。而对于其退化条件,即存在一个非零向量 a 使得上面的等号成立,利用式(1.1)的结果即可得到。

上一篇:动手学深度学习之生成对抗网络


下一篇:(十八)从零开始学人工智能-智能推荐系统:矩阵分解