本来试图用pad记笔记的, 结果pad上的markdown编辑器要么太烂,要么收费,于是乎还是背着大电脑出发吧。
动机:把书读薄, 便于之后查阅. 不至于像微积分一样学完即忘. 事实上从考试的角度来说, 花时间整理笔记远没有仅保持短期记忆而把时间花在刷题上来得有效. 但我们不仅是应试机器 right?
目录1. 随机向量的分布
1.1 离散型随机向量
1.1.1 定义
随机向量\(X\)满足
\[X=(X_1,X_2,\dots,X_n) \]如果\(X_i\)是一维离散型随机变量, 则\(X\)为离散随机向量
1.1.2 概率分布
记\(X_i\)可能的全部取值为\(a_{i1},a_{i2},\dots\), 则事件\(\{X_1=a_{1j_1},X_2=a_{2j_2},\dots,X_n=a_{nj_n}\}\)的概率
\[p(j_1,j_2,\dots,j_n)=P(X_1=a_{1{j_1}},X_2=a_{2{j_2}},\dots,X_n=a_{nj_n}) \]\(j_i=1,2,\dots\)
1.1.3 例子
多项分布
设\(A_1,A_2,\dots,A_n\)是某一试验下的完备事件群(每次试验必发生且仅发生一个). 设\(p_i\)为\(A_i\)发生的概率. 显然有\(p_i>0,\sum p_i=1\)
现独立重复试验\(N\)次, \(X_i\)为\(A_i\)在这\(N\)次试验中发生的次数. 考虑随机向量\(X=(X_1,X_2,\dots,X_n)\),其取指范围可抽象为\(X_i\geq0,\sum X_i=N\). 记为满足多项分布\(M(N;p_1,p_2,\dots,p_n)\)
为定出这个分布, 要计算事件\(B=\{X_1=k_1,\dots,X_i=k_i,\dots,X_n=k_n\}\)的概率.
\[P(B)=\frac{N!}{k_1!k_2!\dots k_n!}p_1^{k_1}\dots p_n^{k_n} \]事实上有:
\[\sum \frac{N!}{k_1!k_2!\dots k_n!}p_1^{k_1}\dots p_n^{k_n}=(p_1+p_2+\dots+p_n)^N=1 \]多项分布是最实用的离散型随机向量.在\(N=2\)时退化为二项分布
1.2 连续型随机向量
随机向量\(X=(X_1,X_2,\dots,X_n)\)的值可看作欧式空间\(R^n\)中的一个点.如果\(X\)的全部取值能充满\(R^n\)中的某个区域则称其为连续的.
若\(f(x_1,\dots,x_n)\)是定义在\(R^n\)上的非负函数, 使得对\(R^n\)中的任何集合\(A\),有
\[P(X\in A)=\int_A \dots\int f(x_1,\dots,x_n)dx_1\dots dx_n \]则\(f\)是\(X\)的概率密度函数(\(f\)存在也是\(X\)连续的充要条件).
\(f\)应当满足\(\int_{-\infty}^{\infty} \dots\int f(x_1,\dots,x_n)dx_1\dots dx_n=1\)
\(X_i\)均连续并不能得到\(X\)连续.
还可以用分布函数的形式描述概率分布:\(F(x_1,x_2,\dots,x_n)=P(X_1\leq x_1,X_2\leq x_2,\dots)\)
但在多维情况下很少使用
2. 边缘分布
随机向量\(X=(X_1,X_2,\dots,X_n)\)有其\(n\)维分布\(F\).而\(X_i\)都是一维随机变量也有其分布\(F_i\),这些分布就称之为边缘分布。
即在组合\(X\)前,随机变量\(X_i\)自身的分布. 有趣的是,我们可以通过总和分布\(F\)推知\(F_i\),即\(F_i\)完全由\(F\)确定.
-
离散型
边缘分布由下式确定:
\[P(X_i=a_{i_k})=\sum_{j_2,\dots j_n}p(k,j_2,\dots,j_n) \] -
连续型
\[F_1(x_1)=P(X_1\leq x_1,X_2\leq\infty)=\int_{-\infty}^{x_1}dt_1\int_{-\infty}^{\infty}f(t_1,t_2)dt_2 \]求导可得边缘密度函数为
\[f_1(x_1)=\int_{-\infty}^{\infty}f(x_1,x_2)dx_2 \]
3. 条件分布与随机变量的独立性
在讨论所谓的“条件分布”之前. 需要指出的是我们之前讨论的所有事件的概率都是“有条件的”,即与这事件联系着的试验的条件. 如骰子是均匀的离放弃且抛掷的高度足够大之类. 而下面所讨论的条件是指在这些基本条件之外附加的条件, 一般采取如下形式:给定一些随机变量的值, 求另一些随机变量的分布.
3.1 条件概率分布
-
离散型
\[P(X_1=a_i|X_2=b_j)=P(X_1=a_i,X_2=b_j)/P(X_2=b_j)=\frac{p_{ij}}{\sum p_{kj}} \] -
连续型
\[f_1(x_1|x_2)=f(x_1,x_2)/f_{2}(x_2) \] \[f_1(x_1|x_2)*f_{2}(x_2)=f(x_1,x_2) \]
3.2 独立性
一般来说\(f_1(x_1|x_2)\)是随\(x_2\)变化而变化的.这反映了\(X_1\)与\(X_2\)在概率上有相依关系的事实. 如果\(f_1(x_1|x_2)\)不依赖于\(x_2\)只是\(x_1\)的函数记为\(g(x_1)\). 这时就称\(X_1\)与\(X_2\)独立. 可推出下式:
即
\[f(x_1,x_2)=f_1(x_1)f_2(x_2) \]两个很有用的结论:
4. 随机变量函数的分布
4.1 一般性函数
-
\(Y=g(X)\), \(g\)严格单调且导数存在
记\(h=g^{-1}\)
-
\(Y=X^2\)
\[l(y)=\frac{1}{2}y^{-1/2}[f(\sqrt y+f(-\sqrt y))],y>0 \] -
\(Y_1=g_1(X_1,X_2),Y_2=g_2(X_1,X_2)\)
\[l(y_1,y_2)=f(h_1(y_1,y_2),h_2(y_1,y_2))*|J(y_1,y_2)| \] -
\(Y_1=g_1(X_1,X_2)\)
- 对任何\(y\),将\(g_1(X_1,X_2)\leq y\)对应的区域找出来然后积分.
- 配函数\(Y_2=g_2(X_1,X_2)\),使得\((X_1,X_2)\to (Y_1,Y_2)\)是一一变换, 然后套用上式
4.2 几个重要的函数
-
\(Y=X_1+X_2\)
- 如上节所说, 一方面可以找出\(X_1+X_2\leq y\)对应的区域积分.另一方面可以新配一个函数\(Z=X_1\),构成\((X_1,X_2)\to (Y_,Z)\)的一一变换.
最后得到的结果为(若采用第一种方法需要在积分号下求导数,第二种方法则没有此限制):
\[l(y)=\int_{-\infty}^{\infty}f(y-x,x)dx=\int_{-\infty}^{\infty}f(x,y-x)dx \]若\(X_1,X_2\)相互独立可进一步得到卷积公式:
\[l(y)=\int_{-\infty}^{\infty}f_1(y-x)f_2(x)dx=\int_{-\infty}^{\infty}f_1(x)f_2(y-x)dx \]个人对积分号下求导的理解:可将定积分理解为定区间上的合式, 这样就可以利用求导的线性性. 即\([f(x)+g(x)]'=f'(x)+g'(x)\). 当然, 分析中对此有严格约束, 见上文链接.
-
\(Y=max\{X_1,X_2\}\)
若\(X_1,X_2,\dots,X_n\)相互独立
5. 协方差与相关系数
5.1 协方差
定义协方差为:
\[Cov(X,Y)=E[(X-E(X))(Y-E(Y))] \]从形式上看, 与方差接近且有\(X,Y\)二者的参与, 由此得出协方差的名称.
从定义出发可推出几条简单性质:
-
与次序无关\(Cov(X,Y)=Cov(Y,X)\)
-
\(Cov(c_1X+c_2,c_3Y+c_4)=c_1c_3 Cov(X,Y)\)
-
\(Cov(X_1+X_2,Y)=Cov(X_1,Y)+Cov(X_2,Y)\)
-
\(Cov(X,Y)=E(XY)-E(X)E(Y)\)
一些重要性质:
- 若\(X,Y\)独立,\(Cov(X,Y)=0\)
- \([Cov(X,Y)]^2\leq\sigma_1^2\sigma_2^2\), 等号当且仅当\(X,Y\)之间有严格线性关系时成立
5.2 相关系数
\[Corr(X,Y)=Cov(X,Y)/\sigma_1\sigma_2 \]形式上可以把相关系数视为标准尺度下的协方差, 不受\(X,Y\)度量单位的影响
- 若\(X,Y\)独立,\(Corr(X,Y)=0\)
- \(|Corr(X,Y)|\leq1\), 等号当且仅当\(X,Y\)之间有严格线性关系时成立
需要注意的是,相关系数为0并不能推出独立
如何理解相关系数?
相关系数应该叫“线性相关系数”. 它仅衡量线性关系的程度而非衡量一般关系(函数关系)的程度. 事实上, 对于一些确定的非线性函数关系, 其相关系数也可能为0
相关系数的大小衡量的是线性程度的大小。如何直观地认知线性程度呢?
\(Corr(a)>Corr(c)>0>Corr(b)\),且\(|Corr(b)|\)最大
线性相关的意义还可从最小二乘法的角度去理解, 详见《概率论与数理统计 陈希孺著》P137