大数定理、中心极限定理和三大分布

2020-04-14 · 21 min read

以前不觉得三大分布有啥作用，最近又复习了一遍概率论发现三大分布真是无处不在，不管是做曲线拟合还是做实验数据检验，都很有作用，下面是三大分布的学习笔记，尽量把能证明的内容证明出来。
学习的内容就是陈希孺老先生的这本《概率论与数理统计》，这本书不仅讲述概率论的内容，更重要的还是真的说到了概率论和统计本质上的东西。

先从两个有意思的定理开始

大数定理

大数定理的本质是说频率的极限就是概率，期望的极限就是均值，完整的表述如下
设 $X_1,X_2,...,X_n,..$ 是独立同分布的随机变量，记分布的均值为a，又记它们的方差存，记为 $\sigma^2$ ，则对于任意给定的 $\epsilon \gt 0$ ，有 $\lim_{n\to\infty}P\left(|\bar{X} - a| \gt \epsilon\right)=0$

最后那个式子的含义是 $\bar{X}$ 依概率收敛于a，依概率的意思就是当n很大之后， $\bar{X}$ 不是a的概率很小，比如说全校学生的平均身高是a，然后随机抽1000个学生出来测量ta们的平均身高记为 $\bar{X}$ ，不像数学分析中那样绝对的趋近a，而是说 $\bar{X}$ 趋近于a的概率非常大，因为不可否认的是运气可能真是很好，抽到了全校身高比较高的那一群或者是抽到了全校身高比较矮的那一群，但是只要保证抽样是均匀的，并且样本比较大，那么就可以说均值就是期望。

既然这是个定理那就是可以证明的，首先需要两个基础的概率不等式

马尔科夫不等式

若Y为只取非负值的随机变量，则对于任意给定的常数 $\epsilon \gt 0$ ，有 $P\left(Y\geq \epsilon\right)\leq E(Y)/\epsilon$
这个不等式的证明非常的简朴
证：
当Y为连续型变量时，密度函数为 $f(y)$ ，因为Y非负，所以
$E(Y)=\int_{-\infty}^{\infty}yf(y)dy=\int_{0}^{\infty}yf(y)dy\geq\int_{\epsilon}^{\infty}yf(y)dy\geq\int_{\epsilon}^{\infty}\epsilon f(y)dy=\epsilon P\left( Y\geq\epsilon\right)$
当Y为离散型变量时，设其概率分布为 $p_i$ ，同样的
$E(Y)=\sum_{i=1}^{N}Y_ip_i \geq\sum_{i(Y_i\geq \epsilon)}^{N}Y_ip_i\geq\sum_{i(Y_i\geq \epsilon)}\epsilon p_i=\epsilon P(Y\geq \epsilon)$

切比雪夫不等式

若 $Var(Y)$ 存在，则 $P\left(|Y-E(Y)|\geq \epsilon\right)\leq Var(Y)/\epsilon^2$
利用马尔科夫不等式，用 $[Y-E(Y)]^2$ 代替Y可得到证明，注意 $P\left((Y-E(Y))^2\geq\epsilon\right)=P\left(|Y-E(Y)|\geq \epsilon\right)$ 即可

大数定理的证明

现在回到大数定理，直接就可以利用大数定理
证：
有 $E(\bar{X_n})=\sum_{i=1}^{n}E(X_i)/n=na/n=a$
由切比雪夫不等式有 $P\left(|\overline{X_n}-a|\geq \epsilon\right)\leq Var(\overline{X_n})/\epsilon^2$
而 $Var(\overline{X_n})=\frac{1}{n^2}\sum_{i=1}^{n}Var(X_i)=\frac{1}{n^2}n\sigma^2=\frac{\sigma^2}{n}$
所以 $P\left(|\overline{X_n}-a|\geq \epsilon\right)\leq Var(\overline{X_n})/\epsilon^2=\frac{\sigma^2}{n\epsilon^2}$
证毕

中心极限定理

设 $X_1,X_2,...X_n,...$ 独立同分布， $E(X_i)=a,Var(X_i)=\sigma^2 (0<\sigma<\infty)$ ，那么对于任何实数有 $\lim _{n \rightarrow \infty} P\left(\frac{1}{\sqrt{n} \sigma}\left(X_{1}+\cdots+X_{n}-n a\right) \leqslant x\right)=\Phi(x)$ ，其中 $\Phi(x)$ 是标准正态分布的分布函数
也就是说随机变量和的概率分布经过均值和方差的标准化之后会服从正态分布，当然前提是要求统计量足够大。
特别的当 $X_i$ 只取0，1两个值，即二项分布的时候，这个式子的含义就变成了用正态分布去逼近二项分布。
这个定理当然我不会证。

三大分布

下面就进入到统计中非常常用的三大分布，卡方分布、t分布和F分布，在这之前先复习两个很久没有用过的函数

Gamma函数

定义 $\Gamma$ 函数为 $\Gamma(x)=\int_0^\infty e^{-t}t^{x-1}dt \quad (x>0)$ ，其有如下性质
$\Gamma(1)=\int_0^\infty e^{-t}dt=1 \\ \Gamma(\frac{1}{2})=\int_o^\infty e^{-t}t^{-1/2}dt=\int_0^\infty e^{-u^2}u^{-1}(2udu)=\int_{-\infty}^\infty e^{-u^2}du=\frac{1}{\sqrt{2}}\int_{-\infty}^{\infty}e^{-v^2/2}dv=\sqrt{\pi}\\ \Gamma(x+1)=\int_0^\infty e^{-x}t^x dt=-\int_0^\infty t^xd(e^{-t})=-t^xe^{-x}|_0^{\infty}+x\int_0^\infty e^{-t}t^{x-1}dt=x\Gamma(x)$

卡方分布

由此定义一个函数
$k_{n}(x)=\left\{\begin{array}{ll} \frac{1}{\Gamma\left(\frac{n}{2}\right) 2^{n / 2}} \mathrm{e}^{-x / 2} x^{(n-2) / 2}, &x>0 \\ 0, & x\leq0 \end{array}\right.$
因为 $\int_{0}^{\infty} e^{-x / 2} x^{(n-2) / 2} d x=2^{n / 2} \int_{0}^{\infty} e^{-t} t^{(n-2) / 2} d t=2^{n / 2} \Gamma\left(\frac{n}{2}\right)$
所以 $\int_{-\infty}^{\infty} k_{n}(x) \mathrm{d} x=\int_{0}^{\infty} k_{n}(x) \mathrm{d} x=1$
也就是说 $k_{n}(x)$ 是概率密度函数，称符合这样概率密度函数的分布为卡方分布，记为 $\chi_n^2$
卡方分布这样定义起来很奇怪，感觉很生硬，实际上不是，卡方分布有更优雅的数学形式

若 $X_1,X_2,...,X_n \quad iid., \sim N(0,1)$ ，则 $Y=\sum_{i=1}^{n}X_i^2 \sim \chi_n^2$ 。这个的证明用数学归纳法就好
若 $X_1,X_2$ 独立，且 $X_1\sim \chi_{n}^2, X_2\sim \chi_{m}^2$ ，则 $X_1+X_2\sim\chi_{m+n}^2$
若 $X_1,X2,...,X_n$ 相互独立，且服从指数分布，则 $Y=2\lambda(\sum_{i=1}^{n}X_i)\sim \chi_{2n}^2$

t分布

t分布的引入就直观多了，设 $X_1,X_2$ 独立， $X_1\sim\chi_n^2,X_2\sim N(0,1)$ ，记 $Y=\frac{X_2}{\sqrt{X_1/n}}$ 服从的分布为t分布。简单粗暴，下面就来康康Y的概率密度函数
令 $Z=\sqrt{X_1/n}$ ，有
$P(Z \leqslant z)=P(\sqrt{X_{1} / n} \leqslant z)=P\left(X_{1} \leqslant n z^{2}\right)=\int_{0}^{nz^ 2} k_{n}(x) \mathrm{d} x$
两边对z求导，得到Z的概率密度函数
$g(z)=2nzk_n(nz^2)$

下面引入随机变量商的概率密度函数
设 $(X_1,X_2)~f(x_1,x_2)$ ，则 $Y=\frac{X_2}{X_1}$ 的概率密度函数为 $l(y)=\int_0^\infty x_1f(x_1,x_1y)dx_1$
若 $X_1,X_2$ 独立，则 $l(y)=\int_0^\infty x_1f_1(x_1)f_2(x_1y)dx_1$

现在令 $f_1(x_1)=2nx_1k_n(nx_1),f_2(x_2)=(\sqrt{2\pi})^{-1}e^{-x_2^2/2}$ ，就可以很快的得到t分布的概率密度函数，而且还很复杂！！！
$t_{n}(y)=\frac{\Gamma((n+1) / 2)}{\sqrt{n \pi} \Gamma(n / 2)}\left(1+\frac{y^{2}}{n}\right)^{-\frac{n+1}{2}}$
这个分布在有些地方被称之为学生t分布，主要是因为这是英国统计学家 W・哥色特在1907年以“student”的笔名首次发表的，不过还是称之为t分布比较常见

F分布

F分布的由来也很有意思，设 $X_1,X_2$ 独立，且 $X_1\sim \chi^2_n,X_2\sim\chi_m^2$ ，而 $Y=\frac{X_2/m}{X_1/n}$ ，则称Y服从的分布为F分布。
其概率密度函数计算如下
首先先求出 $X_1/n,X_2/m$ 的概率密度函数，简单的用个倍数关系就可以得到，分别为 $nk_n(nx_1),mk_m(mx_2)$ 带入商的概率密度函数表达式，有
$\begin{aligned} f_{m n}(y)=& m n \int_{0}^{\infty} x_{1} k_{n}\left(n x_{1}\right) k_{m}\left(m x_{1} y\right) \mathrm{d} x_{1} \\ =& m n\left[2^{m / 2} \Gamma\left(\frac{m}{2}\right) 2^{n / 2} \Gamma\left(\frac{n}{2}\right)\right]^{-1} \\ & \cdot \int_{0}^{\infty} x_{1} \mathrm{e}^{-n x_{1} / 2}\left(n x_{1}\right)^{n / 2-1} \mathrm{e}^{-m x_{1} y / 2}\left(m x_{1} y\right)^{m / 2-1} \mathrm{d} x_{1} \\ =&\left[2^{(m+n) / 2} \Gamma\left(\frac{m}{2}\right) \Gamma\left(\frac{n}{2}\right)\right]^{-1} m^{m / 2} n^{n / 2} y^{m / 2-1} \\ & \cdot \int_{0}^{\infty} \mathrm{e}^{-(m y+n) x_{1} / 2} x_{1}^{(m+n) / 2-1} \mathrm{d} x_{1} \end{aligned}$
令 $t=(my+n)x_1/2$ 得到
$\begin{array}{l} \int_{0}^{\infty} \mathrm{e}^{-(m y+n) x_{1} / 2} x_{1}^{(m+n) / 2-1} \mathrm{d} x_{1}\\= 2^{(m+n) / 2}(m y+n)^{-(m+n) / 2} \int_{0}^{\infty} \mathrm{e}^{-t} t^{(m+n) / 2-1} \mathrm{d} t \\ \quad=2^{(m+n) / 2}(m y+n)^{-(m+n) / 2} \Gamma\left(\frac{m+n}{2}\right) \end{array}$
最终Y的分布为

$f_{m n}(y)=m^{m / 2} n^{n / 2} \frac{\Gamma\left(\frac{m+n}{2}\right)}{\Gamma\left(\frac{m}{2}\right) \Gamma\left(\frac{n}{2}\right)} y^{m / 2-1}(m y+n)^{-(m+n) / 2} \quad(y>0)$
当 $Y\leq0$ 时， $f_{mn}(y)=0$
这个统计就被称为自由度为(m, n)的F分布，记为 $Y\sim F_{mn}$

三大分布的性质

这才是最重要的，这些性质在做统计和检验的时候用的很多，前面提到的卡方分布的性质再拿来再说一遍

卡方分布的性质

若 $X_1,X_2,...,X_n \quad iid., \sim N(0,1)$ ，则 $Y=\sum_{i=1}^{n}X_i^2 \sim \chi_n^2$ 。这个的证明用数学归纳法就好
若 $X_1,X_2$ 独立，且 $X_1\sim \chi_{n}^2, X_2\sim \chi_{m}^2$ ，则 $X_1+X_2\sim\chi_{m+n}^2$
若 $X_1,X2,...,X_n$ 相互独立，且服从指数分布，则 $Y=2\lambda(\sum_{i=1}^{n}X_i)\sim \chi_{2n}^2$

另外，下面是和统计有关的性质

三大分布的性质

设 $X_1,X_2,...,X_n \quad iid., \sim N(\mu,\sigma^2)$ ， $\bar{X}=\frac{\sum_{i=1}^{n}X_i}{n}, S^2=\frac{\sum_{i=1}^{N}(X_i-\bar{X})^2}{n-1}$ ，则 $(n-1) S^{2} / \sigma^{2}=\sum_{i=1}^{n}\left(X_{i}-\bar{X}\right)^{2} / \sigma^{2} \sim \chi_{n-1}^{2}$ ，这一条很有意思，在σ已知的情况下，相当于使用标准差了平均值对统计量进行了一次正态化，然后再套用上面卡方分布的性质1，注意均值使用了一个自由度了。
设 $X_1,X_2,...,X_n \quad iid., \sim N(\mu,\sigma^2)$ ， $\bar{X}=\frac{\sum_{i=1}^{n}X_i}{n}, S^2=\frac{\sum_{i=1}^{N}(X_i-\bar{X})^2}{n-1}$ ，则 $\sqrt{n}(\bar{X}-\mu) / S \sim t_{n-1}$ ，这一条和上面那条的区别就在于这一条没有使用标准差，而是使用了均值，得到一个t分布，当然计算的时候用掉了一个自由度
设 $X_1,X_2,...,X_n \quad iid., \sim N(\mu_1,\sigma_1^2), Y_1,Y_2,...,Y_n \quad iid., \sim N(\mu_2,\sigma_2^2)$ ，且 $X_1,X_2,...,X_n，Y_1,Y_2,...,Y_n \$相互独立，则$ \left[\sum_{j=1}^{{m}\left(Y_{j}-\bar{Y}\right)}{2} /\left(\sigma_{2}^{2}(m-1)\right)\right] /\left[\sum_{i=1}^{{n}\left(X_{i}-\bar{X}\right)}{2} /\left(\sigma_{1}^{2}(n-1)\right)\right] \sim F_{m-1 ， n-1} $，若$ \sigma_1^2=\sigma_22 $，则$ \begin{array}{c}
\sqrt{\frac{n m(n+m-2)}{n+m}}\left[(\bar{X}-\bar{Y})-\left(\mu_{1}-\mu_{2}\right)\right]
/\left[\sum_{i=1}^{{n}\left(X_{i}-\bar{X}\right)}{2}+\sum_{j=1}^{{m}\left(Y_{j}-\bar{Y}\right)}{2}\right]^{1 / 2} \sim t_{n+m-2}
\end{array}$

证明

其实证不证明不重要，重要的是这个证明过程中又来了一些有意思的性质
设 $X_1,X_2,...,X_n \quad iid., \sim N(\mu,\sigma^2)$ ， $\bar{X}=\frac{\sum_{i=1}^{n}X_i}{n}$ 则

$\sqrt{n}(\bar{X}-\mu) / \sigma \sim N(0,1)$
$\sum_{i=1}^{n}\left(X_{i}-\bar{X}\right)^{2} / \sigma^{2} \sim \chi_{n-1}^{2}$
$\bar{X}$ 与 $\sum_{i=1}^{N}(X_i-X)^2$ 独立

接下来的证明过程请见《概率论与数理统计》这本书的93页，这三条定理应用起来也很多

欢迎关注我的语雀和公众号
MyQR

本文采用 BY-NC 协议

署名-非商业性使用（BY-NC）：只要在使用、公开时进行署名，那么使用者可以对本创作进行转载、节选、混编、二次创作，但不得将本创作或由本创作衍生的创作运用于商业目的。

大数定理
中心极限定理
三大分布
三大分布的性质