概率和统计回顾

Star

作者：阿夫辛·阿米迪和谢尔文·阿米迪

翻译者：朱小虎

概率和组合导引

样本空间一个实验的所有可能结果的集合称为实验的样本空间，记作 $S$。

事件样本空间的任何子集 $E$ 被称为一个事件。即，一个事件是一个包含可能结果的集合。如果该实验的结果包含在 $E$ 内，那么我们称 $E$ 发生。

概率论公理对每个事件 $E$，我们记 $P(E)$ 为事件 $E$ 出现的概率。

公理 1 ― 每个概率是在 0 到 1 之间的，包含端点，即：

\[\boxed{0\leqslant P(E)\leqslant 1}\]

公理 2 ― 在整个样本空间中至少一个原子事件会出现的概率是 1，即：

\[\boxed{P(S)=1}\]

公理 3 ― 对任何互斥事件 $E1,...,En$ 序列，我们有：

\[\boxed{P\left(\bigcup_{i=1}^nE_i\right)=\sum_{i=1}^nP(E_i)}\]

置换一个置换是从 $n$ 个对象的池子中按照给定次序安置 $r$ 个对象。这样的安置的数目由 $P(n,r)$ 表示，定义为：

\[\boxed{P(n, r)=\frac{n!}{(n-r)!}}\]

组合一个组合是从 $n$ 个对象的池子中无序安置 $r$ 个对象。这样的安置的数目由 $C(n,r)$ 表示，定义为：

\[\boxed{C(n, r)=\frac{P(n, r)}{r!}=\frac{n!}{r!(n-r)!}}\]

注：对 $0\leqslant r\leqslant n$，我们有 $P(n,r)\geqslant C(n,r)$

条件概率

贝叶斯规则对事件 $A$ 和 $B$ 满足 $P(B)>0$ ，我们有：

\[\boxed{P(A|B)=\frac{P(B|A)P(A)}{P(B)}}\]

注：我们有 $P(A\cap B)=P(A)P(B|A)=P(A|B)P(B)$

分划令 $\{A_i, i\in[\![1,n]\!]\}$ 对所有 $i$，$A_i\neq\varnothing$。我们称 $\{A_i\}$ 为一个分划，当有：

\[\boxed{\forall i\neq j, A_i\cap A_j=\emptyset\quad\textrm{ et }\quad\bigcup_{i=1}^nA_i=S}\]

注：对任意在样本空间中的事件 $B$ 我们有 $\displaystyle P(B)=\sum_{i=1}^nP(B|A_i)P(A_i)$。

贝叶斯规则的扩展形式令 $\{A_i, i\in[\![1,n]\!]\}$ 为样本空间的一个分划，我们有：

\[\boxed{P(A_k|B)=\frac{P(B|A_k)P(A_k)}{\displaystyle\sum_{i=1}^nP(B|A_i)P(A_i)}}\]

独立两个事件 $A$ 和 $B$ 是独立的当且仅当我们有：

\[\boxed{P(A\cap B)=P(A)P(B)}\]

随机变量

定义

随机变量一个随机变量，通常记作 $X$，是一个将在一个样本空间中的每个元素映射到一个实值的函数。

累积分布函数（CDF）累积分布函数 $F$，是单调不减的，其 $\underset{x\rightarrow-\infty}{\textrm{lim}}F(x)=0$ 且 $\underset{x\rightarrow+\infty}{\textrm{lim}}F(x)=1$，定义为：

\[\boxed{F(x)=P(X\leqslant x)}\]

注：我们有 $P(a < X\leqslant B)=F(b)-F(a)$。

概率密度函数（PDF）概率密度函数 $f$ 是 $X$ 取值在两个相邻随机变量的实现间的概率。

PDF 和 CDF 的关系这里是离散和连续场景下的重要性质。

类型	CDF $F$	PDF $f$	PDF 的性质
(D)	$\displaystyle F(x)=\sum_{x_i\leqslant x}P(X=x_i)$	$f(x_j)=P(X=x_j)$	$\displaystyle0\leqslant f(x_j)\leqslant1\textrm{ et }\sum_{j}f(x_j)=1$
(C)	$\displaystyle F(x)=\int_{-\infty}^xf(y)dy$	$f(x)=\displaystyle \frac{dF}{dx}$	$\displaystyle f(x)\geqslant0\textrm{ et }\int_{-\infty}^{+\infty}f(x)dx=1$

分布的期望和矩这里是期望值 $E[X]$ 、一般期望值 $E[g(X)]$、第 $k$ 阶矩 $E[X^k]$ 和特征函数 $\psi(\omega)$ 在离散和连续场景下的表达式：

类型	$E[X]$	$E[g(X)]$	$E[X^k]$	$\psi(\omega)$
(D)	$\displaystyle \sum_{i=1}^nx_if(x_i)$	$\displaystyle \sum_{i=1}^ng(x_i)f(x_i)$	$\displaystyle \sum_{i=1}^nx_i^kf(x_i)$	$\displaystyle\sum_{i=1}^nf(x_i)e^{i\omega x_i}$
(C)	$\displaystyle \int_{-\infty}^{+\infty}xf(x)dx$	$\displaystyle \int_{-\infty}^{+\infty}g(x)f(x)dx$	$\displaystyle \int_{-\infty}^{+\infty}x^kf(x)dx$	$\displaystyle\int_{-\infty}^{+\infty}f(x)e^{i\omega x}dx$

方差随机变量的方差通常记作 Var$(X)$ 或者 $\sigma^2$，是分布函数的扩散性的一个度量函数。定义如下：

\[\boxed{\textrm{Var}(X)=E[(X-E[X])^2]=E[X^2]-E[X]^2}\]

标准差随机变量的标准差，通常记作 $\sigma$，是分布函数扩散性的一个和实际随机变量值单位相当的度量函数。定义如下：

\[\boxed{\sigma=\sqrt{\textrm{Var}(X)}}\]

随机变量的变换令变量 $X$ 和 $Y$ 由某个函数联系在一起。记 $f_X$ 和 $f_Y$ 分别为 $X$ 和 $Y$ 的分布函数，我们有：

\[\boxed{f_Y(y)=f_X(x)\left|\frac{dx}{dy}\right|}\]

莱布尼兹积分法则令 $g$ 为 $x$ 和 $c$ 的函数，$a,b$ 是可能依赖于 $c$ 的边界。我们有：

\[\boxed{\frac{\partial}{\partial c}\left(\int_a^bg(x)dx\right)=\frac{\partial b}{\partial c}\cdot g(b)-\frac{\partial a}{\partial c}\cdot g(a)+\int_a^b\frac{\partial g}{\partial c}(x)dx}\]

概率分布

切比雪夫不等式令 $X$ 为随机变量期望值为 $\mu$。对 $k,\sigma>0$，我们有下列不等式：

\[\boxed{P(|X-\mu|\geqslant k\sigma)\leqslant\frac{1}{k^2}}\]

主要的分布这里是主要需要记住的分布：

类型	分布	PDF	$\psi(\omega)$	$E[X]$	$\textrm{Var}(X)$
(D)	$X\sim\mathcal{B}(n, p)$	$\displaystyle P(X=x)=\displaystyle\binom{n}{x} p^xq^{n-x}$	$(pe^{i\omega}+q)^n$	$np$	$npq$
(D)	$X\sim\textrm{Po}(\mu)$	$\displaystyle P(X=x)=\frac{\mu^x}{x!}e^{-\mu}$	$e^{\mu(e^{i\omega}-1)}$	$\mu$	$\mu$
(C)	$X\sim\mathcal{U}(a, b)$	$\displaystyle f(x)=\frac{1}{b-a}$	$\displaystyle\frac{e^{i\omega b}-e^{i\omega a}}{(b-a)i\omega}$	$\displaystyle\frac{a+b}{2}$	$\displaystyle\frac{(b-a)^2}{12}$
(C)	$X\sim\mathcal{N}(\mu, \sigma)$	$\displaystyle f(x)=\frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{1}{2}\left(\frac{x-\mu}{\sigma}\right)^2}$	$e^{i\omega\mu-\frac{1}{2}\omega^2\sigma^2}$	$\mu$	$\sigma^2$
(C)	$X\sim\textrm{Exp}(\lambda)$	$\displaystyle f(x) = \lambda e^{-\lambda x}$	$\displaystyle\frac{1}{1-\frac{i\omega}{\lambda}}$	$\displaystyle\frac{1}{\lambda}$	$\displaystyle\frac{1}{\lambda^2}$

联合分布随机变量

边缘密度和累积分布从联合密度概率函数 $f_{XY}$，我们有：

类型	边缘密度函数	累积函数
(D)	$\displaystyle f_X(x_i)=\sum_{j}f_{XY}(x_i,y_j)$	$\displaystyle F_{XY}(x,y)=\sum_{x_i\leqslant x}\sum_{y_j\leqslant y}f_{XY}(x_i,y_j)$
(C)	$\displaystyle f_X(x)=\int_{-\infty}^{+\infty}f_{XY}(x,y)dy$	$\displaystyle F_{XY}(x,y)=\int_{-\infty}^x\int_{-\infty}^yf_{XY}(x',y')dx'dy'$

条件密度 $X$ 关于 $Y$ 的条件密度通常记作 $f_{X|Y}$，定义如下：

\[\boxed{f_{X|Y}(x)=\frac{f_{XY}(x,y)}{f_Y(y)}}\]

独立性两个随机变量 $X$ 和 $Y$ 被称为独立的当我们有：

\[\boxed{f_{XY}(x,y)=f_X(x)f_Y(y)}\]

协方差我们定义两个随机变量 $X$ 和 $Y$ 的协方差，记作 $\sigma_{XY}^2$ 或者更常见的 $\textrm{Cov}(X,Y)$，如下：

\[\boxed{\textrm{Cov}(X,Y)\triangleq\sigma_{XY}^2=E[(X-\mu_X)(Y-\mu_Y)]=E[XY]-\mu_X\mu_Y}\]

相关性记 $\sigma_X, \sigma_Y$ 为 $X$ 和 $Y$ 的标准差，我们定义随机变量 $X$ 和 $Y$ 的相关性，记作 $\rho_{XY}$，如下：

\[\boxed{\rho_{XY}=\frac{\sigma_{XY}^2}{\sigma_X\sigma_Y}}\]

注 1：对任何随机变量 $X,Y$，我们有 $\rho_{XY}\in[-1,1]$。

注 2：当 $X$ 和 $Y$ 是独立的时，有 $\rho_{XY} = 0$。

参数估计

定义

随机采样一个随机采样是 $n$ 个和 $X$ 独立同分布的随机变量 $X_1, ..., X_n$ 的集。

估计器估计器是一个用来推断一个统计模型中未知参数值的关于数据的函数。

偏差估计器 $\hat{\theta}$ 的偏差定义为 $\hat{\theta}$ 分布的期望值和真实值间的差距，即：

\[\boxed{\textrm{Bias}(\hat{\theta})=E[\hat{\theta}]-\theta}\]

注：估计器被称为无偏的当我们有 $E[\hat{\theta}]=\theta$。

估计均值

样本均值随机采样的样本均值用来估计一个分布的真实的均值，常记作 $\overline{X}$，定义如下：

\[\boxed{\overline{X}=\frac{1}{n}\sum_{i=1}^nX_i}\]

注：样本均值无偏的，即 $E[\overline{X}]=\mu$。

中央极限定理令一个随机采样 $X_1, ..., X_n$ 满足一个给定分布均值 $\mu$ 方差 $\sigma^2$，我们有：

\[\boxed{\overline{X}\underset{n\rightarrow+\infty}{\sim}\mathcal{N}\left(\mu, \frac{\sigma}{\sqrt{n}}\right)}\]

估计方差

样本方差样本方差用来估计一个分布的真实方差 $\sigma^2$，常记作 $s^2$ 或者 $\hat{\sigma}^2$ ，定义如下：

\[\boxed{s^2=\hat{\sigma}^2=\frac{1}{n-1}\sum_{i=1}^n(X_i-\overline{X})^2}\]

注：样本方差是无偏的，即 $E[s^2]=\sigma^2$。