CS 229 - Học máy

Xác suất và Thống kê cơ bản
Star

Bởi Afshine AmidiShervine Amidi


Dịch bởi Hoàng Minh Tuấn và Hung Nguyễn

Giới thiệu về Xác suất và Tổ hợp

Không gian mẫu Một tập hợp các kết cục có thể xảy ra của một phép thử được gọi là không gian mẫu của phép thử và được kí hiệu là $S$.


Sự kiện (hay còn gọi là biến cố) Bất kỳ một tập hợp con $E$ nào của không gian mẫu đều được gọi là một sự kiện. Một sự kiện là một tập các kết cục có thể xảy ra của phép thử. Nếu kết quả của phép thử chứa trong $E$, chúng ta nói sự kiện $E$ đã xảy ra.


Tiên đề của xác suất Với mỗi sự kiện $E$, chúng ta kí hiệu $P(E)$ là xác suất sự kiện $E$ xảy ra.

Tiên đề 1 ― Mọi xác suất bất kì đều nằm trong khoảng 0 đến 1:

\[\boxed{0\leqslant P(E)\leqslant 1}\]
Axiom 1

Tiên đề 2 ― Xác suất xảy ra của ít nhất một phần tử trong toàn bộ không gian mẫu là 1:

\[\boxed{P(S)=1}\]
Axiom 2

Tiên đề 3 ― Với một chuỗi các biến cố xung khắc $E_1, ..., E_n$, ta có:

\[\boxed{P\left(\bigcup_{i=1}^nE_i\right)=\sum_{i=1}^nP(E_i)}\]
Axiom 3

Hoán vị Hoán vị là một cách sắp xếp $r$ phần tử từ một nhóm $n$ phần tử, theo một thứ tự nhất định. Số lượng cách sắp xếp như vậy là $P(n, r)$, được định nghĩa như sau:

\[\boxed{P(n, r)=\frac{n!}{(n-r)!}}\]

Tổ hợp Một tổ hợp là một cách sắp xếp $r$ phần tử từ $n$ phần tử, không quan trọng thứ tự. Số lượng cách sắp xếp như vậy là $C(n, r)$, được định nghĩa như sau:

\[\boxed{C(n, r)=\frac{P(n, r)}{r!}=\frac{n!}{r!(n-r)!}}\]

Ghi chú: Chúng ta lưu ý rằng với $0\leqslant r\leqslant n$, ta có $P(n,r)\geqslant C(n,r)$


Xác suất có điều kiện

Định lí Bayes Với các sự kiện $A$ và $B$ sao cho $P(B)>0$, ta có:

\[\boxed{P(A|B)=\frac{P(B|A)P(A)}{P(B)}}\]

Ghi chú: ta có $P(A\cap B)=P(A)P(B|A)=P(A|B)P(B)$


Phân vùng Cho $\{A_i, i\in[\![1,n]\!]\}$ sao cho với mỗi $i$, $A_i\neq\varnothing$. Chúng ta nói rằng $\{A_i\}$ là một phân vùng nếu có:

\[\boxed{\forall i\neq j, A_i\cap A_j=\emptyset\quad\textrm{ và }\quad\bigcup_{i=1}^nA_i=S}\]
Partition

Ghi chú: với bất cứ sự kiện $B$ nào trong không gian mẫu, ta có $\displaystyle P(B)=\sum_{i=1}^nP(B|A_i)P(A_i)$.


Định lý Bayes mở rộng Cho $\{A_i, i\in[\![1,n]\!]\}$ là một phân vùng của không gian mẫu. Ta có:

\[\boxed{P(A_k|B)=\frac{P(B|A_k)P(A_k)}{\displaystyle\sum_{i=1}^nP(B|A_i)P(A_i)}}\]

Sự kiện độc lập Hai sự kiện $A$ và $B$ được coi là độc lập khi và chỉ khi ta có:

\[\boxed{P(A\cap B)=P(A)P(B)}\]

Biến ngẫu nhiên

Định nghĩa

Biến ngẫu nhiên Một biến ngẫu nhiên, thường được kí hiệu là $X$, là một hàm nối mỗi phần tử trong một không gian mẫu thành một số thực.


Hàm phân phối tích lũy (CDF) Hàm phân phối tích lũy $F$, là một hàm đơn điệu không giảm, sao cho $\underset{x\rightarrow-\infty}{\textrm{lim}}F(x)=0$ và $\underset{x\rightarrow+\infty}{\textrm{lim}}F(x)=1$, được định nghĩa là:

\[\boxed{F(x)=P(X\leqslant x)}\]
Cumulative distribution function

Ghi chú: chúng ta có $P(a < X\leqslant B)=F(b)-F(a)$.


Hàm mật độ xác suất (PDF) Hàm mật độ xác suất $f$ là xác suất mà $X$ nhận các giá trị giữa hai giá trị thực liền kề của biến ngẫu nhiên.


Mối quan hệ liên quan giữa PDF và CDF Dưới đây là các thuộc tính quan trọng cần biết trong trường hợp rời rạc (D) và liên tục (C).

Trường hợp CDF $F$ PDF $f$ Thuộc tính của PDF
(D) $\displaystyle F(x)=\sum_{x_i\leqslant x}P(X=x_i)$ $f(x_j)=P(X=x_j)$ $\displaystyle0\leqslant f(x_j)\leqslant1\textrm{ và }\sum_{j}f(x_j)=1$
(C) $\displaystyle F(x)=\int_{-\infty}^xf(y)dy$ $f(x)=\displaystyle \frac{dF}{dx}$ $\displaystyle f(x)\geqslant0\textrm{ và }\int_{-\infty}^{+\infty}f(x)dx=1$

Kỳ vọng và moment của phân phối Dưới đây là các biểu thức của giá trị kì vọng $E[X]$, giá trị kì vọng ​​tổng quát $E[g(X)]$, moment bậc $k$ $E[X^k]$ và hàm đặc trưng $\psi(\omega)$ cho các trường hợp rời rạc và liên tục:

Case $E[X]$ $E[g(X)]$ $E[X^k]$ $\psi(\omega)$
(D) $\displaystyle \sum_{i=1}^nx_if(x_i)$ $\displaystyle \sum_{i=1}^ng(x_i)f(x_i)$ $\displaystyle \sum_{i=1}^nx_i^kf(x_i)$ $\displaystyle\sum_{i=1}^nf(x_i)e^{i\omega x_i}$
(C) $\displaystyle \int_{-\infty}^{+\infty}xf(x)dx$ $\displaystyle \int_{-\infty}^{+\infty}g(x)f(x)dx$ $\displaystyle \int_{-\infty}^{+\infty}x^kf(x)dx$ $\displaystyle\int_{-\infty}^{+\infty}f(x)e^{i\omega x}dx$

Phương sai Phương sai của một biến ngẫu nhiên, thường được kí hiệu là Var$(X)$ hoặc $\sigma^2$, là một độ đo mức độ phân tán của hàm phân phối. Nó được xác định như sau:

\[\boxed{\textrm{Var}(X)=E[(X-E[X])^2]=E[X^2]-E[X]^2}\]

Độ lệch chuẩn Độ lệch chuẩn của một biến ngẫu nhiên, thường được kí hiệu $\sigma$, là thước đo mức độ phân tán của hàm phân phối của nó so với các đơn vị của biến ngẫu nhiên thực tế. Nó được xác định như sau:

\[\boxed{\sigma=\sqrt{\textrm{Var}(X)}}\]
Standard deviation

Biến đổi các biến ngẫu nhiên Đặt các biến $X$ và $Y$ được liên kết với nhau bởi một hàm. Kí hiệu $f_X$ và $f_Y$ lần lượt là các phân phối của $X$ và $Y$, ta có:

\[\boxed{f_Y(y)=f_X(x)\left|\frac{dx}{dy}\right|}\]

Quy tắc tích phân Leibniz Gọi $g$ là hàm của $x$ và có khả năng $c$, và $a$,$b$ là các ranh giới có thể phụ thuộc vào $c$. Chúng ta có:

\[\boxed{\frac{\partial}{\partial c}\left(\int_a^bg(x)dx\right)=\frac{\partial b}{\partial c}\cdot g(b)-\frac{\partial a}{\partial c}\cdot g(a)+\int_a^b\frac{\partial g}{\partial c}(x)dx}\]

Phân bố xác suất

Bất đẳng thức Chebyshev Gọi $X$ là biến ngẫu nhiên có giá trị kỳ vọng $\mu$. Với $k, \sigma>0$, chúng ta có bất đẳng thức sau:

\[\boxed{P(|X-\mu|\geqslant k\sigma)\leqslant\frac{1}{k^2}}\]

Các phân phối chính Dưới là các phân phối chính cần ghi nhớ:

Loại Phân phối PDF $\psi(\omega)$ $E[X]$ $\textrm{Var}(X)$ Illustration
(D) $X\sim\mathcal{B}(n, p)$ $\displaystyle \displaystyle\binom{n}{x} p^xq^{n-x}$ $(pe^{i\omega}+q)^n$ $np$ $npq$ Binomial distribution
(D) $X\sim\textrm{Po}(\mu)$ $\displaystyle \frac{\mu^x}{x!}e^{-\mu}$ $e^{\mu(e^{i\omega}-1)}$ $\mu$ $\mu$ Poisson distribution
(C) $X\sim\mathcal{U}(a, b)$ $\displaystyle \frac{1}{b-a}$ $\displaystyle\frac{e^{i\omega b}-e^{i\omega a}}{(b-a)i\omega}$ $\displaystyle\frac{a+b}{2}$ $\displaystyle\frac{(b-a)^2}{12}$ Uniform distribution
(C) $X\sim\mathcal{N}(\mu, \sigma)$ $\displaystyle \frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{1}{2}\left(\frac{x-\mu}{\sigma}\right)^2}$ $e^{i\omega\mu-\frac{1}{2}\omega^2\sigma^2}$ $\mu$ $\sigma^2$ Normal distribution
(C) $X\sim\textrm{Exp}(\lambda)$ $\displaystyle \lambda e^{-\lambda x}$ $\displaystyle\frac{1}{1-\frac{i\omega}{\lambda}}$ $\displaystyle\frac{1}{\lambda}$ $\displaystyle\frac{1}{\lambda^2}$ Exponential distribution

Phân phối đồng thời biến ngẫu nhiên

Mật độ biên và phân phối tích lũy Từ hàm phân phối mật độ đồng thời $f_{XY}$, ta có

Trường hợp Mật độ biên Hàm tích lũy
(D) $\displaystyle f_X(x_i)=\sum_{j}f_{XY}(x_i,y_j)$ $\displaystyle F_{XY}(x,y)=\sum_{x_i\leqslant x}\sum_{y_j\leqslant y}f_{XY}(x_i,y_j)$
(C) $\displaystyle f_X(x)=\int_{-\infty}^{+\infty}f_{XY}(x,y)dy$ $\displaystyle F_{XY}(x,y)=\int_{-\infty}^x\int_{-\infty}^yf_{XY}(x',y')dx'dy'$

Mật độ có điều kiện Mật độ có điều kiện của $X$ với $Y$, thường được kí hiệu là $f_{X|Y}$, được định nghĩa như sau:

\[\boxed{f_{X|Y}(x)=\frac{f_{XY}(x,y)}{f_Y(y)}}\]

Tính chất độc lập Hai biến ngẫu nhiên $X$ và $Y$ độc lập nếu ta có:

\[\boxed{f_{XY}(x,y)=f_X(x)f_Y(y)}\]

Hiệp phương sai Chúng ta xác định hiệp phương sai của hai biến ngẫu nhiên $X$ và $Y$, thường được kí hiệu $\sigma_{XY}^2$ hay $\textrm{Cov}(X,Y)$, như sau:

\[\boxed{\textrm{Cov}(X,Y)\triangleq\sigma_{XY}^2=E[(X-\mu_X)(Y-\mu_Y)]=E[XY]-\mu_X\mu_Y}\]

Hệ số tương quan Kí hiệu $\sigma_X$,$\sigma_Y$ là độ lệch chuẩn của $X$ và $Y$, chúng ta xác định hệ số tương quan giữa $X$ và $Y$, kí hiệu $\rho_{XY}$, như sau:

\[\boxed{\rho_{XY}=\frac{\sigma_{XY}^2}{\sigma_X\sigma_Y}}\]

Ghi chú 1: chúng ta lưu ý rằng với bất cứ biến ngẫu nhiên $X, Y$ nào, ta luôn có $\rho_{XY}\in[-1,1]$.

Ghi chú 2: Nếu $X$ và $Y$ độc lập với nhau thì $\rho_{XY} = 0$.


Ước lượng tham số

Định nghĩa

Mẫu ngẫu nhiên Mẫu ngẫu nhiên là tập hợp của $n$ biến ngẫu nhiên $X_1, ..., X_n$ độc lập và được phân phối giống hệt với $X$.


Công cụ ước tính Công cụ ước tính (estimator) là một hàm của dữ liệu được sử dụng để suy ra giá trị của một tham số chưa biết trong mô hình thống kê.


Thiên vị Thiên vị (bias) của Estimator $\hat{\theta}$ được định nghĩa là chênh lệch giữa giá trị kì vọng ​​của phân phối $\hat{\theta}$ và giá trị thực, tức là

\[\boxed{\textrm{Bias}(\hat{\theta})=E[\hat{\theta}]-\theta}\]

Ghi chú: một công cụ ước tính được cho là không thiên vị (unbiased) khi chúng ta có $E[\hat{\theta}]=\theta$.


Ước lượng trung bình

Giá trị trung bình mẫu Giá trị trung bình mẫu của mẫu ngẫu nhiên được sử dụng để ước tính giá trị trung bình thực $\mu$ của phân phối, thường được kí hiệu $\overline{X}$ và được định nghĩa như sau:

\[\boxed{\overline{X}=\frac{1}{n}\sum_{i=1}^nX_i}\]

Ghi chú: trung bình mẫu là không thiên vị (unbiased), nghĩa là $E[\overline{X}]=\mu$.


Định lý giới hạn trung tâm Giả sử chúng ta có một mẫu ngẫu nhiên $X_1, ..., X_n$ theo một phân phối nhất định với trung bình $\mu$ và phương sai $\sigma^2$, sau đó chúng ta có:

\[\boxed{\overline{X}\underset{n\rightarrow+\infty}{\sim}\mathcal{N}\left(\mu, \frac{\sigma}{\sqrt{n}}\right)}\]

Ước lượng phương sai

Phương sai mẫu Phương sai mẫu của mẫu ngẫu nhiên được sử dụng để ước lượng phương sai thực sự $\sigma^2$ của phân phối, thường được kí hiệu là $s^2$ hoặc $\hat{\sigma}^2$ và được định nghĩa như sau:

\[\boxed{s^2=\hat{\sigma}^2=\frac{1}{n-1}\sum_{i=1}^n(X_i-\overline{X})^2}\]

Ghi chú: phương sai mẫu không thiên vị (unbiased), nghĩa là $E[s^2]=\sigma^2$.


Quan hệ Chi-Squared với phương sai mẫu Với $s^2$ là phương sai mẫu của một mẫu ngẫu nhiên, ta có:

\[\boxed{\frac{s^2(n-1)}{\sigma^2}\sim\chi_{n-1}^2}\]