CS 229 - 기계 학습

확률과 통계
Star

아프신 아미디셰르빈 아미디


Wooil Jeong 에 의해 번역됨

확률과 조합론 소개

표본 공간 시행의 가능한 모든 결과 집합은 시행의 표본 공간으로 알려져 있으며 $S$로 표기합니다.


사건 표본 공간의 모든 부분 집합 $E$를 사건이라고 합니다. 즉, 사건은 시행 가능한 결과로 구성된 집합입니다. 시행 결과가 $E$에 포함된다면, $E$가 발생했다고 이야기합니다.


확률의 공리 각 사건 $E$에 대하여, 우리는 사건 $E$가 발생할 확률을 $P(E)$로 나타냅니다.

공리 1 ― 모든 확률은 0과 1사이에 포함됩니다, 즉:

\[\boxed{0\leqslant P(E)\leqslant 1}\]

공리 2 ― 전체 표본 공간에서 적어도 하나의 근원 사건이 발생할 확률은 1입니다. 즉:

\[\boxed{P(S)=1}\]

공리 3 ― 서로 배반인 어떤 연속적인 사건 $E_1, ..., E_n$ 에 대하여, 우리는 다음을 가집니다:

\[\boxed{P\left(\bigcup_{i=1}^nE_i\right)=\sum_{i=1}^nP(E_i)}\]

순열(Permutation) 순열은 $n$개의 객체들로부터 $r$개의 객체들의 순서를 고려한 배열입니다. 그러한 배열의 수는 $P(n, r)$에 의해 주어지며, 다음과 같이 정의됩니다:

\[\boxed{P(n, r)=\frac{n!}{(n-r)!}}\]

조합(Combination) 조합은 $n$개의 객체들로부터 $r$개의 객체들의 순서를 고려하지 않은 배열입니다. 그러한 배열의 수는 다음과 같이 정의되는 $C(n, r)$에 의해 주어집니다:

\[\boxed{C(n, r)=\frac{P(n, r)}{r!}=\frac{n!}{r!(n-r)!}}\]

비고 :우리는 $0\leqslant r\leqslant n$에 대해, $P(n,r)\geqslant C(n,r)$를 가집니다.


조건부 확률

베이즈 규칙 $P(B)>0$인 사건 $A, B$에 대해, 우리는 다음을 가집니다:

\[\boxed{P(A|B)=\frac{P(B|A)P(A)}{P(B)}}\]

우리는 $P(A\cap B)=P(A)P(B|A)=P(A|B)P(B)$를 가집니다.


파티션(Partition) $\{A_i, i\in[\![1,n]\!]\}$은 모든 $i$에 대해 $A_i\neq\varnothing$이라고 해봅시다. 우리는 $\{A_i\}$가 다음과 같은 경우 파티션이라고 말합니다.

\[\boxed{\forall i\neq j, A_i\cap A_j=\emptyset\quad\textrm{ and }\quad\bigcup_{i=1}^nA_i=S}\]

비고 : 표본 공간에서 어떤 사건 $B$에 대해서 우리는 $\displaystyle P(B)=\sum_{i=1}^nP(B|A_i)P(A_i)$를 가집니다.


베이즈 규칙의 확장된 형태 $\{A_i, i\in[\![1,n]\!]\}$를 표본 공간의 파티션이라고 합시다. 우리는 다음을 가집니다:

\[\boxed{P(A_k|B)=\frac{P(B|A_k)P(A_k)}{\displaystyle\sum_{i=1}^nP(B|A_i)P(A_i)}}\]

독립성 다음의 경우에만 두 사건 $A, B$가 독립적입니다:

\[\boxed{P(A\cap B)=P(A)P(B)}\]

확률 변수

정의

확률 변수 주로 $X$라고 표기된 확률 변수는 표본 공간의 모든 요소를 ​​실선에 대응시키는 함수입니다.


누적 분포 함수 (CDF) 단조 감소하지 않고 $\underset{x\rightarrow-\infty}{\textrm{lim}}F(x)=0$ 이고, $\underset{x\rightarrow+\infty}{\textrm{lim}}F(x)=1$ 인 누적 분포 함수 F는 다음과 같이 정의됩니다:

\[\boxed{F(x)=P(X\leqslant x)}\]

비고 : 우리는 $P(a < X\leqslant B)=F(b)-F(a)$를 가집니다.


확률 밀도 함수 (PDF) 확률 밀도 함수 $f$는 인접한 두 확률 변수의 사이에 $X$가 포함될 확률입니다.


PDF와 CDF의 관계 이산 (D)과 연속 (C) 예시에서 알아야 할 중요한 특성이 있습니다.

예시 CDF $F$ PDF $f$ PDF의 특성
(D) $\displaystyle F(x)=\sum_{x_i\leqslant x}P(X=x_i)$ $f(x_j)=P(X=x_j)$ $\displaystyle0\leqslant f(x_j)\leqslant1\textrm{ and }\sum_{j}f(x_j)=1$
(C) $\displaystyle F(x)=\int_{-\infty}^xf(y)dy$ $f(x)=\displaystyle \frac{dF}{dx}$ $\displaystyle f(x)\geqslant0\textrm{ and }\int_{-\infty}^{+\infty}f(x)dx=1$

분포의 기대값과 적률 이산 혹은 연속일 때, 기대값 $E[X]$, 일반화된 기대값 $E[g(X)]$, $k$번째 적률 $E[X^k]$ 및 특성 함수 $\psi(\omega)$ :

Case $E[X]$ $E[g(X)]$ $E[X^k]$ $\psi(\omega)$
(D) $\displaystyle \sum_{i=1}^nx_if(x_i)$ $\displaystyle \sum_{i=1}^ng(x_i)f(x_i)$ $\displaystyle \sum_{i=1}^nx_i^kf(x_i)$ $\displaystyle\sum_{i=1}^nf(x_i)e^{i\omega x_i}$
(C) $\displaystyle \int_{-\infty}^{+\infty}xf(x)dx$ $\displaystyle \int_{-\infty}^{+\infty}g(x)f(x)dx$ $\displaystyle \int_{-\infty}^{+\infty}x^kf(x)dx$ $\displaystyle\int_{-\infty}^{+\infty}f(x)e^{i\omega x}dx$

분산 (Variance) 주로 Var$(X)$ 또는 $\sigma^2$이라고 표기된 확률 변수의 분산은 분포 함수의 산포(Spread)를 측정한 값입니다. 이는 다음과 같이 결정됩니다:

\[\boxed{\textrm{Var}(X)=E[(X-E[X])^2]=E[X^2]-E[X]^2}\]

표준 편차(Standard Deviation) 표준 편차는 실제 확률 변수의 단위를 사용할 수 있는 분포 함수의 산포(Spread)를 측정하는 측도입니다. 이는 다음과 같이 결정됩니다:

\[\boxed{\sigma=\sqrt{\textrm{Var}(X)}}\]

확률 변수의 변환 변수 $X$와 $Y$를 어떤 함수로 연결되도록 해봅시다. $f_X$와 $f_Y$에 각각 $X$와 $Y$의 분포 함수를 표기하면 다음과 같습니다:

\[\boxed{f_Y(y)=f_X(x)\left|\frac{dx}{dy}\right|}\]

라이프니츠 적분 규칙 $g$를 $x$의 함수로, 잠재적으로 $c$라고 해봅시다. 그리고 $c$에 종속적인 경계 $a, b$에 대해 우리는 다음을 가집니다:

\[\boxed{\frac{\partial}{\partial c}\left(\int_a^bg(x)dx\right)=\frac{\partial b}{\partial c}\cdot g(b)-\frac{\partial a}{\partial c}\cdot g(a)+\int_a^b\frac{\partial g}{\partial c}(x)dx}\]

확률 분포

체비쇼프 부등식 $X$를 기대값 $\mu$의 확률 변수라고 해봅시다. $k$에 대하여, $\sigma>0$이면 다음과 같은 부등식을 가집니다:

\[\boxed{P(|X-\mu|\geqslant k\sigma)\leqslant\frac{1}{k^2}}\]

주요 분포들 기억해야 할 주요 분포들이 여기 있습니다:

타입(Type) 분포 PDF $\psi(\omega)$ $E[X]$ $\textrm{Var}(X)$
(D) $X\sim\mathcal{B}(n, p)$ $\displaystyle P(X=x)=\displaystyle\binom{n}{x} p^xq^{n-x}$ $(pe^{i\omega}+q)^n$ $np$ $npq$
(D) $X\sim\textrm{Po}(\mu)$ $\displaystyle P(X=x)=\frac{\mu^x}{x!}e^{-\mu}$ $e^{\mu(e^{i\omega}-1)}$ $\mu$ $\mu$
(C) $X\sim\mathcal{U}(a, b)$ $\displaystyle f(x)=\frac{1}{b-a}$ $\displaystyle\frac{e^{i\omega b}-e^{i\omega a}}{(b-a)i\omega}$ $\displaystyle\frac{a+b}{2}$ $\displaystyle\frac{(b-a)^2}{12}$
(C) $X\sim\mathcal{N}(\mu, \sigma)$ $\displaystyle f(x)=\frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{1}{2}\left(\frac{x-\mu}{\sigma}\right)^2}$ $e^{i\omega\mu-\frac{1}{2}\omega^2\sigma^2}$ $\mu$ $\sigma^2$
(C) $X\sim\textrm{Exp}(\lambda)$ $\displaystyle f(x) = \lambda e^{-\lambda x}$ $\displaystyle\frac{1}{1-\frac{i\omega}{\lambda}}$ $\displaystyle\frac{1}{\lambda}$ $\displaystyle\frac{1}{\lambda^2}$

결합 분포 확률 변수

주변 밀도와 누적 분포 결합 밀도 확률 함수 $f_{XY}$로부터 우리는 다음을 가집니다

예시 주변 밀도 누적 함수
(D) $\displaystyle f_X(x_i)=\sum_{j}f_{XY}(x_i,y_j)$ $\displaystyle F_{XY}(x,y)=\sum_{x_i\leqslant x}\sum_{y_j\leqslant y}f_{XY}(x_i,y_j)$
(C) $\displaystyle f_X(x)=\int_{-\infty}^{+\infty}f_{XY}(x,y)dy$ $\displaystyle F_{XY}(x,y)=\int_{-\infty}^x\int_{-\infty}^yf_{XY}(x',y')dx'dy'$

조건부 밀도 주로 $f_{X|Y}$로 표기되는 $Y$에 대한 $X$의 조건부 밀도는 다음과 같이 정의됩니다:

\[\boxed{f_{X|Y}(x)=\frac{f_{XY}(x,y)}{f_Y(y)}}\]

독립성 두 확률 변수 $X$와 $Y$는 다음과 같은 경우에 독립적이라고 합니다:

\[\boxed{f_{XY}(x,y)=f_X(x)f_Y(y)}\]

공분산 다음과 같이 두 확률 변수 $X$와 $Y$의 공분산을 $\sigma_{XY}^2$ 혹은 더 일반적으로는 $\textrm{Cov}(X,Y)$로 정의합니다:

\[\boxed{\textrm{Cov}(X,Y)\triangleq\sigma_{XY}^2=E[(X-\mu_X)(Y-\mu_Y)]=E[XY]-\mu_X\mu_Y}\]

상관관계 $\sigma_X, \sigma_Y$로 $X$와 $Y$의 표준 편차를 표기함으로써 $\rho_{XY}$로 표기된 임의의 변수 $X$와 $Y$ 사이의 상관관계를 다음과 같이 정의합니다:

\[\boxed{\rho_{XY}=\frac{\sigma_{XY}^2}{\sigma_X\sigma_Y}}\]

비고 1: 우리는 임의의 확률 변수 $X, Y$에 대해 $\rho_{XY}\in[-1,1]$를 가진다고 말합니다.

비고 2: $X$와 $Y$가 독립이라면 $\rho_{XY} = 0$입니다.


모수 추정

정의

확률 표본 확률 표본은 $X$와 독립적으로 동일하게 분포하는 $n$개의 확률 변수 $X_1, ..., X_n$의 모음입니다.


추정량 추정량은 통계 모델에서 알 수 없는 모수의 값을 추론하는 데 사용되는 데이터의 함수입니다.


편향 추정량 $\hat{\theta}$의 편향은 $\hat{\theta}$ 분포의 기대값과 실제값 사이의 차이로 정의됩니다. 즉:

\[\boxed{\textrm{Bias}(\hat{\theta})=E[\hat{\theta}]-\theta}\]

비고 : 추정량은 $E[\hat{\theta}]=\theta$ 일 때, 비 편향적이라고 말합니다.


평균 추정

표본 평균 랜덤 표본의 표본 평균은 분포의 실제 평균 $\mu$를 추정하는 데 사용되며 종종 다음과 같이 정의됩니다:

\[\boxed{\overline{X}=\frac{1}{n}\sum_{i=1}^nX_i}\]

비고 : 표본 평균은 비 편향적입니다, 즉i.e $E[\overline{X}]=\mu$.


중심 극한 정리 평균 $\mu$와 분산 $\sigma^2$를 갖는 주어진 분포를 따르는 랜덤 표본 $X_1, ..., X_n$을 가정해 봅시다 그러면 우리는 다음을 가집니다:

\[\boxed{\overline{X}\underset{n\rightarrow+\infty}{\sim}\mathcal{N}\left(\mu, \frac{\sigma}{\sqrt{n}}\right)}\]

분산 추정

표본 분산 랜덤 표본의 표본 분산은 분포의 실제 분산 $\sigma^2$를 추정하는 데 사용되며 종종 $s^2$ 또는 $\sigma^2$로 표기되며 다음과 같이 정의됩니다:

\[\boxed{s^2=\hat{\sigma}^2=\frac{1}{n-1}\sum_{i=1}^n(X_i-\overline{X})^2}\]

비고 : 표본 분산은 비 편향적입니다, 즉 $E[s^2]=\sigma^2$.


표본 분산과 카이 제곱의 관계 $s^2$를 랜덤 표본의 표분 분산이라고 합시다. 우리는 다음을 가집니다:

\[\boxed{\frac{s^2(n-1)}{\sigma^2}\sim\chi_{n-1}^2}\]