CS 229 - Aprendizaje automático

Repaso de probabilidades y estadísticas
Star

Contenido original por Afshine Amidi y Shervine Amidi
Traducido por Fermin Ordaz. Revisado por Fernando González-Herrera y Alonso Melgar López.

Introducción a la probabilidad y combinatoria

Espacio muestral El conjunto de todos los posibles resultados de un experimento es conocido como el espacio muestral del experimento y se denota como $S$.


Evento Cualquier subconjunto $E$ del espacio muestral es conocido como un evento. Esto significa que un evento es un conjunto de posibles resultados de un experimento. Si el resultado de un experimento esta contenido en $E$, entonces decimos que el evento $E$ ha ocurrido.


Axiomas de la probabilidad Para cada evento $E$, denota $P(E)$ como la probabilidad de que el evento $E$ ocurra.

Axioma 1 ― Cada probabilidad tiene valores inclusivos entre 0 y 1, esto es:

\[\boxed{0\leqslant P(E)\leqslant 1}\]

Axioma 2 ― La probabilidad de que por lo menos uno de los eventos elementales de todo el espacio muestral ocurra es 1, esto es:

\[\boxed{P(S)=1}\]

Axioma 3 ― Por cada secuencia de eventos mutuamente excluyentes $E_1, ..., E_n$, se tiene:

\[\boxed{P\left(\bigcup_{i=1}^nE_i\right)=\sum_{i=1}^nP(E_i)}\]

Permutación Una permutación es un arreglo de $r$ objetos tomados de un grupo de $n$ objetos, en un order arbitrario. El número de estos arreglos es dado por $P(n,r)$, definido como:

\[\boxed{P(n, r)=\frac{n!}{(n-r)!}}\]

Combinación Una combinación es un arreglo de $r$ objetos tomados de un grupo de $n$ objetos, donde el orden no importa. El número de estos arreglos es dado por $C(n,r)$, definido como:

\[\boxed{C(n, r)=\frac{P(n, r)}{r!}=\frac{n!}{r!(n-r)!}}\]

Observación: cabe resaltar que para $0\leqslant r\leqslant n$, se tiene $P(n,r)\geqslant C(n,r)$.


Probabilidad condicional

Regla de Bayes Para eventos $A$ y $B$ tal que $P(B)>0$, se tiene:

\[\boxed{P(A|B)=\frac{P(B|A)P(A)}{P(B)}}\]

Observación: Se tiene $P(A\cap B)=P(A)P(B|A)=P(A|B)P(B)$.


Partición Sea $\{A_i, i\in[\![1,n]\!]\}$ tal que para todo $i$, $A_i\neq\varnothing$. Se dice entonces que $\{A_i\}$ es una partición si se cumple:

\[\boxed{\forall i\neq j, A_i\cap A_j=\emptyset\quad\textrm{ y }\quad\bigcup_{i=1}^nA_i=S}\]

Observación: Para cualquier evento $B$ del espacio muestral, se cumple $\displaystyle P(B)=\sum_{i=1}^nP(B|A_i)P(A_i)$.


Regla de Bayes extendida Sea $\{A_i, i\in[\![1,n]\!]\}$ una partición del espacio muestral. Se cumple:

\[\boxed{P(A_k|B)=\frac{P(B|A_k)P(A_k)}{\displaystyle\sum_{i=1}^nP(B|A_i)P(A_i)}}\]

Independencia Dos events $A$ y $B$ son independientes si y solo si se cumple:

\[\boxed{P(A\cap B)=P(A)P(B)}\]

Variables aleatorias

Definiciones

Variable aleatoria Una variable aleatoria, generalmente denotada por $X$, es una función que asocia cada elemento de un espacio muestral a una linea real.


Función de distribución acumulada (FDA) La función de distribución acumulada $F$ (en inglés CDF - Cumulative distribution function), la cual es monótonamente creciente y es tal que $\underset{x\rightarrow-\infty}{\textrm{lim}}F(x)=0$ y $\underset{x\rightarrow+\infty}{\textrm{lim}}F(x)=1$, es definida como:

\[\boxed{F(x)=P(X\leqslant x)}\]

Observación: Se tiene $P(a < X\leqslant B)=F(b)-F(a)$.


Función de densidad de probabilidad (FDP) La función de densidad de probabilidad $f$ (en inglés PDF - Probability density function) es la probabilidad que $X$ tome valores entre dos ocurrencias adyacentes de la variable aleatoria.


Relaciones entre la FDA y FDP Estas son las propiedades mas importantes para conocer en los casos discreto (D) y contínuo (C).

Caso FDA $F$ FDP $f$ Propiedades de FDP
(D) $\displaystyle F(x)=\sum_{x_i\leqslant x}P(X=x_i)$ $f(x_j)=P(X=x_j)$ $\displaystyle0\leqslant f(x_j)\leqslant1\textrm{ y }\sum_{j}f(x_j)=1$
(C) $\displaystyle F(x)=\int_{-\infty}^xf(y)dy$ $f(x)=\displaystyle \frac{dF}{dx}$ $\displaystyle f(x)\geqslant0\textrm{ y }\int_{-\infty}^{+\infty}f(x)dx=1$

Valor esperado y momentos de la distribución Aquí están las expresiones del valor esperado $E[X]$, valor esperado generalizado $E[g(X)]$, $k^{ésimo}$ momento $E[X^k]$ y función característica $\psi(\omega)$ para los casos discreto y contínuo:

Caso $E[X]$ $E[g(X)]$ $E[X^k]$ $\psi(\omega)$
(D) $\displaystyle \sum_{i=1}^nx_if(x_i)$ $\displaystyle \sum_{i=1}^ng(x_i)f(x_i)$ $\displaystyle \sum_{i=1}^nx_i^kf(x_i)$ $\displaystyle\sum_{i=1}^nf(x_i)e^{i\omega x_i}$
(C) $\displaystyle \int_{-\infty}^{+\infty}xf(x)dx$ $\displaystyle \int_{-\infty}^{+\infty}g(x)f(x)dx$ $\displaystyle \int_{-\infty}^{+\infty}x^kf(x)dx$ $\displaystyle\int_{-\infty}^{+\infty}f(x)e^{i\omega x}dx$

Varianza La varianza de una variable aleatoria, frecuentemente denotada por Var$(X)$ o $\sigma^2$, es la medida de dispersión de su función de distribución. Esta determinada de la siguiente manera:

\[\boxed{\textrm{Var}(X)=E[(X-E[X])^2]=E[X^2]-E[X]^2}\]

Desviación estándar La desviación estándar de una variable aleatoria, frecuentemente denotada por $\sigma$, es una medida de la dispersión de su función de distribución la cual es compatible con las unidades de la correspondiente variable aleatoria. Se determina de la siguiente manera:

\[\boxed{\sigma=\sqrt{\textrm{Var}(X)}}\]

Transformación de variables aleatorias Sean las variables $X$ y $Y$ asociadas por alguna función. Denotemos como $f_X$ y $f_Y$ la función de distribución de $X$ y $Y$ respectivamente, se tiene:

\[\boxed{f_Y(y)=f_X(x)\left|\frac{dx}{dy}\right|}\]

Regla integral de Leibniz Sea $g$ una función de $x$ y posiblemente de $c$, y además sea $a, b$, un intervalo que puede depender de $c$. Se tiene:

\[\boxed{\frac{\partial}{\partial c}\left(\int_a^bg(x)dx\right)=\frac{\partial b}{\partial c}\cdot g(b)-\frac{\partial a}{\partial c}\cdot g(a)+\int_a^b\frac{\partial g}{\partial c}(x)dx}\]

Distribuciones de probabilidad

Desigualdad de Chebyshev Sea $X$ una variable aleatoria con valor esperado $\mu$. Para $k,\sigma>0$, se tiene la siguiente desigualdad:

\[\boxed{P(|X-\mu|\geqslant k\sigma)\leqslant\frac{1}{k^2}}\]

Distribuciones importantes Aquí están las distribuciones más importantes para tomar en cuenta:

Tipo Distribución FDP $\psi(\omega)$ $E[X]$ $\textrm{Var}(X)$
(D) $X\sim\mathcal{B}(n, p)$ $\displaystyle P(X=x)=\displaystyle\binom{n}{x} p^xq^{n-x}$ $(pe^{i\omega}+q)^n$ $np$ $npq$
(D) $X\sim\textrm{Po}(\mu)$ $\displaystyle P(X=x)=\frac{\mu^x}{x!}e^{-\mu}$ $e^{\mu(e^{i\omega}-1)}$ $\mu$ $\mu$
(C) $X\sim\mathcal{U}(a, b)$ $\displaystyle f(x)=\frac{1}{b-a}$ $\displaystyle\frac{e^{i\omega b}-e^{i\omega a}}{(b-a)i\omega}$ $\displaystyle\frac{a+b}{2}$ $\displaystyle\frac{(b-a)^2}{12}$
(C) $X\sim\mathcal{N}(\mu, \sigma)$ $\displaystyle f(x)=\frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{1}{2}\left(\frac{x-\mu}{\sigma}\right)^2}$ $e^{i\omega\mu-\frac{1}{2}\omega^2\sigma^2}$ $\mu$ $\sigma^2$
(C) $X\sim\textrm{Exp}(\lambda)$ $\displaystyle f(x) = \lambda e^{-\lambda x}$ $\displaystyle\frac{1}{1-\frac{i\omega}{\lambda}}$ $\displaystyle\frac{1}{\lambda}$ $\displaystyle\frac{1}{\lambda^2}$

Variables aleatorias conjuntas

Densidad marginal y distribución acumulada De la función conjunta de densidad de probabilidad $f_{XY}$, se tiene:

Caso Densidad marginal Función acumulativa
(D) $\displaystyle f_X(x_i)=\sum_{j}f_{XY}(x_i,y_j)$ $\displaystyle F_{XY}(x,y)=\sum_{x_i\leqslant x}\sum_{y_j\leqslant y}f_{XY}(x_i,y_j)$
(C) $\displaystyle f_X(x)=\int_{-\infty}^{+\infty}f_{XY}(x,y)dy$ $\displaystyle F_{XY}(x,y)=\int_{-\infty}^x\int_{-\infty}^yf_{XY}(x',y')dx'dy'$

Densidad condicional La densidad condicional de $X$ con respecto a $Y$, frecuentemente denotada como $f_{X|Y}$, es definida como:

\[\boxed{f_{X|Y}(x)=\frac{f_{XY}(x,y)}{f_Y(y)}}\]

Independencia Dos variables aleatorias $X$ y $Y$ son consideradas independientes si se tiene:

\[\boxed{f_{XY}(x,y)=f_X(x)f_Y(y)}\]

Covarianza Definimos la covarianza de dos variables aleatorias $X$ y $Y$, denotada como $\sigma_{XY}^2$ o comúnmente como $\textrm{Cov}(X,Y)$, de la siguiente manera:

\[\boxed{\textrm{Cov}(X,Y)\triangleq\sigma_{XY}^2=E[(X-\mu_X)(Y-\mu_Y)]=E[XY]-\mu_X\mu_Y}\]

Correlación Sean $\sigma_X, \sigma_Y$ las desviaciones estándard de $X$ y $Y$, definimos la correlación entre estas variables, denotada como $\rho_{XY}$, de la siguiente manera:

\[\boxed{\rho_{XY}=\frac{\sigma_{XY}^2}{\sigma_X\sigma_Y}}\]

Observación 1: cabe resaltar que para $X$, $Y$, variables aleatorias cualesquiera, se tiene que $\rho_{XY}\in[-1,1].$

Observación 2: si $X$ y $Y$ son independientes, entonces $\rho_{XY} = 0$.


Estimación de parámetros

Definiciones

Muestra aleatoria Una muestra aleatoria es una colección de n variables aleatorias $X_1, ..., X_n$ que son independientes e idénticamente distribuidas a $X$.


Estimador Un estimador es una función de los datos que es usada para inferir el valor de un parámetro desconocido en un modelo estadístico.


Sesgo El sesgo de un estimador $\hat{\theta}$ se define como la diferencia entre el valor esperado de la distribución de $\hat{\theta}$ y el valor exacto, esto es:

\[\boxed{\textrm{Sesgo}(\hat{\theta})=E[\hat{\theta}]-\theta}\]

Observación: se dice que un estimador es no sesgado cuando se tiene $E[\hat{\theta}]=\theta$.


Estimación de la media

Media de la muestra La media de la muestra aleatoria se usa para estimar el valor exacto de la media $\mu$ de la distribución, se denota frecuentemente como $\overline{X}$ y se define de la siguiente manera:

\[\boxed{\overline{X}=\frac{1}{n}\sum_{i=1}^nX_i}\]

Observación: la media de la muestra es no sesgada, esto es $E[\overline{X}]=\mu$.


Teorema del Límite Central Sea $X_1, ..., X_n$ una muestra aleatoria que sigue una distribución con media $\mu$ y varianza $\sigma^2$, entonces se tiene:

\[\boxed{\overline{X}\underset{n\rightarrow+\infty}{\sim}\mathcal{N}\left(\mu, \frac{\sigma}{\sqrt{n}}\right)}\]

Estimación de la varianza

Varianza de la muestra La varianza de la muestra aleatoria se usa para estimar el valor exacto de la varianza $\sigma^2$ de una distribución, se denota frecuentemente como $s^2$ o $\hat{\sigma}^2$ y se define de la siguiente manera:

\[\boxed{s^2=\hat{\sigma}^2=\frac{1}{n-1}\sum_{i=1}^n(X_i-\overline{X})^2}\]

Observación: la varianza de la muestra es no sesgada, esto es $E[s^2]=\sigma^2$.


Relación Chi-cuadrada con la varianza de la muestra Sea $s^2$ la varianza de la muestra de una variable aleatoria. Se tiene:

\[\boxed{\frac{s^2(n-1)}{\sigma^2}\sim\chi_{n-1}^2}\]