CS 229 - Aprendizado de máquina

Revisão de probabilidades e estatística
Star

Conteúdo original por Afshine Amidi e Shervine Amidi
Traduzido por Leticia Portella. Revisado por Flavio Clesio.

Introdução a Probabilidade e Combinatória

Espaço amostral O conjunto de todos os resultados possíveis é chamado de espaço amostral do experimento e é denotado por $S$.


Evento Qualquer subconjunto $E$ do espaço amostral é chamado de evento. Isso é, um evento é um conjunto de possíveis resultados do experimento. Se o resultado do experimento está contido em $E$, então é dito que o evento ocorreu.


Axiomas de probabilidade Para cada evento $E$, denotamos $P(E)$ a probabilidade do evento $E$ ocorrer.

Axioma 1 ― Toda probabilidade está entre 0 e 1 incluído, i.e:

\[\boxed{0\leqslant P(E)\leqslant 1}\]

Axioma 2 ― A probabilidade de ao menos um dos eventos elementares do espaço amostral inteiro ocorrer é 1, i.e:

\[\boxed{P(S)=1}\]

Axioma 3 ― Para qualquer sequência de eventos mutuamente exclusivos $E1, ..., En$, temos:

\[\boxed{P\left(\bigcup_{i=1}^nE_i\right)=\sum_{i=1}^nP(E_i)}\]

Permutação A permutação é um arranjo de $r$ objetos de um conjunto de $n$ objetos, em uma determinada ordem. O número desses arranjos é dado por $P(n,r)$, definido como:

\[\boxed{P(n, r)=\frac{n!}{(n-r)!}}\]

Combinação A combinação de um arranjo de $r$ objetos de um conjunto de $n$ objetos, onde a ordem não importa. O número desses arranjos é dado por $C(n,r)$, definido como:

\[\boxed{C(n, r)=\frac{P(n, r)}{r!}=\frac{n!}{r!(n-r)!}}\]

Observação: dado que $0\leqslant r\leqslant n$, então temos que $P(n,r)\geqslant C(n,r)$.


Probabilidade Condicional

Regra de Bayes Para eventos $A$ e $B$ tal que $P(B)>0$, temos que:

\[\boxed{P(A|B)=\frac{P(B|A)P(A)}{P(B)}}\]

Observação: temos que $P(A\cap B)=P(A)P(B|A)=P(A|B)P(B)$.


Partição Dado que $\{A_i, i\in[\![1,n]\!]\}$ seja tal que para todo $i$, $A_i\neq\varnothing$. Dizemos que $\{A_i\}$ é uma partição se temos:

\[\boxed{\forall i\neq j, A_i\cap A_j=\emptyset\quad\textrm{ e }\quad\bigcup_{i=1}^nA_i=S}\]

Observação: para qualquer evento $B$ no espaço amostral temos que $\displaystyle P(B)=\sum_{i=1}^nP(B|A_i)P(A_i)$.


Extensão da regra de Bayes Seja $\{A_i, i\in[\![1,n]\!]\}$ uma partição do espaço amostral. Temos que:

\[\boxed{P(A_k|B)=\frac{P(B|A_k)P(A_k)}{\displaystyle\sum_{i=1}^nP(B|A_i)P(A_i)}}\]

Independência Dois eventos $A$ e $B$ são independentes se e apenas se tivermos:

\[\boxed{P(A\cap B)=P(A)P(B)}\]

Variáveis Aleatórias

Definições

Variável aleatória Uma variável aleatória, normalmente denominada $X$, é uma função que mapeia todo elemento em um espaço amostral para uma linha verdadeira.


Função de distribuição cumulativa (CDF) A função de distribuição cumulativa $F$, que é monotonicamente não decrescente e é tal que $\underset{x\rightarrow-\infty}{\textrm{lim}}F(x)=0$ e $\underset{x\rightarrow+\infty}{\textrm{lim}}F(x)=1$, é definida como:

\[\boxed{F(x)=P(X\leqslant x)}\]

Lembrete: temos que $P(a < X\leqslant B)=F(b)-F(a)$.


Função densidade de probabilidade (PDF) A função densidade de probabilidade $f$ é a probabilidade de que $X$ assuma valores entre duas realizações adjacentes da variável aleatória.


Relações envolvendo a PDF e a CDF Aqui estão as propriedades mais importantes que se deve conhecer dos casos discretos (D) e contínuos (C).

Caso CDF $F$ PDF $f$ Propriedades da PDF
(D) $\displaystyle F(x)=\sum_{x_i\leqslant x}P(X=x_i)$ $f(x_j)=P(X=x_j)$ $\displaystyle0\leqslant f(x_j)\leqslant1\textrm{ e }\sum_{j}f(x_j)=1$
(C) $\displaystyle F(x)=\int_{-\infty}^xf(y)dy$ $f(x)=\displaystyle \frac{dF}{dx}$ $\displaystyle f(x)\geqslant0\textrm{ e }\int_{-\infty}^{+\infty}f(x)dx=1$

Expectativas e Momentos da Distribuição Aqui estão as expressões do valor esperado $E[X]$, do valor esperado generalizado $E[g(X)]$, do $k$-ésimo momento $E[X^k]$ e função característica $\psi(\omega)$ para os casos discretos e contínuos:

Caso $E[X]$ $E[g(X)]$ $E[X^k]$ $\psi(\omega)$
(D) $\displaystyle \sum_{i=1}^nx_if(x_i)$ $\displaystyle \sum_{i=1}^ng(x_i)f(x_i)$ $\displaystyle \sum_{i=1}^nx_i^kf(x_i)$ $\displaystyle\sum_{i=1}^nf(x_i)e^{i\omega x_i}$
(C) $\displaystyle \int_{-\infty}^{+\infty}xf(x)dx$ $\displaystyle \int_{-\infty}^{+\infty}g(x)f(x)dx$ $\displaystyle \int_{-\infty}^{+\infty}x^kf(x)dx$ $\displaystyle\int_{-\infty}^{+\infty}f(x)e^{i\omega x}dx$

Variância A variância de uma variável aleatória, normalmente denominada Var$(X)$ ou $\sigma^2$, é a medida do espalhamento da sua função de distribuição. Ela é determinada por:

\[\boxed{\textrm{Var}(X)=E[(X-E[X])^2]=E[X^2]-E[X]^2}\]

Desvio padrão O desvio padrão de uma variável aleatória, normalmente denominado $\sigma$, é a medida do espalhamento da sua função de distribuição que é compatível com a unidade da variável aleatória. Ele é determinado por:

\[\boxed{\sigma=\sqrt{\textrm{Var}(X)}}\]

Transformação das variáveis aleatórias Sejam as variáveis $X$ e $Y$ ligadas por alguma função. Ao denotador $f_X$ e $f_Y$ para as funções de distribuição de $X$ e de $Y$ respectivamente, temos que:

\[\boxed{f_Y(y)=f_X(x)\left|\frac{dx}{dy}\right|}\]

Regra integral de Leibniz Seja $g$ uma função de $x$ e possivelmente de $c$, e $a,b$ fronteiras que podem depender de $c$. Temos que:

\[\boxed{\frac{\partial}{\partial c}\left(\int_a^bg(x)dx\right)=\frac{\partial b}{\partial c}\cdot g(b)-\frac{\partial a}{\partial c}\cdot g(a)+\int_a^b\frac{\partial g}{\partial c}(x)dx}\]

Distribuições de Probabilidade

Desigualdade de Chebyshev Seja $X$ uma variável aleatória com valor esperado $\mu$. Para $k,\sigma>0$, temos a seguinte desigualdade:

\[\boxed{P(|X-\mu|\geqslant k\sigma)\leqslant\frac{1}{k^2}}\]

Distribuições principais Aqui estão as principais distribuições que não devem ser esquecidas:

Tipo Distribuição PDF $\psi(\omega)$ $E[X]$ $\textrm{Var}(X)$
(D) $X\sim\mathcal{B}(n, p)$ $\displaystyle P(X=x)=\displaystyle\binom{n}{x} p^xq^{n-x}$ $(pe^{i\omega}+q)^n$ $np$ $npq$
(D) $X\sim\textrm{Po}(\mu)$ $\displaystyle P(X=x)=\frac{\mu^x}{x!}e^{-\mu}$ $e^{\mu(e^{i\omega}-1)}$ $\mu$ $\mu$
(C) $X\sim\mathcal{U}(a, b)$ $\displaystyle f(x)=\frac{1}{b-a}$ $\displaystyle\frac{e^{i\omega b}-e^{i\omega a}}{(b-a)i\omega}$ $\displaystyle\frac{a+b}{2}$ $\displaystyle\frac{(b-a)^2}{12}$
(C) $X\sim\mathcal{N}(\mu, \sigma)$ $\displaystyle f(x)=\frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{1}{2}\left(\frac{x-\mu}{\sigma}\right)^2}$ $e^{i\omega\mu-\frac{1}{2}\omega^2\sigma^2}$ $\mu$ $\sigma^2$
(C) $X\sim\textrm{Exp}(\lambda)$ $\displaystyle f(x) = \lambda e^{-\lambda x}$ $\displaystyle\frac{1}{1-\frac{i\omega}{\lambda}}$ $\displaystyle\frac{1}{\lambda}$ $\displaystyle\frac{1}{\lambda^2}$

Variáveis Aleatórias Distribuídas Conjuntamente

Densidade marginal e distribuição cumulativa A partir da função de probabilidade de densidade conjunta $f_{XY}$, temos que:

Caso Densidade marginal Função cumulativa
(D) $\displaystyle f_X(x_i)=\sum_{j}f_{XY}(x_i,y_j)$ $\displaystyle F_{XY}(x,y)=\sum_{x_i\leqslant x}\sum_{y_j\leqslant y}f_{XY}(x_i,y_j)$
(C) $\displaystyle f_X(x)=\int_{-\infty}^{+\infty}f_{XY}(x,y)dy$ $\displaystyle F_{XY}(x,y)=\int_{-\infty}^x\int_{-\infty}^yf_{XY}(x',y')dx'dy'$

Densidade condicional A densidade condicional de $X$ com respeito a $Y$, normalmente denotada como $f_{X|Y}$, é definida como:

\[\boxed{f_{X|Y}(x)=\frac{f_{XY}(x,y)}{f_Y(y)}}\]

Independência Duas variáveis aleatórias $X$ e $Y$ são ditas independentes se:

\[\boxed{f_{XY}(x,y)=f_X(x)f_Y(y)}\]

Coveriância Definimos covariância de duas variáveis aleatórias $X$ e $Y$, que chamamos de $\sigma_{XY}^2$ ou mais comumente de $\textrm{Cov}(X,Y)$, como:

\[\boxed{\textrm{Cov}(X,Y)\triangleq\sigma_{XY}^2=E[(X-\mu_X)(Y-\mu_Y)]=E[XY]-\mu_X\mu_Y}\]

Correlação Dado que $\sigma_X, \sigma_Y$ são os desvios padrão de $X$ e $Y$, definimos a correlação entre as variáveis aleatórias $X$ e $Y$, denominada $\rho_{XY}$, como:

\[\boxed{\rho_{XY}=\frac{\sigma_{XY}^2}{\sigma_X\sigma_Y}}\]

Observação 1: é definido que para qualquer variáveis aleatórias $X$, $Y$ temos que $\rho_{XY}\in[-1,1]$.

Observação 2: Se $X$ e $Y$ são independentes, então $\rho_{XY} = 0$.


Estimativa de parâmetro

Definições

Amostra aleatória Uma amostra aleatória é uma coleção de $n$ variáveis aleatórias $X_1, ..., X_n$ que são independentes e igualmente distribuidas com $X$.


Estimador Um estimador é uma função dos dados que é usada para inferir o valor de um parâmetro desconhecido em um modelo estatístico.


Viés O viés de um estimador $\hat{\theta}$ é definido como a diferença entre o valor esperado da distribuição de $\hat{\theta}$ e o seu real valor, i.e.:

\[\boxed{\textrm{Bias}(\hat{\theta})=E[\hat{\theta}]-\theta}\]

Observação: um estimador é chamado de imparcial (unbiased) quando $E[\hat{\theta}]=\theta$.


Estimando a média

Média da amostra A média da amostra de uma amostra aleatória é usada para estimar a verdadeira média $\mu$ de uma distribuição, e é denominada $\overline{X}$ e é definida como:

\[\boxed{\overline{X}=\frac{1}{n}\sum_{i=1}^nX_i}\]

Observação: a média da amostra é imparcial, i.e $E[\overline{X}]=\mu$.


Teorema do Limite Central Dado que temos uma amostra aleatória $X_1, ..., X_n$ seguindo uma determinada distribuição com a média $\mu$ e a variância $\sigma^2$, temos que:

\[\boxed{\overline{X}\underset{n\rightarrow+\infty}{\sim}\mathcal{N}\left(\mu, \frac{\sigma}{\sqrt{n}}\right)}\]

Estimando a variância

Amostra da variância A amostra da variância de uma amostra aleatória é usada para estimar a verdadeira variância $\sigma^2$ da distribuição, e é normalmente denominada $s^2$ ou $\hat{\sigma}^2$ e definida por:

\[\boxed{s^2=\hat{\sigma}^2=\frac{1}{n-1}\sum_{i=1}^n(X_i-\overline{X})^2}\]

Observação: a variância da amostra é imparcial, i.e $E[s^2]=\sigma^2$.


Relação qui-quadrado com a variância da amostra Seja $s^2$ a variância da amostra de uma amostra aleatória. Nós temos:

\[\boxed{\frac{s^2(n-1)}{\sigma^2}\sim\chi_{n-1}^2}\]