CS 229 - Makine Öğrenimi

Olasılık ve İstatistik hatırlatma
Star

Afshine Amidi ve Shervine Amidi tarafından


Ayyüce Kızrak ve Başak Buluz tarafından çevrilmiştir

Olasılık ve Kombinasyonlara Giriş

Örnek alanı Bir deneyin olası tüm sonuçlarının kümesidir, deneyin örnek alanı olarak bilinir ve $S$ ile gösterilir.


Olay Örnek alanın herhangi bir $E$ alt kümesi, olay olarak bilinir. Yani bir olay, deneyin olası sonuçlarından oluşan bir kümedir. Deneyin sonucu $E$'de varsa, $E$'nin gerçekleştiğini söyleriz.


Olasılık aksiyomları Her $E$ olayı için, $E$ olayının meydana gelme olasılığı $P(E)$ olarak ifade edilir.

Aksiyom 1 ― Her olasılık 0 ve 1 de dahil olmak üzere 0 ve 1 arasındadır, yani:

\[\boxed{0\leqslant P(E)\leqslant 1}\]

Aksiyom 2 ― Tüm örnek uzayındaki temel olaylardan en az birinin ortaya çıkma olasılığı 1'dir, yani:

\[\boxed{P(S)=1}\]

Aksiyom 3 ― Karşılıklı özel olayların herhangi bir dizisi için, $E_1, ..., E_n$:

\[\boxed{P\left(\bigcup_{i=1}^nE_i\right)=\sum_{i=1}^nP(E_i)}\]

Permütasyon Permütasyon, $n$ nesneler havuzundan $r$ nesnelerinin belirli bir sıra ile düzenlenmesidir. Bu tür düzenlemelerin sayısı $P(n, r)$ tarafından aşağıdaki gibi tanımlanır:

\[\boxed{P(n, r)=\frac{n!}{(n-r)!}}\]

Kombinasyon Bir kombinasyon, sıranın önemli olmadığı $n$ nesneler havuzundan $r$ nesnelerinin bir düzenlemesidir. Bu tür düzenlemelerin sayısı $C(n,r)$ tarafından aşağıdaki gibi tanımlanır:

\[\boxed{C(n, r)=\frac{P(n, r)}{r!}=\frac{n!}{r!(n-r)!}}\]

Not: $0\leqslant r\leqslant n$ için $P(n,r)\geqslant C(n,r)$ değerine sahibiz.


Koşullu Olasılık

Bayes kuralı $A$ ve $B$ olayları için $P(B)>0$ olacak şekilde:

\[\boxed{P(A|B)=\frac{P(B|A)P(A)}{P(B)}}\]

Not: $P(A\cap B)=P(A)P(B|A)=P(A|B)P(B)$.


Parça Tüm $i$ değerleri için $A_i\neq\varnothing$ olmak üzere $\{A_i, i\in[\![1,n]\!]\}$ olsun. $\{A_i\}$ bir parça olduğunu söyleriz eğer :

\[\boxed{\forall i\neq j, A_i\cap A_j=\emptyset\quad\textrm{ ve }\quad\bigcup_{i=1}^nA_i=S}\]

Not: Örneklem uzaydaki herhangi bir $B$ olayı için $\displaystyle P(B)=\sum_{i=1}^nP(B|A_i)P(A_i)$'ye sahibiz.


Genişletilmiş Bayes kuralı formu $\{A_i, i\in[\![1,n]\!]\}$ örneklem uzayının bir bölümü olsun. Elde edilen:

\[\boxed{P(A_k|B)=\frac{P(B|A_k)P(A_k)}{\displaystyle\sum_{i=1}^nP(B|A_i)P(A_i)}}\]

Bağımsızlık İki olay $A$ ve $B$ birbirinden bağımsızdır ancak ve ancak eğer:

\[\boxed{P(A\cap B)=P(A)P(B)}\]

Rastgele Değişkenler

Tanımlamalar

Rastgele değişken Genellikle $X$ olarak ifade edilen rastgele bir değişken, bir örneklem uzayındaki her öğeyi gerçek bir çizgiye eşleyen bir fonksiyondur.


Kümülatif dağılım fonksiyonu (KDF/ Cumulative distribution function-CDF) Monotonik olarak azalmayan ve $\underset{x\rightarrow-\infty}{\textrm{lim}}F(x)=0$ ve $\underset{x\rightarrow+\infty}{\textrm{lim}}F(x)=1$ olacak şekilde kümülatif dağılım fonksiyonu $F$ şu şekilde tanımlanır:

\[\boxed{F(x)=P(X\leqslant x)}\]

Not: $P(a < X\leqslant B)=F(b)-F(a)$.


Olasılık yoğunluğu fonksiyonu (OYF/Probability density function-PDF) Olasılık yoğunluğu fonksiyonu $f$, $X$'in rastgele değişkenin iki bitişik gerçekleşmesi arasındaki değerleri alması ihtimalidir.


OYF ve KDF'yi içeren ilişkiler Ayrık (D) ve sürekli (C) olaylarında bilmeniz gereken önemli özelliklerdir.

Olay KDF $F$ OYF $f$ OYF Özellikleri
(D) $\displaystyle F(x)=\sum_{x_i\leqslant x}P(X=x_i)$ $f(x_j)=P(X=x_j)$ $\displaystyle0\leqslant f(x_j)\leqslant1\textrm{ and }\sum_{j}f(x_j)=1$
(C) $\displaystyle F(x)=\int_{-\infty}^xf(y)dy$ $f(x)=\displaystyle \frac{dF}{dx}$ $\displaystyle f(x)\geqslant0\textrm{ ve }\int_{-\infty}^{+\infty}f(x)dx=1$

Beklenti ve Dağılım Momentleri Burada, ayrık ve sürekli durumlar için beklenen değer $E[X]$, genelleştirilmiş beklenen değer $E[g(X)]$, $k$. Moment $E[X^k]$ ve karakteristik fonksiyon $\psi(\omega)$ ifadeleri verilmiştir :

Olay $E[X]$ $E[g(X)]$ $E[X^k]$ $\psi(\omega)$
(D) $\displaystyle \sum_{i=1}^nx_if(x_i)$ $\displaystyle \sum_{i=1}^ng(x_i)f(x_i)$ $\displaystyle \sum_{i=1}^nx_i^kf(x_i)$ $\displaystyle\sum_{i=1}^nf(x_i)e^{i\omega x_i}$
(C) $\displaystyle \int_{-\infty}^{+\infty}xf(x)dx$ $\displaystyle \int_{-\infty}^{+\infty}g(x)f(x)dx$ $\displaystyle \int_{-\infty}^{+\infty}x^kf(x)dx$ $\displaystyle\int_{-\infty}^{+\infty}f(x)e^{i\omega x}dx$

Varyans Genellikle Var$(X)$ veya $\sigma^2$ olarak ifade edilen rastgele değişkenin varyansı, dağılım fonksiyonunun yayılmasının bir ölçüsüdür. Aşağıdaki şekilde belirlenir:

\[\boxed{\textrm{Var}(X)=E[(X-E[X])^2]=E[X^2]-E[X]^2}\]

Standart sapma Genellikle $\sigma$ olarak ifade edilen rastgele bir değişkenin standart sapması, gerçek rastgele değişkenin birimleriyle uyumlu olan dağılım fonksiyonunun yayılmasının bir ölçüsüdür. Aşağıdaki şekilde belirlenir:

\[\boxed{\sigma=\sqrt{\textrm{Var}(X)}}\]

Rastgele değişkenlerin dönüşümü $X$ ve $Y$ değişkenlerinin bazı fonksiyonlarla bağlanır. $f_X$ ve $f_Y$'ye sırasıyla $X$ ve $Y$'nin dağılım fonksiyonu şöyledir:

\[\boxed{f_Y(y)=f_X(x)\left|\frac{dx}{dy}\right|}\]

Leibniz integral kuralı $g$, $x$'e ve potansiyel olarak $c$'nin, $c$'ye bağlı olabilecek potansiyel $c$ ve $a, b$ sınırlarının bir fonksiyonu olsun. Elde edilen:

\[\boxed{\frac{\partial}{\partial c}\left(\int_a^bg(x)dx\right)=\frac{\partial b}{\partial c}\cdot g(b)-\frac{\partial a}{\partial c}\cdot g(a)+\int_a^b\frac{\partial g}{\partial c}(x)dx}\]

Olasılık Dağılımları

Chebyshev'in eşitsizliği $X$ beklenen değeri $\mu$ olan rastgele bir değişken olsun. $k, \sigma>0$ için aşağıdaki eşitsizliği elde edilir:

\[\boxed{P(|X-\mu|\geqslant k\sigma)\leqslant\frac{1}{k^2}}\]

Ana dağıtımlar İşte akılda tutulması gereken ana dağıtımlar:

Tür Dağılım OYF $\psi(\omega)$ $E[X]$ $\textrm{Var}(X)$
(D) $X\sim\mathcal{B}(n, p)$ $\displaystyle P(X=x)=\displaystyle\binom{n}{x} p^xq^{n-x}$ $(pe^{i\omega}+q)^n$ $np$ $npq$
(D) $X\sim\textrm{Po}(\mu)$ $\displaystyle P(X=x)=\frac{\mu^x}{x!}e^{-\mu}$ $e^{\mu(e^{i\omega}-1)}$ $\mu$ $\mu$
(C) $X\sim\mathcal{U}(a, b)$ $\displaystyle f(x)=\frac{1}{b-a}$ $\displaystyle\frac{e^{i\omega b}-e^{i\omega a}}{(b-a)i\omega}$ $\displaystyle\frac{a+b}{2}$ $\displaystyle\frac{(b-a)^2}{12}$
(C) $X\sim\mathcal{N}(\mu, \sigma)$ $\displaystyle f(x)=\frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{1}{2}\left(\frac{x-\mu}{\sigma}\right)^2}$ $e^{i\omega\mu-\frac{1}{2}\omega^2\sigma^2}$ $\mu$ $\sigma^2$
(C) $X\sim\textrm{Exp}(\lambda)$ $\displaystyle f(x) = \lambda e^{-\lambda x}$ $\displaystyle\frac{1}{1-\frac{i\omega}{\lambda}}$ $\displaystyle\frac{1}{\lambda}$ $\displaystyle\frac{1}{\lambda^2}$

Ortak Dağılımlı Rastgele Değişkenler

Marjinal yoğunluk ve kümülatif dağılım $f_{XY}$ ortak yoğunluk olasılık fonksiyonundan:

Olay Marjinal yoğunluk Kümülatif fonksiyon
(D) $\displaystyle f_X(x_i)=\sum_{j}f_{XY}(x_i,y_j)$ $\displaystyle F_{XY}(x,y)=\sum_{x_i\leqslant x}\sum_{y_j\leqslant y}f_{XY}(x_i,y_j)$
(C) $\displaystyle f_X(x)=\int_{-\infty}^{+\infty}f_{XY}(x,y)dy$ $\displaystyle F_{XY}(x,y)=\int_{-\infty}^x\int_{-\infty}^yf_{XY}(x',y')dx'dy'$

Koşullu yoğunluk $Y$'ye göre $X$'in koşullu yoğunluğu, genellikle $f_{X|Y}$ olarak elde edilir:

\[\boxed{f_{X|Y}(x)=\frac{f_{XY}(x,y)}{f_Y(y)}}\]

Bağımsızlık İki rastgele değişkenin $X$ ve $Y$ olması durumunda bağımsız olduğu söylenir:

\[\boxed{f_{XY}(x,y)=f_X(x)f_Y(y)}\]

Kovaryans $\sigma_{XY}^2$ veya daha genel olarak $\textrm{Cov}(X,Y)$ olarak elde ettiğimiz iki rastgele değişken olan $X$ ve $Y$'nin kovaryansını aşağıdaki gibi tanımlarız:

\[\boxed{\textrm{Cov}(X,Y)\triangleq\sigma_{XY}^2=E[(X-\mu_X)(Y-\mu_Y)]=E[XY]-\mu_X\mu_Y}\]

Korelasyon $\sigma_X, \sigma_Y$, $X$ ve $Y$'nin standart sapmalarını elde ederek, $\rho_{XY}$ olarak belirtilen rastgele $X$ ve $Y$ değişkenleri arasındaki korelasyonu şu şekilde tanımlarız:

\[\boxed{\rho_{XY}=\frac{\sigma_{XY}^2}{\sigma_X\sigma_Y}}\]

Not 1: $X, Y$'nin herhangi bir rastgele değişkeni için $\rho_{XY}\in[-1,1]$ olduğuna dikkat edin.

Not 2: Eğer $X$ ve $Y$ bağımsızsa, $\rho_{XY} = 0$ olur.


Parametre tahmini (kestirimi)

Tanımlamalar

Rastgele örnek Rastgele bir örnek, bağımsız ve aynı şekilde $X$ ile dağıtılan $X_1, ..., X_n$ değişkeninin rastgele değişkenidir.


Tahminci (Kestirimci) Tahmin edici, istatistiksel bir modelde bilinmeyen bir parametrenin değerini ortaya çıkarmak için kullanılan verilerin bir fonksiyonudur.


Önyargı Bir tahmin edicinin önyargısı $\hat{\theta}$, $\hat{\theta}$ dağılımının beklenen değeri ile gerçek değer arasındaki fark olarak tanımlanır, yani:

\[\boxed{\textrm{Bias}(\hat{\theta})=E[\hat{\theta}]-\theta}\]

Not: $E[\hat{\theta}]=\theta$ olduğunda bir tahmincinin tarafsız olduğu söylenir.


Ortalamayı tahmin etme

Örnek ortalaması Rastgele bir numunenin numune ortalaması, dağılımın gerçek ortalamasını to tahmin etmek için kullanılır, genellikle $\overline{X}$ olarak belirtilir ve şöyle tanımlanır:

\[\boxed{\overline{X}=\frac{1}{n}\sum_{i=1}^nX_i}\]

Not: örnek ortalama tarafsız, yani: $E[\overline{X}]=\mu$.


Merkezi Limit Teoremi Ortalama $\mu$ ve varyans $\sigma^2$ ile verilen bir dağılımın ardından rastgele bir $X_1, ..., X_n$ örneğine sahip olalım.

\[\boxed{\overline{X}\underset{n\rightarrow+\infty}{\sim}\mathcal{N}\left(\mu, \frac{\sigma}{\sqrt{n}}\right)}\]

Varyansı tahmin etmek

Örnek varyansı Rastgele bir örneğin örnek varyansı, bir dağılımın $\sigma^2$ gerçek varyansını tahmin etmek için kullanılır, genellikle $s^2$ veya $\hat{\sigma}^2$ olarak elde edilir ve aşağıdaki gibi tanımlanır:

\[\boxed{s^2=\hat{\sigma}^2=\frac{1}{n-1}\sum_{i=1}^n(X_i-\overline{X})^2}\]

Not: Örneklem sapması yansızdır, $E[s^2]=\sigma^2$.


Örnek varyansı ile ki-kare ilişkisi $s^2$, rastgele bir örneğin örnek varyansı olsun. Elde edilir:

\[\boxed{\frac{s^2(n-1)}{\sigma^2}\sim\chi_{n-1}^2}\]