CS 229 - Makine Öğrenimi  
Türkçe


Olasılık ve İstatistik hatırlatma
Star

Afshine Amidi ve Shervine Amidi tarafından
Ayyüce Kızrak ve Başak Buluz tarafından çevrilmiştir

Olasılık ve Kombinasyonlara Giriş

Örnek alanı ― Bir deneyin olası tüm sonuçlarının kümesidir, deneyin örnek alanı olarak bilinir ve $S$ ile gösterilir.


Olay ― Örnek alanın herhangi bir $E$ alt kümesi, olay olarak bilinir. Yani bir olay, deneyin olası sonuçlarından oluşan bir kümedir. Deneyin sonucu $E$'de varsa, $E$'nin gerçekleştiğini söyleriz.


Olasılık aksiyomları Her $E$ olayı için, $E$ olayının meydana gelme olasılığı $P(E)$ olarak ifade edilir.

Aksiyom 1 ― Her olasılık 0 ve 1 de dahil olmak üzere 0 ve 1 arasındadır, yani:

\[\boxed{0\leqslant P(E)\leqslant 1}\]

Aksiyom 2 ― Tüm örnek uzayındaki temel olaylardan en az birinin ortaya çıkma olasılığı 1'dir, yani:

\[\boxed{P(S)=1}\]

Aksiyom 3 ― Karşılıklı özel olayların herhangi bir dizisi için, $E_1, ..., E_n$:

\[\boxed{P\left(\bigcup_{i=1}^nE_i\right)=\sum_{i=1}^nP(E_i)}\]

Permütasyon ― Permütasyon, $n$ nesneler havuzundan $r$ nesnelerinin belirli bir sıra ile düzenlenmesidir. Bu tür düzenlemelerin sayısı $P(n, r)$ tarafından aşağıdaki gibi tanımlanır:

\[\boxed{P(n, r)=\frac{n!}{(n-r)!}}\]

Kombinasyon ― Bir kombinasyon, sıranın önemli olmadığı $n$ nesneler havuzundan $r$ nesnelerinin bir düzenlemesidir. Bu tür düzenlemelerin sayısı $C(n,r)$ tarafından aşağıdaki gibi tanımlanır:

\[\boxed{C(n, r)=\frac{P(n, r)}{r!}=\frac{n!}{r!(n-r)!}}\]

Not: $0\leqslant r\leqslant n$ için $P(n,r)\geqslant C(n,r)$ değerine sahibiz.


Koşullu Olasılık

Bayes kuralı ― $A$ ve $B$ olayları için $P(B)>0$ olacak şekilde:

\[\boxed{P(A|B)=\frac{P(B|A)P(A)}{P(B)}}\]

Not: $P(A\cap B)=P(A)P(B|A)=P(A|B)P(B)$.


Parça ― Tüm $i$ değerleri için $A_i\neq\varnothing$ olmak üzere $\{A_i, i\in[\![1,n]\!]\}$ olsun. $\{A_i\}$ bir parça olduğunu söyleriz eğer :

\[\boxed{\forall i\neq j, A_i\cap A_j=\emptyset\quad\mbox{ ve }\quad\bigcup_{i=1}^nA_i=S}\]

Not: Örneklem uzaydaki herhangi bir $B$ olayı için $\displaystyle P(B)=\sum_{i=1}^nP(B|A_i)P(A_i)$'ye sahibiz.


Genişletilmiş Bayes kuralı formu ― $\{A_i, i\in[\![1,n]\!]\}$ örneklem uzayının bir bölümü olsun. Elde edilen:

\[\boxed{P(A_k|B)=\frac{P(B|A_k)P(A_k)}{\displaystyle\sum_{i=1}^nP(B|A_i)P(A_i)}}\]

Bağımsızlık ― İki olay $A$ ve $B$ birbirinden bağımsızdır ancak ve ancak eğer:

\[\boxed{P(A\cap B)=P(A)P(B)}\]

Rastgele Değişkenler

Tanımlamalar

Rastgele değişken ― Genellikle $X$ olarak ifade edilen rastgele bir değişken, bir örneklem uzayındaki her öğeyi gerçek bir çizgiye eşleyen bir fonksiyondur.


Kümülatif dağılım fonksiyonu (KDF/ Cumulative distribution function-CDF) ― Monotonik olarak azalmayan ve $\underset{x\rightarrow-\infty}{\mbox{lim}}F(x)=0$ ve $\underset{x\rightarrow+\infty}{\mbox{lim}}F(x)=1$ olacak şekilde kümülatif dağılım fonksiyonu $F$ şu şekilde tanımlanır:

\[\boxed{F(x)=P(X\leqslant x)}\]

Not: $P(a < X\leqslant B)=F(b)-F(a)$.


Olasılık yoğunluğu fonksiyonu (OYF/Probability density function-PDF) ― Olasılık yoğunluğu fonksiyonu $f$, $X$'in rastgele değişkenin iki bitişik gerçekleşmesi arasındaki değerleri alması ihtimalidir.


OYF ve KDF'yi içeren ilişkiler ― Ayrık (D) ve sürekli (C) olaylarında bilmeniz gereken önemli özelliklerdir.

Olay KDF $F$ OYF $f$ OYF Özellikleri
(D) $\displaystyle F(x)=\sum_{x_i\leqslant x}P(X=x_i)$ $f(x_j)=P(X=x_j)$ $\displaystyle0\leqslant f(x_j)\leqslant1\mbox{ and }\sum_{j}f(x_j)=1$
(C) $\displaystyle F(x)=\int_{-\infty}^xf(y)dy$ $f(x)=\displaystyle \frac{dF}{dx}$ $\displaystyle f(x)\geqslant0\mbox{ ve }\int_{-\infty}^{+\infty}f(x)dx=1$

Beklenti ve Dağılım Momentleri ― Burada, ayrık ve sürekli durumlar için beklenen değer $E[X]$, genelleştirilmiş beklenen değer $E[g(X)]$, $k$. Moment $E[X^k]$ ve karakteristik fonksiyon $\psi(\omega)$ ifadeleri verilmiştir :

Olay $E[X]$ $E[g(X)]$ $E[X^k]$ $\psi(\omega)$
(D) $\displaystyle \sum_{i=1}^nx_if(x_i)$ $\displaystyle \sum_{i=1}^ng(x_i)f(x_i)$ $\displaystyle \sum_{i=1}^nx_i^kf(x_i)$ $\displaystyle\sum_{i=1}^nf(x_i)e^{i\omega x_i}$
(C) $\displaystyle \int_{-\infty}^{+\infty}xf(x)dx$ $\displaystyle \int_{-\infty}^{+\infty}g(x)f(x)dx$ $\displaystyle \int_{-\infty}^{+\infty}x^kf(x)dx$ $\displaystyle\int_{-\infty}^{+\infty}f(x)e^{i\omega x}dx$

Varyans ― Genellikle Var$(X)$ veya $\sigma^2$ olarak ifade edilen rastgele değişkenin varyansı, dağılım fonksiyonunun yayılmasının bir ölçüsüdür. Aşağıdaki şekilde belirlenir:

\[\boxed{\mbox{Var}(X)=E[(X-E[X])^2]=E[X^2]-E[X]^2}\]

Standart sapma ― Genellikle $\sigma$ olarak ifade edilen rastgele bir değişkenin standart sapması, gerçek rastgele değişkenin birimleriyle uyumlu olan dağılım fonksiyonunun yayılmasının bir ölçüsüdür. Aşağıdaki şekilde belirlenir:

\[\boxed{\sigma=\sqrt{\mbox{Var}(X)}}\]

Rastgele değişkenlerin dönüşümü ― $X$ ve $Y$ değişkenlerinin bazı fonksiyonlarla bağlanır. $f_X$ ve $f_Y$'ye sırasıyla $X$ ve $Y$'nin dağılım fonksiyonu şöyledir:

\[\boxed{f_Y(y)=f_X(x)\left|\frac{dx}{dy}\right|}\]

Leibniz integral kuralı ― $g$, $x$'e ve potansiyel olarak $c$'nin, $c$'ye bağlı olabilecek potansiyel $c$ ve $a, b$ sınırlarının bir fonksiyonu olsun. Elde edilen:

\[\boxed{\frac{\partial}{\partial c}\left(\int_a^bg(x)dx\right)=\frac{\partial b}{\partial c}\cdot g(b)-\frac{\partial a}{\partial c}\cdot g(a)+\int_a^b\frac{\partial g}{\partial c}(x)dx}\]

Olasılık Dağılımları

Chebyshev'in eşitsizliği ― $X$ beklenen değeri $\mu$ olan rastgele bir değişken olsun. $k, \sigma>0$ için aşağıdaki eşitsizliği elde edilir:

\[\boxed{P(|X-\mu|\geqslant k\sigma)\leqslant\frac{1}{k^2}}\]

Ana dağıtımlar ― İşte akılda tutulması gereken ana dağıtımlar:

Tür Dağılım OYF $\psi(\omega)$ $E[X]$ $\mbox{Var}(X)$
(D) $X\sim\mathcal{B}(n, p)$ $\displaystyle P(X=x)=\displaystyle\binom{n}{x} p^xq^{n-x}$ $(pe^{i\omega}+q)^n$ $np$ $npq$
(D) $X\sim\mbox{Po}(\mu)$ $\displaystyle P(X=x)=\frac{\mu^x}{x!}e^{-\mu}$ $e^{\mu(e^{i\omega}-1)}$ $\mu$ $\mu$
(C) $X\sim\mathcal{U}(a, b)$ $\displaystyle f(x)=\frac{1}{b-a}$ $\displaystyle\frac{e^{i\omega b}-e^{i\omega a}}{(b-a)i\omega}$ $\displaystyle\frac{a+b}{2}$ $\displaystyle\frac{(b-a)^2}{12}$
(C) $X\sim\mathcal{N}(\mu, \sigma)$ $\displaystyle f(x)=\frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{1}{2}\left(\frac{x-\mu}{\sigma}\right)^2}$ $e^{i\omega\mu-\frac{1}{2}\omega^2\sigma^2}$ $\mu$ $\sigma^2$
(C) $X\sim\mbox{Exp}(\lambda)$ $\displaystyle f(x) = \lambda e^{-\lambda x}$ $\displaystyle\frac{1}{1-\frac{i\omega}{\lambda}}$ $\displaystyle\frac{1}{\lambda}$ $\displaystyle\frac{1}{\lambda^2}$

Ortak Dağılımlı Rastgele Değişkenler

Marjinal yoğunluk ve kümülatif dağılım ― $f_{XY}$ ortak yoğunluk olasılık fonksiyonundan:

Olay Marjinal yoğunluk Kümülatif fonksiyon
(D) $\displaystyle f_X(x_i)=\sum_{j}f_{XY}(x_i,y_j)$ $\displaystyle F_{XY}(x,y)=\sum_{x_i\leqslant x}\sum_{y_j\leqslant y}f_{XY}(x_i,y_j)$
(C) $\displaystyle f_X(x)=\int_{-\infty}^{+\infty}f_{XY}(x,y)dy$ $\displaystyle F_{XY}(x,y)=\int_{-\infty}^x\int_{-\infty}^yf_{XY}(x',y')dx'dy'$

Koşullu yoğunluk ― $Y$'ye göre $X$'in koşullu yoğunluğu, genellikle $f_{X|Y}$ olarak elde edilir:

\[\boxed{f_{X|Y}(x)=\frac{f_{XY}(x,y)}{f_Y(y)}}\]

Bağımsızlık ― İki rastgele değişkenin $X$ ve $Y$ olması durumunda bağımsız olduğu söylenir:

\[\boxed{f_{XY}(x,y)=f_X(x)f_Y(y)}\]

Kovaryans ― $\sigma_{XY}^2$ veya daha genel olarak $\mbox{Cov}(X,Y)$ olarak elde ettiğimiz iki rastgele değişken olan $X$ ve $Y$'nin kovaryansını aşağıdaki gibi tanımlarız:

\[\boxed{\mbox{Cov}(X,Y)\triangleq\sigma_{XY}^2=E[(X-\mu_X)(Y-\mu_Y)]=E[XY]-\mu_X\mu_Y}\]

Korelasyon ― $\sigma_X, \sigma_Y$, $X$ ve $Y$'nin standart sapmalarını elde ederek, $\rho_{XY}$ olarak belirtilen rastgele $X$ ve $Y$ değişkenleri arasındaki korelasyonu şu şekilde tanımlarız:

\[\boxed{\rho_{XY}=\frac{\sigma_{XY}^2}{\sigma_X\sigma_Y}}\]

Not 1: $X, Y$'nin herhangi bir rastgele değişkeni için $\rho_{XY}\in[-1,1]$ olduğuna dikkat edin.

Not 2: Eğer $X$ ve $Y$ bağımsızsa, $\rho_{XY} = 0$ olur.


Parametre tahmini (kestirimi)

Tanımlamalar

Rastgele örnek ― Rastgele bir örnek, bağımsız ve aynı şekilde $X$ ile dağıtılan $X_1, ..., X_n$ değişkeninin rastgele değişkenidir.


Tahminci (Kestirimci) ― Tahmin edici, istatistiksel bir modelde bilinmeyen bir parametrenin değerini ortaya çıkarmak için kullanılan verilerin bir fonksiyonudur.


Önyargı ― Bir tahmin edicinin önyargısı $\hat{\theta}$, $\hat{\theta}$ dağılımının beklenen değeri ile gerçek değer arasındaki fark olarak tanımlanır, yani:

\[\boxed{\mbox{Bias}(\hat{\theta})=E[\hat{\theta}]-\theta}\]

Not: $E[\hat{\theta}]=\theta$ olduğunda bir tahmincinin tarafsız olduğu söylenir.


Ortalamayı tahmin etme

Örnek ortalaması ― Rastgele bir numunenin numune ortalaması, dağılımın gerçek ortalamasını to tahmin etmek için kullanılır, genellikle $\overline{X}$ olarak belirtilir ve şöyle tanımlanır:

\[\boxed{\overline{X}=\frac{1}{n}\sum_{i=1}^nX_i}\]

Not: örnek ortalama tarafsız, yani: $E[\overline{X}]=\mu$.


Merkezi Limit Teoremi ― Ortalama $\mu$ ve varyans $\sigma^2$ ile verilen bir dağılımın ardından rastgele bir $X_1, ..., X_n$ örneğine sahip olalım.

\[\boxed{\overline{X}\underset{n\rightarrow+\infty}{\sim}\mathcal{N}\left(\mu, \frac{\sigma}{\sqrt{n}}\right)}\]

Varyansı tahmin etmek

Örnek varyansı ― Rastgele bir örneğin örnek varyansı, bir dağılımın $\sigma^2$ gerçek varyansını tahmin etmek için kullanılır, genellikle $s^2$ veya $\hat{\sigma}^2$ olarak elde edilir ve aşağıdaki gibi tanımlanır:

\[\boxed{s^2=\hat{\sigma}^2=\frac{1}{n-1}\sum_{i=1}^n(X_i-\overline{X})^2}\]

Not: Örneklem sapması yansızdır, $E[s^2]=\sigma^2$.


Örnek varyansı ile ki-kare ilişkisi ― $s^2$, rastgele bir örneğin örnek varyansı olsun. Elde edilir:

\[\boxed{\frac{s^2(n-1)}{\sigma^2}\sim\chi_{n-1}^2}\]