تعلم آلي - CS ۲۲۹

مراجعة الاحتمالات والإحصاء

Star

النص الأصلي بواسطة افشین عمیدی و شروین عمیدی
تمت الترجمة بواسطة محمود أصلان. تمت المراجعة بواسطة فارس القنيعير.

مقدمة في الاحتمالات والتوافيق

فضاء العينة يعرَّف فضاء العينة لتجربة ما بمجموعة كل النتائج الممكنة لهذه التجربة ويرمز لها بـ $S$.


الحدث أي مجموعة جزئية $E$ من فضاء العينة تعتبر حدثاً. أي، الحدث هو مجموعة من النتائج الممكنة للتجربة. إذا كانت نتيجة التجربة محتواة في $E$، عندها نقول أن الحدث $E$ وقع.


مسلَّمات الاحتمالات لكل حدث $E$، نرمز لإحتمال وقوعه بـ $P(E)$.

المسلَّمة 1 ― كل احتمال يأخد قيماً بين الـ 0 والـ 1 مضمَّنة:

\[\boxed{0\leqslant P(E)\leqslant 1}\]
Axiom 1

المسلَّمة 2 ― احتمال وقوع حدث ابتدائي واحد على الأقل من الأحداث الابتدائية في فضاء العينة يساوي الـ 1:

\[\boxed{P(S)=1}\]
Axiom 2

المسلَّمة 3 ― لأي سلسلة من الأحداث الغير متداخلة $E_1, ..., E_n$، لدينا:

\[\boxed{P\left(\bigcup_{i=1}^nE_i\right)=\sum_{i=1}^nP(E_i)}\]
Axiom 3

التباديل التبديل هو عبارة عن عدد الاختيارات لـ $r$ غرض من مجموعة مكونة من $n$ غرض بترتيب محدد. عدد هكذا تراتيب يرمز له بـ $P(n, r)$، المعرف كالتالي:

\[\boxed{P(n, r)=\frac{n!}{(n-r)!}}\]

التوافيق التوفيق هو عدد الاختيارات لـ $r$ غرض من مجموعة مكونة من $n$ غرض بدون إعطاء الترتيب أية أهمية. عدد هكذا توافيق يرمز له بـ $C(n, r)$، المعرف كالتالي:

\[\boxed{C(n, r)=\frac{P(n, r)}{r!}=\frac{n!}{r!(n-r)!}}\]

ملاحظة: لكل $0\leqslant r\leqslant n$، يكون لدينا $P(n,r)\geqslant C(n,r)$


الاحتمال الشرطي

قاعدة بايز إذا كانت لدينا الأحداث $A$ و $B$ بحيث $P(B)>0$، يكون لدينا:

\[\boxed{P(A|B)=\frac{P(B|A)P(A)}{P(B)}}\]

ملاحظة: لدينا $P(A\cap B)=P(A)P(B|A)=P(A|B)P(B)$


القسم ليكن $\{A_i, i\in[\![1,n]\!]\}$ بحيث لكل $i$ لدينا $A_i\neq\varnothing$. نقول أن $\{A_i\}$ قسم إذا كان لدينا:

\[\boxed{\forall i\neq j, A_i\cap A_j=\emptyset\quad\textrm{ and }\quad\bigcup_{i=1}^nA_i=S}\]
Partition

ملاحظة: لأي حدث $B$ في فضاء العينة، لدينا $\displaystyle P(B)=\sum_{i=1}^nP(B|A_i)P(A_i)$.


النسخة الموسعة من قاعدة بايز ليكن $\{A_i, i\in[\![1,n]\!]\}$ قسم من فضاء العينة. لدينا:

\[\boxed{P(A_k|B)=\frac{P(B|A_k)P(A_k)}{\displaystyle\sum_{i=1}^nP(B|A_i)P(A_i)}}\]

الاستقلال يكون حدثين $A$ و $B$ مستقلين إذا وفقط إذا كان لدينا:

\[\boxed{P(A\cap B)=P(A)P(B)}\]

المتحولات العشوائية

تعاريف

المتحول العشوائي المتحول العشوائي، ويرمز له عادة بـ $X$، هو دالة تربط كل عنصر في فضاء العينة إلى خط الأعداد الحقيقية.


دالة التوزيع التراكمي (CDF) تعرف دالة التوزيع التراكمي $F$، والتي تكون غير متناقصة بشكل رتيب وتحقق $\underset{x\rightarrow-\infty}{\textrm{lim}}F(x)=0$ و $\underset{x\rightarrow+\infty}{\textrm{lim}}F(x)=1$، كالتالي:

\[\boxed{F(x)=P(X\leqslant x)}\]
Cumulative distribution function

ملاحظة: لدينا $P(a < X\leqslant B)=F(b)-F(a)$.


دالة الكثافة الإحتمالية (PDF) دالة الكثافة الاحتمالية $f$ هي احتمال أن يأخذ $X$ قيماً بين قيمتين متجاورتين من قيم المتحول العشوائي.


علاقات تتضمن دالة الكثافة الاحتمالية ودالة التوزع التراكمي هذه بعض الخصائص التي من المهم معرفتها في الحالتين المتقطعة (D) والمستمرة (C).

الحالة دالة التوزع التراكمي $F$ دالة الكثافة الاحتمالية $f$ خصائص دالة الكثافة الاحتمالية
(D) $\displaystyle F(x)=\sum_{x_i\leqslant x}P(X=x_i)$ $f(x_j)=P(X=x_j)$ $\displaystyle0\leqslant f(x_j)\leqslant1\textrm{ and }\sum_{j}f(x_j)=1$
(C) $\displaystyle F(x)=\int_{-\infty}^xf(y)dy$ $f(x)=\displaystyle \frac{dF}{dx}$ $\displaystyle f(x)\geqslant0\textrm{ and }\int_{-\infty}^{+\infty}f(x)dx=1$

التوقع وعزوم التوزيع فيما يلي المصطلحات المستخدمة للتعبير عن القيمة المتوقعة $E[X]$، الصيغة العامة للقيمة المتوقعة $E[g(X)]$، العزم رقم $k$ $E[X^k]$ ودالة السمة $\psi(\omega)$ للحالات المتقطعة والمستمرة:

حالة $E[X]$ $E[g(X)]$ $E[X^k]$ $\psi(\omega)$
(D) $\displaystyle \sum_{i=1}^nx_if(x_i)$ $\displaystyle \sum_{i=1}^ng(x_i)f(x_i)$ $\displaystyle \sum_{i=1}^nx_i^kf(x_i)$ $\displaystyle\sum_{i=1}^nf(x_i)e^{i\omega x_i}$
(C) $\displaystyle \int_{-\infty}^{+\infty}xf(x)dx$ $\displaystyle \int_{-\infty}^{+\infty}g(x)f(x)dx$ $\displaystyle \int_{-\infty}^{+\infty}x^kf(x)dx$ $\displaystyle\int_{-\infty}^{+\infty}f(x)e^{i\omega x}dx$

التباين تباين متحول عشوائي، والذي يرمز له عادةً ب $\textrm{Var}(X)$ أو $\sigma^2$، هو مقياس لانتشار دالة توزيع هذا المتحول. يحسب بالشكل التالي:

\[\boxed{\textrm{Var}(X)=E[(X-E[X])^2]=E[X^2]-E[X]^2}\]

الانحراف المعياري الانحراف المعياري لمتحول عشوائي، والذي يرمز له عادةً ب $\sigma$، هو مقياس لانتشار دالة توزيع هذا المتحول بما يتوافق مع وحدات قياس المتحول العشوائي. يحسب بالشكل التالي:

\[\boxed{\sigma=\sqrt{\textrm{Var}(X)}}\]
Standard deviation

تحويل المتحولات العشوائية لتكن المتحولات العشوائية $X$ و$Y$ مرتبطة من خلال دالة ما. باعتبار $f_X$ و$f_Y$ دالتا التوزيع ل$X$ و$Y$ على التوالي، يكون لدينا:

\[\boxed{f_Y(y)=f_X(x)\left|\frac{dx}{dy}\right|}\]

قاعدة لايبنتز (Leibniz) للتكامل لتكن $g$ دالة لـ $x$ وربما لـ $c$، ولتكن $a$ و$b$ حدود قد تعتمد على $c$. يكون لدينا:

\[\boxed{\frac{\partial}{\partial c}\left(\int_a^bg(x)dx\right)=\frac{\partial b}{\partial c}\cdot g(b)-\frac{\partial a}{\partial c}\cdot g(a)+\int_a^b\frac{\partial g}{\partial c}(x)dx}\]

التوزيعات الاحتمالية

متراجحة تشيبشيف (Chebyshev) ليكن $X$ متحولاً عشوائياً قيمته المتوقعة تساوي $\mu$. إذا كان لدينا $k, \sigma>0$، سنحصل على المتراجحة التالية:

\[\boxed{P(|X-\mu|\geqslant k\sigma)\leqslant\frac{1}{k^2}}\]

التوزيعات الأساسية فيما يلي التوزيعات الأساسية لأخذها بالاعتبار:

النوع التوزيع PDF $\psi(\omega)$ $E[X]$ $\textrm{Var}(X)$ رسم توضيحي
(D) $X\sim\mathcal{B}(n, p)$ $\displaystyle \displaystyle\binom{n}{x} p^xq^{n-x}$ $(pe^{i\omega}+q)^n$ $np$ $npq$ Binomial distribution
(D) $X\sim\textrm{Po}(\mu)$ $\displaystyle \frac{\mu^x}{x!}e^{-\mu}$ $e^{\mu(e^{i\omega}-1)}$ $\mu$ $\mu$ Poisson distribution
(C) $X\sim\mathcal{U}(a, b)$ $\displaystyle \frac{1}{b-a}$ $\displaystyle\frac{e^{i\omega b}-e^{i\omega a}}{(b-a)i\omega}$ $\displaystyle\frac{a+b}{2}$ $\displaystyle\frac{(b-a)^2}{12}$ Uniform distribution
(C) $X\sim\mathcal{N}(\mu, \sigma)$ $\displaystyle \frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{1}{2}\left(\frac{x-\mu}{\sigma}\right)^2}$ $e^{i\omega\mu-\frac{1}{2}\omega^2\sigma^2}$ $\mu$ $\sigma^2$ Normal distribution
(C) $X\sim\textrm{Exp}(\lambda)$ $\displaystyle \lambda e^{-\lambda x}$ $\displaystyle\frac{1}{1-\frac{i\omega}{\lambda}}$ $\displaystyle\frac{1}{\lambda}$ $\displaystyle\frac{1}{\lambda^2}$ Exponential distribution

المتغيرات العشوائية الموزعة اشتراكياً

الكثافة الهامشية والتوزيع التراكمي من دالة الكثافة الاحتمالية المشتركة $f_{XY}$، لدينا:

الحالة الكثافة الهامشية الدالة التراكمية
(D) $\displaystyle f_X(x_i)=\sum_{j}f_{XY}(x_i,y_j)$ $\displaystyle F_{XY}(x,y)=\sum_{x_i\leqslant x}\sum_{y_j\leqslant y}f_{XY}(x_i,y_j)$
(C) $\displaystyle f_X(x)=\int_{-\infty}^{+\infty}f_{XY}(x,y)dy$ $\displaystyle F_{XY}(x,y)=\int_{-\infty}^x\int_{-\infty}^yf_{XY}(x',y')dx'dy'$

الكثافة الشرطية الكثافة الشرطية لـ $X$ بالنسبة لـ $Y$، والتي يرمز لها عادةً بـ $f_{X|Y}$، تعرف بالشكل التالي:

\[\boxed{f_{X|Y}(x)=\frac{f_{XY}(x,y)}{f_Y(y)}}\]

الاستقلال يقال عن متحولين عشوائيين $X$ و $Y$ أنهما مستقلين إذا كان لدينا:

\[\boxed{f_{XY}(x,y)=f_X(x)f_Y(y)}\]

التغاير نعرف تغاير متحولين عشوائيين $X$ و $Y$، والذي نرمز له بـ $\sigma_{XY}^2$ أو بالرمز الأكثر شيوعاً $\textrm{Cov}(X,Y)$، كالتالي:

\[\boxed{\textrm{Cov}(X,Y)\triangleq\sigma_{XY}^2=E[(X-\mu_X)(Y-\mu_Y)]=E[XY]-\mu_X\mu_Y}\]

الارتباط بأخذ $\sigma_X$، $\sigma_Y$ كانحراف معياري لـ $X$ و $Y$، نعرف الارتباط بين المتحولات العشوائية $X$ و $Y$، والمرمز بـ $\rho_{XY}$، كالتالي:

\[\boxed{\rho_{XY}=\frac{\sigma_{XY}^2}{\sigma_X\sigma_Y}}\]

ملاحظة 1: لأي متحولات عشوائية $X, Y$، لدينا $\rho_{XY}\in[-1,1]$.

ملاحظة 2: إذا كان $X$ و $Y$ مستقلين، فإن $\rho_{XY} = 0$.


تقدير المُدخَل (parameter)

تعاريف

العينة العشوائية العينة العشوائية هي مجموعة من $n$ متحول عشوائي $X_1, ..., X_n$ والتي تكون مستقلة وموزعة تطابقياً مع $X$.


المُقَدِّر المُقَدِّر هو دالة للبيانات المستخدمة ويستخدم لاستنباط قيمة مُدخل غير معلوم ضمن نموذج إحصائي.


الانحياز انحياز مُقَدِّر $\hat{\theta}$ هو الفرق بين القيمة المتوقعة لتوزيع $\hat{\theta}$ والقيمة الحقيقية، كالتالي:

\[\boxed{\textrm{Bias}(\hat{\theta})=E[\hat{\theta}]-\theta}\]

ملاحظة: يقال عن مُقَدِّر أنه غير منحاز عندما يكون لدينا $E[\hat{\theta}]=\theta$.


تقدير المتوسط

متوسط العينة يستخدم متوسط عينة عشوائية لتقدير المتوسط الحقيقي $\mu$ لتوزيع ما، عادةً ما يرمز له بـ $\overline{X}$ ويعرف كالتالي:

\[\boxed{\overline{X}=\frac{1}{n}\sum_{i=1}^nX_i}\]

ملاحظة: متوسط العينة غير منحاز، أي $E[\overline{X}]=\mu$.


مبرهنة النهاية المركزية ليكن لدينا عينة عشوائية $X_1, ..., X_n$ والتي تتبع لتوزيع معطى له متوسط $\mu$ وتباين $\sigma^2$، فيكون:

\[\boxed{\overline{X}\underset{n\rightarrow+\infty}{\sim}\mathcal{N}\left(\mu, \frac{\sigma}{\sqrt{n}}\right)}\]

تقدير التباين

تباين العينة يستخدم تباين عينة عشوائية لتقدير التباين الحقيقي $\sigma^2$ لتوزيع ما، والذي يرمز له عادةً بـ $s^2$ أو $\hat{\sigma}^2$ ويعرّف بالشكل التالي:

\[\boxed{s^2=\hat{\sigma}^2=\frac{1}{n-1}\sum_{i=1}^n(X_i-\overline{X})^2}\]

ملاحظة: تباين العينة غير منحاز، أي $E[s^2]=\sigma^2$.


علاقة مربع كاي (chi-squared) مع تباين العينة ليكن $s^2$ تباين العينة لعينة عشوائية. لدينا:

\[\boxed{\frac{s^2(n-1)}{\sigma^2}\sim\chi_{n-1}^2}\]