تعلم آلي - CS ۲۲۹

ملخص الجبر الخطي و التفاضل و التكامل

Star

النص الأصلي بواسطة افشین عمیدی و شروین عمیدی
تمت الترجمة بواسطة زيد اليافعي. تمت المراجعة بواسطة أمجد الخطابي و مازن مليباري.

الرموز العامة

التعريفات

متجه (vector) نرمز ل $x\in\mathbb{R}^n$ متجه يحتوي على $n$ مدخلات، حيث $x_i\in\mathbb{R}$ يعتبر المدخل رقم $i$ .

\[x=\left(\begin{array}{c}x_1\\x_2\\\vdots\\x_n\end{array}\right)\in\mathbb{R}^n\]

مصفوفة (matrix) نرمز ل $A\in\mathbb{R}^{m\times n}$ مصفوفة تحتوي على $m$ صفوف و $n$ أعمدة، حيث $A_{i,j}\in\mathbb{R}$ يرمز للمدخل في الصف$ i$ و العمود $j$

\[A=\left(\begin{array}{ccc}A_{1,1}& \cdots&A_{1,n}\\\vdots&& \vdots\\A_{m,1}& \cdots&A_{m,n}\end{array}\right)\in\mathbb{R}^{m\times n}\]

ملاحظة : المتجه $x$ المعرف مسبقا يمكن اعتباره مصفوفة من الشكل $n \times 1$ والذي يسمى ب مصفوفة من عمود واحد.


المصفوفات الأساسية

مصفوفة الوحدة (identity) مصفوفة الوحدة $I\in\mathbb{R}^{n\times n}$ تعتبر مصفوفة مربعة تحتوي على المدخل 1 في قطر المصفوفة و 0 في بقية المدخلات:

\[I=\left(\begin{array}{cccc}1&0& \cdots&0\\0& \ddots& \ddots& \vdots\\\vdots& \ddots& \ddots&0\\0& \cdots&0&1\end{array}\right)\]

ملاحظة : جميع المصفوفات من الشكل $A\in\mathbb{R}^{n\times n}$ فإن $A\times I=I\times A=A$.


مصفوفة قطرية (diagonal) المصفوفة القطرية هي مصفوفة من الشكل

\[D=\left(\begin{array}{cccc}d_1&0& \cdots&0\\0& \ddots& \ddots& \vdots\\\vdots& \ddots& \ddots&0\\0& \cdots&0&d_n\end{array}\right)\]

ملاحظة: نرمز كذلك ل $D$ ب $\textrm{diag}(d_1,...,d_n)$.


عمليات المصفوفات

الضرب

ضرب المتجهات توجد طريقتين لضرب متجه بمتجه :

- ضرب داخلي (inner product): ل $x,y\in\mathbb{R}^n$ نستنتج :

\[\boxed{x^Ty=\sum_{i=1}^nx_iy_i\in\mathbb{R}}\]

- ضرب خارجي (outer product): ل $x\in\mathbb{R}^m, y\in\mathbb{R}^n$ نستنتج :

\[\boxed{xy^T=\left(\begin{array}{ccc}x_1y_1& \cdots&x_1y_n\\\vdots&& \vdots\\x_my_1& \cdots&x_my_n\end{array}\right)\in\mathbb{R}^{m\times n}}\]

مصفوفة متجه : ضرب المصفوفة $A\in\mathbb{R}^{m\times n}$ والمتجه $x \in \mathbb{R}^n$ ينتجه متجه من الشكل $\mathbb{R}^{m}$ حيث :

\[\boxed{Ax=\left(\begin{array}{c}a_{r,1}^Tx\\\vdots\\a_{r,m}^Tx\end{array}\right)=\sum_{i=1}^na_{c,i}x_{i}\in\mathbb{R}^{m}}\]

حيث $a^{T}_{r,i}$ يعتبر متجه الصفوف و $a_{c,j}$ يعتبر متجه الأعمدة ل $A$ كذلك $x_i$ يرمز لعناصر $x$.


ضرب مصفوفة ومصفوفة ضرب المصفوفة $A\in\mathbb{R}^{m\times n}$ و $A \in \mathbb{R}^{n \times p}$ ينتجه عنه المصفوفة $\mathbb{R}^{m\times p}$ حيث أن :

\[\boxed{AB=\left(\begin{array}{ccc}a_{r,1}^Tb_{c,1}& \cdots&a_{r,1}^Tb_{c,p}\\\vdots&& \vdots\\a_{r,m}^Tb_{c,1}& \cdots&a_{r,m}^Tb_{c,p}\end{array}\right)=\sum_{i=1}^na_{c,i}b_{r,i}^T\in\mathbb{R}^{n\times p}}\]

حيث $a^T_{r, i}$ و $b^T_{r, i}$ يعتبر متجه الصفوف $a_{c, j}$ و $b_{c, j}$ متجه الأعمدة ل $A$ و $B$ على التوالي.


عمليات أخرى

المنقول (transpose) منقول المصفوفة$A\in\mathbb{R}^{m\times n}$ يرمز له ب $A^T$ حيث الصفوف يتم تبديلها مع الأعمدة :

\[\boxed{\forall i,j,\quad\quad A_{i,j}^T=A_{j,i}}\]

ملاحظة: لأي مصفوفتين $A$ و $B$، نستنتج $(AB)^T = B^T A^T$.


المعكوس (inverse) معكوس أي مصفوفة $A$ قابلة للعكس (invertible) يرمز له ب $A^{-1}$ ويعتبر المعكوس المصفوفة الوحيدة التي لديها الخاصية التالية :

\[\boxed{AA^{-1}=A^{-1}A=I}\]

ملاحظة: ليس جميع المصفوفات يمكن إيجاد معكوس لها. كذلك لأي مصفوفتين $A$ و $B$ نستنتج $(AB)^{-1}=B^{-1}A^{-1}$.


أثر المصفوفة (trace) أثر أي مصفوفة مربعة $A$ يرمز له ب $\textrm{tr}(A)$ يعتبر مجموع العناصر التي في القطر:

\[\boxed{\textrm{tr}(A)=\sum_{i=1}^nA_{i,i}}\]

ملاحظة : لأي مصفوفتين $A$ و $B$ لدينا $\textrm{tr}(A^T)=\textrm{tr}(A)$ و $\textrm{tr}(AB)=\textrm{tr}(BA)$.


المحدد (determinant) المحدد لأي مصفوفة مربعة من الشكل $A\in\mathbb{R}^{n\times n}$ يرمز له ب $|A|$ او $\textrm{det}(A)$يتم تعريفه بإستخدام $A_{\backslash i, \backslash j}$ والذي يعتبر المصفوفة $A$ مع حذف الصف $i$ والعمود $j$ كالتالي :

\[\boxed{\textrm{det}(A)=|A|=\sum_{j=1}^n(-1)^{i+j}A_{i,j}|A_{\backslash i,\backslash j}|}\]

ملاحظة: $A$ يكون لديه معكوذ إذا وفقط إذا $|A|\neq0$. كذلك $|A B| = |A| |B|$ و $|A^T| = |A|$.


خواص المصفوفات

التعريفات

التفكيك المتماثل (symmetric decomposition) المصفوفة $A$ يمكن التعبير عنها بإستخدام جزئين مثماثل (symmetric) وغير متماثل(antisymmetric) كالتالي :

\[\boxed{A=\underbrace{\frac{A+A^T}{2}}_{\textrm{Symmetric}}+\underbrace{\frac{A-A^T}{2}}_{\textrm{Antisymmetric}}}\]

المعيار (norm) المعيار يعتبر دالة $N:V\longrightarrow[0,+\infty[$ حيث $V$ يعتبر فضاء متجه (vector space)، حيث أن لكل $x,y \in V$ لدينا :

- $N(x+y)\leqslant N(x)+N(y)$
- لأي عدد $a$ فإن $N(ax) = |a| N(x)$
- $N(x) =0 \implies x = 0$

لأي $x \in V$ المعايير الأكثر إستخداماً ملخصة في الجدول التالي:

المعيار الرمز التعريف مثال للإستخدام
Manhattan ,$L^1$ $||x||_1$ $\displaystyle\sum_{i=1}^n|x_i|$ LASSO regularization
Euclidean ,$L^2$ $||x||_2$ $\displaystyle\sqrt{\sum_{i=1}^nx_i^2}$ Ridge regularization
norm-$p$ ,$L^p$ $||x||_p$ $\displaystyle\left(\sum_{i=1}^nx_i^p\right)^{\frac{1}{p}}$ Hölder inequality
Infinity ,$L^{\infty}$ $||x||_{\infty}$ $\underset{i}{\textrm{max }}|x_i|$ Uniform convergence

الارتباط الخطي (linear dependence) مجموعة المتجهات تعتبر تابعة خطياً إذا وفقط إذا كل متجه يمكن كتابته بشكل خطي بإسخدام مجموعة من المتجهات الأخرى.

ملاحظة: إذا لم يتحقق هذا الشرط فإنها تسمى مستقلة خطياً .


رتبة المصفوفة (rank) رتبة المصفوفة $A$ يرمز له ب $\textrm{rank}(A)$ وهو يصف حجم الفضاء المتجهي الذي نتج من أعمدة المصفوفة. يمكن وصفه كذلك بأقصى عدد من أعمدة المصفوفة $A$ التي تمتلك خاصية أنها مستقلة خطياً.


مصفوفة شبه معرفة موجبة (positive semi-definite) المصفوفة $A \in \mathbb{R}^{n \times n}$ تعتبر مصفوفة شبه معرفة موجبة (PSD) ويرمز لها بالرمز $A\succeq 0$ إذا :

\[\boxed{A=A^T}\quad\textrm{ and }\quad\boxed{\forall x\in\mathbb{R}^n,\quad x^TAx\geqslant0}\]

ملاحظة: المصفوفة $A$ تعتبر مصفوفة معرفة موجبة إذا $A \succ 0 $ وهي تعتبر مصفوفة (PSD) والتي تستوفي الشرط : لكل متجه غير الصفر $x$ حيث $x^TAx>0 $.


القيم الذايتة (eigenvalue), المتجه الذاتي (eigenvector) إذا كان لدينا مصفوفة $A \in \mathbb{R}^{n \times n}$، القيمة $\lambda$ تعتبر قيمة ذاتية للمصفوفة $A$ إذا وجد متجه $z\in\mathbb{R}^n\backslash\{0\}$ يسمى متجه ذاتي حيث أن :

\[\boxed{Az=\lambda z}\]

النظرية الطيفية (spectral theorem) نفرض $A \in \mathbb{R}^{n \times n}$ إذا كانت المصفوفة $A$ متماثلة فإن $A$ تعتبر مصفوفة قطرية بإستخدام مصفوفة متعامدة (orthogonal) $U \in \mathbb{R} ^{n \times n}$ ويرمز لها بالرمز $\Lambda=\textrm{diag}(\lambda_1,...,\lambda_n)$ حيث أن:

\[\boxed{\exists\Lambda\textrm{ قطرية},\quad A=U\Lambda U^T}\]

مجزئ القيمة المفرده (singular value decomposition) لأي مصفوفة $A$ من الشكل $n\times m$ ، تفكيك القيمة المنفردة (SVD) يعتبر طريقة تحليل تضمن وجود $U \in \mathbb{R}^{m \times m}$ ،مصفوفة قطرية $\Sigma \in \mathbb{R}^{m \times n}$ و $V \in \mathbb{R}^{n \times n}$ حيث أن :

\[\boxed{A=U\Sigma V^T}\]

حساب المصفوفات

المشتقة في فضاءات عالية (gradient) افترض $f:\mathbb{R}^{m\times n}\rightarrow\mathbb{R}$ تعتبر دالة و $f: \mathbb{R}^{m \times n} \rightarrow \mathbb{R}$ تعتبر مصفوفة. المشتقة العليا ل $f$ بالنسبة ل $A$ يعتبر مصفوفة $n\times m$ يرمز له $\nabla_A f(A)$ حيث أن:

\[\boxed{\Big(\nabla_A f(A)\Big)_{i,j}=\frac{\partial f(A)}{\partial A_{i,j}}}\]

ملاحظة : المشتقة العليا معرفة فقط إذا كانت الدالة $f$ لديها مدى ضمن الأعداد الحقيقية.


هيشيان (Hessian) افترض $f:\mathbb{R}^{n}\rightarrow\mathbb{R}$ تعتبر دالة و $x \in \mathbb{R}^n$ يعتبر متجه. الهيشيان ل $f$ بالنسبة ل $x$ تعتبر مصفوفة متماثلة من الشكل $n \times n$ يرمز لها بالرمز $\nabla_x^2 f(x)$ حيثب أن :

\[\boxed{\Big(\nabla_x^2 f(x)\Big)_{i,j}=\frac{\partial^2 f(x)}{\partial x_i\partial x_j}}\]

ملاحظة : الهيشيان معرفة فقط إذا كانت الدالة $f$ لديها مدى ضمن الأعداد الحقيقية.


الحساب في مشتقة الفضاءات العالية لأي مصفوفات $A,B,C$ فإن الخواص التالية مهمة :

\[\boxed{\nabla_A\textrm{tr}(AB)=B^T}\quad\quad\boxed{\nabla_{A^T}f(A)=\left(\nabla_Af(A)\right)^T}\] \[\boxed{\nabla_A\textrm{tr}(ABA^TC)=CAB+C^TAB^T}\quad\quad\boxed{\nabla_A|A|=|A|(A^{-1})^T}\]