CS ۲۲۹ - یادگیری ماشین

یادآوری جبر خطی و حسابان

Star

متن اصلی از افشین عمیدی و شروین عمیدی
ترجمه شده توسط عرفان نوری. بازبینی شده توسط محمد کریمی.

نمادها

تعاریف

بردار $x \in \mathbb{R}^n$ یک بردار با $n$ درایه است، که $x_i \in \mathbb{R}$ درایه‌ی $i$ ام می‌باشد:

\[x=\left(\begin{array}{c}x_1\\x_2\\\vdots\\x_n\end{array}\right)\in\mathbb{R}^n\]

ماتریس $A \in \mathbb{R} ^ {m \times n}$ یک بردار با $m$ سطر و $n$ ستون است، که در آن $A_{i,j}\in\mathbb{R}$ درایه‌ای است که در سطر $i$ام و ستون $j$ام قرار دارد:

\[A=\left(\begin{array}{ccc}A_{1,1}& \cdots&A_{1,n}\\\vdots&& \vdots\\A_{m,1}& \cdots&A_{m,n}\end{array}\right)\in\mathbb{R}^{m\times n}\]

نکته: بردار $x$ که در بالا تعریف شد را می‌توان به صورت یک ماتریس $n \times 1$ در نظر گرفت که به طور خاص به آن بردار ستونی گویند.


ماتریس‌های اصلی:

ماتریس همانی ماتریس همانی $I\in\mathbb{R}^{n\times n}$ یک ماتریس مربعی است که درایه‌های قطری آن همه مقدار ۱ و بقیه‌ی درایه‌ها مقدار ۰ دارند:

\[I=\left(\begin{array}{cccc}1&0& \cdots&0\\0& \ddots& \ddots& \vdots\\\vdots& \ddots& \ddots&0\\0& \cdots&0&1\end{array}\right)\]

نکته: برای همه‌ی ماتریس‌های $A\in\mathbb{R}^{n\times n}$ داریم $A \times I = I \times A = A$.


ماتریس قطری ماتریس $D\in\mathbb{R}^{n\times n}$ یک ماتریس مربعی است که درایه‌های قطری آن مقادیر غیرصفر دارند و بقیه‌ی درایه‌ها صفر هستند:

\[D=\left(\begin{array}{cccc}d_1&0& \cdots&0\\0& \ddots& \ddots& \vdots\\\vdots& \ddots& \ddots&0\\0& \cdots&0&d_n\end{array}\right)\]

نکته:‌$D$ همچنین به صورت $D=\textrm{diag}(d_1,...,d_n)$ هم نمایش داده می‌شود.


عملیات ماتریسی

ضرب

بردار با بردار دو نوع عملیات ضرب بردار با بردار وجود دارد:

ضرب داخلی: برای هر $x, y \in \mathbb{R}^n$ داریم:

\[\boxed{x^Ty=\sum_{i=1}^nx_iy_i\in\mathbb{R}}\]

ضرب خارجی: برای هر $x \in \mathbb{R}^m$ و $y \in \mathbb{R}^n$ داریم:

\[\boxed{xy^T=\left(\begin{array}{ccc}x_1y_1& \cdots&x_1y_n\\\vdots&& \vdots\\x_my_1& \cdots&x_my_n\end{array}\right)\in\mathbb{R}^{m\times n}}\]

ماتریس با بردار ضرب ماتریس $A \in \mathbb{R}^{m \times n}$ و بردار $x \in \mathbb{R}^n$ برداری با اندازه‌ی $m$ است به طوری که:

\[\boxed{Ax=\left(\begin{array}{c}a_{r,1}^Tx\\\vdots\\a_{r,m}^Tx\end{array}\right)=\sum_{i=1}^na_{c,i}x_{i}\in\mathbb{R}^{m}}\]
که $a_{r,i}^T$ بردارهای سطری و $a_{c, j}$ بردارهای ستونی $A$، و $x_i$ درایه‌های $x$ هستند.


ماتریس با ماتریس ضرب ماتریس‌های $A\in\mathbb{R}^{m\times n}$ و $B\in\mathbb{R}^{n\times p}$ ماتریسی با اندازه‌ی $m \times p$ است که:

\[\boxed{AB=\left(\begin{array}{ccc}a_{r,1}^Tb_{c,1}& \cdots&a_{r,1}^Tb_{c,p}\\\vdots&& \vdots\\a_{r,m}^Tb_{c,1}& \cdots&a_{r,m}^Tb_{c,p}\end{array}\right)=\sum_{i=1}^na_{c,i}b_{r,i}^T\in\mathbb{R}^{m\times p}}\]
که $a_{r,i}^T, b_{r,i}^T$ بردارهای سطری و $a_{c, j}$ و $b_{c, j}$ بردارهای ستونی $A$ و $B$ هستند.


دیگر عملیات

ترانهاده ترانهاده‌ی ماتریس $A \in \mathbb{R}^{m \times n}$ که با $A^T$ نمایش داده می‌شود، ماتریسی است که مکان درایه‌های آن نسبت به قطر ماتریس برعکس شده‌اند:

\[\boxed{\forall i,j,\quad\quad A_{i,j}^T=A_{j,i}}\]

نکته: برای ماتریس‌های $A$ و $B$، داریم $(AB)^T = B^T A^T$.


معکوس معکوس یک ماتریس مربعی معکوس‌پذیر $A$ که با $A^{-1}$ نمایش داده می‌شود، تنها ماتریسی است که:

\[\boxed{AA^{-1}=A^{-1}A=I}\]

نکته: همه‌ی ماتریس‌های مربعی معکوس‌پذیر نیستند. همچنین، برای ماتریس‌های مربعی معکوس‌پذیر $A$ و $B$ داریم $(AB)^{-1} = B^{-1} A^{-1}$.


اثر اثر ماتریس مربعی $A$ که با $\textrm{tr}(A)$ نمایش داده می‌شود، مجموع همه‌ی درایه‌های قطری ماتریس است.

\[\boxed{\textrm{tr}(A)=\sum_{i=1}^nA_{i,i}}\]

نکته: برای ماتریس‌های $A$ و $B$ داریم $\textrm{tr}(A^T)=\textrm{tr}(A)$ و $\textrm{tr}(AB)=\textrm{tr}(BA)$.


دترمینان دترمینان یک ماتریس مربعی $A \in \mathbb{R}^{n \times n}$ که با $|A|$ یا $\textrm{det}(A)$ نمایش داده می‌شود، به صورت یک عبارت بازگشتی بر روی $A_{\backslash i, \backslash j}$، که ماتریس $A$ بدون سطر $i$-ام و ستون $j$-ام است، به صورت زیر تعریف می‌شود:

\[\boxed{\textrm{det}(A)=|A|=\sum_{j=1}^n(-1)^{i+j}A_{i,j}|A_{\backslash i,\backslash j}|}\]

نکته: $A$ معکوس‌پذیر است اگر و فقط اگر $|A| \neq 0$. همچنین $|A B| = |A| |B|$ و $|A^T| = |A|$.


ویژگی‌های ماتریس‌ها

تعاریف

تجزیه‌ی متقارن یک ماتریس دلخواه $A$ را می‌توان با استفاده از اجزای متقارن و غیرمتقارن آن به صورت زیر نشان داد:

\[\boxed{A=\underbrace{\frac{A+A^T}{2}}_{\textrm{Symmetric}}+\underbrace{\frac{A-A^T}{2}}_{\textrm{Antisymmetric}}}\]

نرم نرم تابع $N:V\longrightarrow[0,+\infty[$ است که $V$ یک فضای برداری است، و به گونه‌ای است که برای هر $x,y\in V$ داریم:

• $N(x+y)\leqslant N(x)+N(y)$
• $N(a x) = |a| N(x)$ برای عدد اسکالر
• اگر $N(x) = 0$ باشد در این صورت $x = 0$

برای $x\in V$، نرم‌هایی که بیشتر استفاده می‌شوند در جدول زیر آمده‌اند:

نُرم نماد تعریف کاربرد
Manhattan, $L^1$ $||x||_1$ $\displaystyle\sum_{i=1}^n|x_i|$ LASSO
Euclidean, $L^2$ $||x||_2$ $\displaystyle\sqrt{\sum_{i=1}^nx_i^2}$ Ridge
$p$-norm, $L^p$ $||x||_p$ $\displaystyle\left(\sum_{i=1}^nx_i^p\right)^{\frac{1}{p}}$ نابرابری هولدر
Infinity, $L^{\infty}$ $||x||_{\infty}$ $\underset{i}{\textrm{max }}|x_i|$ همگرایی یکنواخت

وابستگی خطی مجموعه‌ای از بردارها وابستگی خطی دارند اگر یکی از بردارهای مجموعه را بتوان به صورت ترکیب خطی دیگر بردارها تعریف کرد.

نکته: اگر نتوان هیچ برداری را به این شکل تعریف کرد، در این صورت بردارها استقلال خطی دارند.


رتبه ماتریس رتبه‌ی یک ماتریس $A$ که با $\textrm{rank}(A)$ نمایش داده می‌شود، تعداد ابعاد فضایی است که توسط ستون‌های آن ایجاد می‌شود. این مقدار برابر است با حداکثر تعداد ستون‌های $A$ که استقلال خطی داشته باشند.


ماتریس مثبت نیمه‌معین ماتریس $A \in \mathbb{R}^{n \times n}$ یک ماتریس مثبت نیمه‌معین است که با $A \succeq 0$ نمایش داده می‌شود اگر داشته باشیم:

\[\boxed{A=A^T}\quad\textrm{ و }\quad\boxed{\forall x\in\mathbb{R}^n,\quad x^TAx\geqslant0}\]

نکته: به طور مشابه، یک ماتریس $A$ مثبت معین است ($A \succ 0$)، اگر یک ماتریس مثبت نیمه‌معین باشد که برای هر بردار غیرصفر $x$ داشته باشیم $x^T A > 0$.


مقدار ویژه، بردار ویژه برای یک ماتریس $A \in \mathbb{R}^{n \times n}$، گوییم $\lambda$ یک مقدار ویژه ماتریس $A$ است اگر وجود داشته باشد بردار $z\in\mathbb{R}^n\backslash\{0\}$، که یک بردار ویژه نام دارد، به طوری که:

\[\boxed{Az=\lambda z}\]

قضیه‌ی طیفی فرض کنید $A\in\mathbb{R}^{n\times n}$ باشد. اگر $A$ متقارن باشد، در این صورت $A$ توسط یک ماتریس حقیقی متعامد $U \in \mathbb{R} ^{n \times n}$ قطری‌پذیر است. با نمایش $\Lambda=\textrm{diag}(\lambda_1,...,\lambda_n)$ داریم:

\[\boxed{\exists\Lambda\textrm{ diagonal},\quad A=U\Lambda U^T}\]

تجزیه‌ی مقدار منفرد برای یک ماتریس $A$ با ابعاد $m \times n$، تجزیه‌ی مقدار منفرد یک تکنیک تقسیم‌بندی است که تضمین می‌کند یک ماتریس یکانی $U \in \mathbb{R}^{n \times n}$، یک ماتریس قطری $\Sigma \in \mathbb{R}^{m \times n}$، و یک ماتریس یکانی $V \in \mathbb{R}^{n \times n}$ وجود دارند، به طوری که:

\[\boxed{A=U\Sigma V^T}\]

حسابان ماتریسی

گرادیان فرض کنید $f: \mathbb{R}^{m \times n} \rightarrow \mathbb{R}$ یک تابع و $A \in \mathbb{R}^{m \times n}$ یک ماتریس باشد. گرادیان $f$ نسبت به $A$ یک ماتریس با ابعاد $m \times n$ است و با $\nabla_A f(A)$ نمایش داده می‌شود، به طوری که:

\[\boxed{\Big(\nabla_A f(A)\Big)_{i,j}=\frac{\partial f(A)}{\partial A_{i,j}}}\]

نکته: گرادیان $f$ تنها زمانی تعریف شده است که $f$ تابعی باشد که یک عدد اسکالر خروجی دهد.


هسیان فرض کنید $f: \mathbb{R}^n \rightarrow \mathbb{R}$ یک تابع و $x \in \mathbb{R}^n$ یک بردار باشد. هسیان $f$ نسبت به $x$ یک ماتریس متقارن با ابعاد $n \times n$ است و با $\nabla_x^2 f(x)$ نمایش داده می‌شود، به طوری که:

\[\boxed{\Big(\nabla_x^2 f(x)\Big)_{i,j}=\frac{\partial^2 f(x)}{\partial x_i\partial x_j}}\]

نکته: هسیان تابع $f$ تنها زمانی تعریف شده است که $f$ تابعی با خروجی اسکالر باشد.


عملیات گرادیانی برای ماتریس‌های $A$، $B$، و $C$، ویژگی‌های زیر را به خاطر داشته باشید:

\[\boxed{\nabla_A\textrm{tr}(AB)=B^T}\quad\quad\boxed{\nabla_{A^T}f(A)=\left(\nabla_Af(A)\right)^T}\] \[\boxed{\nabla_A\textrm{tr}(ABA^TC)=CAB+C^TAB^T}\quad\quad\boxed{\nabla_A|A|=|A|(A^{-1})^T}\]