CS 229 - 기계 학습

선형대수와 미적분학 복습
Star

아프신 아미디셰르빈 아미디


Lee 에 의해 번역됨

일반적인 표기법

정의

벡터 $x\in\mathbb{R}^n$는 $n$개의 요소를 가진 벡터이고, $x_i\in\mathbb{R}$는 $i$번째 요소이다.

\[x=\left(\begin{array}{c}x_1\\x_2\\\vdots\\x_n\end{array}\right)\in\mathbb{R}^n\]

행렬 $A\in\mathbb{R}^{m\times n}$는 $m$개의 행과 $n$개의 열을 가진 행렬이고, $A_{i,j}\in\mathbb{R}$는 $i$번째 행, $j$번째 열에 있는 원소이다.

\[A=\left(\begin{array}{ccc}A_{1,1}& \cdots&A_{1,n}\\\vdots&& \vdots\\A_{m,1}& \cdots&A_{m,n}\end{array}\right)\in\mathbb{R}^{m\times n}\]

비고 : 위에서 정의된 벡터 $x$는 $n\times1$행렬로 볼 수 있으며, 열벡터라고도 불린다.


주요 행렬

단위행렬 단위행렬 $I\in\mathbb{R}^{n\times n}$는 대각성분이 모두 1이고 대각성분이 아닌 성분은 모두 0인 정사각행렬이다.

\[I=\left(\begin{array}{cccc}1&0& \cdots&0\\0& \ddots& \ddots& \vdots\\\vdots& \ddots& \ddots&0\\0& \cdots&0&1\end{array}\right)\]

비고 : 모든 행렬 $A\in\mathbb{R}^{n\times n}$에 대하여, $A\times I=I\times A=A$를 만족한다.


대각행렬 대각행렬 $D\in\mathbb{R}^{n\times n}$는 대각성분은 모두 0이 아니고, 대각성분이 아닌 성분은 모두 0인 정사각행렬이다.

\[D=\left(\begin{array}{cccc}d_1&0& \cdots&0\\0& \ddots& \ddots& \vdots\\\vdots& \ddots& \ddots&0\\0& \cdots&0&d_n\end{array}\right)\]

비고 : $D$를 $\textrm{diag}(d_1,...,d_n)$라고도 표시한다.


행렬 연산

곱셈

벡터-벡터 벡터 간 연산에는 두 가지 종류가 있다:

- 내적: $x,y\in\mathbb{R}^n$에 대하여:

\[\boxed{x^Ty=\sum_{i=1}^nx_iy_i\in\mathbb{R}}\]

- 외적: $x\in\mathbb{R}^m, y\in\mathbb{R}^n$에 대하여:

\[\boxed{xy^T=\left(\begin{array}{ccc}x_1y_1& \cdots&x_1y_n\\\vdots&& \vdots\\x_my_1& \cdots&x_my_n\end{array}\right)\in\mathbb{R}^{m\times n}}\]

행렬-벡터 행렬 $A\in\mathbb{R}^{m\times n}$와 벡터 $x\in\mathbb{R}^{n}$의 곱은 다음을 만족하는 $\mathbb{R}^{m}$크기의 벡터이다.

\[\boxed{Ax=\left(\begin{array}{c}a_{r,1}^Tx\\\vdots\\a_{r,m}^Tx\end{array}\right)=\sum_{i=1}^na_{c,i}x_{i}\in\mathbb{R}^{m}}\]
$a_{r,i}^T$는 $A$의 벡터행, $a_{c,j}$는 $A$의 벡터열, $x_i$는 $x$의 성분이다.


행렬-행렬 행렬 $A\in\mathbb{R}^{m\times n}$와 행렬 $B\in\mathbb{R}^{n\times p}$의 곱은 다음을 만족하는 $\mathbb{R}^{n\times p}$크기의 행렬이다.

\[\boxed{AB=\left(\begin{array}{ccc}a_{r,1}^Tb_{c,1}& \cdots&a_{r,1}^Tb_{c,p}\\\vdots&& \vdots\\a_{r,m}^Tb_{c,1}& \cdots&a_{r,m}^Tb_{c,p}\end{array}\right)=\sum_{i=1}^na_{c,i}b_{r,i}^T\in\mathbb{R}^{n\times p}}\]
$a_{r,i}^T, b_{r,i}^T$는 $A,B$의 벡터행, $a_{c,j}, b_{c,j}$는 $A,B$의 벡터열이다.


그 외 연산

전치 행렬 $A\in\mathbb{R}^{m\times n}$의 전치 $A^T$는 모든 성분을 뒤집은 것이다.

\[\boxed{\forall i,j,\quad\quad A_{i,j}^T=A_{j,i}}\]

비고: 행렬 $A,B$에 대하여, $(AB)^T=B^TA^T$가 성립힌다.


역행렬 가역행렬 $A$의 역행렬은 $A^{-1}$로 표기하며, 유일하다:

\[\boxed{AA^{-1}=A^{-1}A=I}\]

비고: 모든 정사각행렬이 역행렬을 갖는 것은 아니다. 그리고, 행렬 $A,B$에 대하여 $(AB)^{-1}=B^{-1}A^{-1}$가 성립힌다.


대각합 정사각행렬 $A$의 대각합 $\textrm{tr}(A)$는 대각성분의 합이다:

\[\boxed{\textrm{tr}(A)=\sum_{i=1}^nA_{i,i}}\]

비고 : 행렬 $A,B$에 대하여, $\textrm{tr}(A^T)=\textrm{tr}(A)$와 $\textrm{tr}(AB)=\textrm{tr}(BA)$가 성립힌다.


행렬식 정사각행렬 $A\in\mathbb{R}^{n\times n}$의 행렬식 $|A|$ 또는 $\textrm{det}(A)$는 $i$번째 행과 $j$번째 열이 없는 행렬 $A$인 $A_{\backslash i, \backslash j}$에 대해 재귀적으로 표현된다.

\[\boxed{\textrm{det}(A)=|A|=\sum_{j=1}^n(-1)^{i+j}A_{i,j}|A_{\backslash i,\backslash j}|}\]

비고 : $A$가 가역일 필요충분조건은 $|A|\neq0$이다. 또한 $|AB|=|A||B|$와 $|A^T|=|A|$도 그렇다.


행렬의 성질

정의

대칭 분해 주어진 행렬 $A$는 다음과 같이 대칭과 비대칭 부분으로 표현될 수 있다.

\[\boxed{A=\underbrace{\frac{A+A^T}{2}}_{\textrm{대칭}}+\underbrace{\frac{A-A^T}{2}}_{\textrm{비대칭}}}\]

노름 $V$는 벡터공간일 때, 노름은 모든 $x,y\in V$에 대해 다음을 만족하는 함수 $N:V\longrightarrow[0,+\infty[$이다.

- $N(x+y)\leqslant N(x)+N(y)$
- scalar $a$에 대해서 $N(ax)=|a|N(x)$를 만족한다
- $N(x)=0$이면 $x=0$이다

$x\in V$에 대해, 가장 일반적으로 사용되는 규범이 아래 표에 요약되어 있다:

규범 표기법 정의 유스케이스
Manhattan, $L^1$ $||x||_1$ $\displaystyle\sum_{i=1}^n|x_i|$ LASSO regularization
Euclidean, $L^2$ $||x||_2$ $\displaystyle\sqrt{\sum_{i=1}^nx_i^2}$ Ridge regularization
$p$-norm, $L^p$ $||x||_p$ $\displaystyle\left(\sum_{i=1}^nx_i^p\right)^{\frac{1}{p}}$ Hölder inequality
Infinity, $L^{\infty}$ $||x||_{\infty}$ $\underset{i}{\textrm{max }}|x_i|$ Uniform convergence

일차 종속 집합 내의 벡터 중 하나가 다른 벡터들의 선형결합으로 정의될 수 있으면, 그 벡터 집합은 일차 종속이라고 한다.

비고: 어느 벡터도 이런 방식으로 표현될 수 없다면, 그 벡터들은 일차 독립이라고 한다.


행렬 랭크 주어진 행렬 $A$의 랭크는 열에 의해 생성된 벡터공간의 차원이고, $\textrm{rank}(A)$라고 쓴다. 이는 $A$의 선형독립인 열의 최대 수와 동일하다.


양의 준정부호 행렬 행렬 $A\in\mathbb{R}^{n\times n}$는 다음을 만족하면 양의 준정부호(PSD)라고 하고 $A\succeq 0$라고 쓴다:

\[\boxed{A=A^T}\quad\textrm{ and }\quad\boxed{\forall x\in\mathbb{R}^n,\quad x^TAx\geqslant0}\]

비고 : 마찬가지로 PSD 행렬이 모든 0이 아닌 벡터 $x$에 대하여 $x^TAx>0$를 만족하면 행렬 $A$를 양의 정부호라고 말하고 $A≻0$라고 쓴다.


고유값, 고유벡터 주어진 행렬 $A\in\mathbb{R}^{n\times n}$에 대하여, 다음을 만족하는 벡터 $z\in\mathbb{R}^n\backslash\{0\}$가 존재하면, $z$를 고유벡터라고 부르고, $\lambda$를 $A$의 고유값이라고 부른다.

\[\boxed{Az=\lambda z}\]

스펙트럼 정리 $A\in\mathbb{R}^{n\times n}$라고 하자. $A$가 대칭이면, $A$는 실수 직교행렬 $U\in\mathbb{R}^{n\times n}$에 의해 대각화 가능하다. $\Lambda=\textrm{diag}(\lambda_1,...,\lambda_n)$인 것에 주목하면, 다음을 만족한다:

\[\boxed{\exists\Lambda\textrm{ 대각},\quad A=U\Lambda U^T}\]

특이값 분해 주어진 $m\times n$차원 행렬 $A$에 대하여, 특이값 분해(SVD)는 다음과 같이 $U$ $m\times m$ 유니터리와 $\Sigma$ $m\times n$ 대각 및 $V$ $n\times n$ 유니터리 행렬의 존재를 보증하는 인수분해 기술이다:

\[\boxed{A=U\Sigma V^T}\]

행렬 미적분

그라디언트 $f:\mathbb{R}^{m\times n}\rightarrow\mathbb{R}$는 함수이고 $A\in\mathbb{R}^{m\times n}$는 행렬이라 하자. $A$에 대한 $f$의 그라디언트 $\nabla_A f(A)$는 다음을 만족하는 $m\times n$ 행렬이다:

\[\boxed{\Big(\nabla_A f(A)\Big)_{i,j}=\frac{\partial f(A)}{\partial A_{i,j}}}\]

헤시안 $f:\mathbb{R}^{n}\rightarrow\mathbb{R}$는 함수이고 $x\in\mathbb{R}^{n}$는 벡터라고 하자. $x$에 대한 $f$의 헤시안 $\nabla_x^2 f(x)$는 다음을 만족하는 $n\times n$ 대칭행렬이다:

\[\boxed{\Big(\nabla_x^2 f(x)\Big)_{i,j}=\frac{\partial^2 f(x)}{\partial x_i\partial x_j}}\]

비고: $f$의 헤시안은 $f$가 스칼라를 반환하는 함수일 때만 정의된다.


그라디언트 연산 행렬 $A,B,C$에 대하여, 다음 그라디언트 성질을 염두해두는 것이 좋다:

\[\boxed{\nabla_A\textrm{tr}(AB)=B^T}\quad\quad\boxed{\nabla_{A^T}f(A)=\left(\nabla_Af(A)\right)^T}\] \[\boxed{\nabla_A\textrm{tr}(ABA^TC)=CAB+C^TAB^T}\quad\quad\boxed{\nabla_A|A|=|A|(A^{-1})^T}\]