선형대수와 미적분학 복습
Lee 에 의해 번역됨
일반적인 표기법
정의
벡터 $x\in\mathbb{R}^n$는 $n$개의 요소를 가진 벡터이고, $x_i\in\mathbb{R}$는 $i$번째 요소이다.
행렬 $A\in\mathbb{R}^{m\times n}$는 $m$개의 행과 $n$개의 열을 가진 행렬이고, $A_{i,j}\in\mathbb{R}$는 $i$번째 행, $j$번째 열에 있는 원소이다.
비고 : 위에서 정의된 벡터 $x$는 $n\times1$행렬로 볼 수 있으며, 열벡터라고도 불린다.
주요 행렬
단위행렬 단위행렬 $I\in\mathbb{R}^{n\times n}$는 대각성분이 모두 1이고 대각성분이 아닌 성분은 모두 0인 정사각행렬이다.
비고 : 모든 행렬 $A\in\mathbb{R}^{n\times n}$에 대하여, $A\times I=I\times A=A$를 만족한다.
대각행렬 대각행렬 $D\in\mathbb{R}^{n\times n}$는 대각성분은 모두 0이 아니고, 대각성분이 아닌 성분은 모두 0인 정사각행렬이다.
비고 : $D$를 $\textrm{diag}(d_1,...,d_n)$라고도 표시한다.
행렬 연산
곱셈
벡터-벡터 벡터 간 연산에는 두 가지 종류가 있다:
- 내적: $x,y\in\mathbb{R}^n$에 대하여:
- 외적: $x\in\mathbb{R}^m, y\in\mathbb{R}^n$에 대하여:
행렬-벡터 행렬 $A\in\mathbb{R}^{m\times n}$와 벡터 $x\in\mathbb{R}^{n}$의 곱은 다음을 만족하는 $\mathbb{R}^{m}$크기의 벡터이다.
행렬-행렬 행렬 $A\in\mathbb{R}^{m\times n}$와 행렬 $B\in\mathbb{R}^{n\times p}$의 곱은 다음을 만족하는 $\mathbb{R}^{m\times p}$크기의 행렬이다.
그 외 연산
전치 행렬 $A\in\mathbb{R}^{m\times n}$의 전치 $A^T$는 모든 성분을 뒤집은 것이다.
비고: 행렬 $A,B$에 대하여, $(AB)^T=B^TA^T$가 성립힌다.
역행렬 가역행렬 $A$의 역행렬은 $A^{-1}$로 표기하며, 유일하다:
비고: 모든 정사각행렬이 역행렬을 갖는 것은 아니다. 그리고, 행렬 $A,B$에 대하여 $(AB)^{-1}=B^{-1}A^{-1}$가 성립힌다.
대각합 정사각행렬 $A$의 대각합 $\textrm{tr}(A)$는 대각성분의 합이다:
비고 : 행렬 $A,B$에 대하여, $\textrm{tr}(A^T)=\textrm{tr}(A)$와 $\textrm{tr}(AB)=\textrm{tr}(BA)$가 성립힌다.
행렬식 정사각행렬 $A\in\mathbb{R}^{n\times n}$의 행렬식 $|A|$ 또는 $\textrm{det}(A)$는 $i$번째 행과 $j$번째 열이 없는 행렬 $A$인 $A_{\backslash i, \backslash j}$에 대해 재귀적으로 표현된다.
비고 : $A$가 가역일 필요충분조건은 $|A|\neq0$이다. 또한 $|AB|=|A||B|$와 $|A^T|=|A|$도 그렇다.
행렬의 성질
정의
대칭 분해 주어진 행렬 $A$는 다음과 같이 대칭과 비대칭 부분으로 표현될 수 있다.
노름 $V$는 벡터공간일 때, 노름은 모든 $x,y\in V$에 대해 다음을 만족하는 함수 $N:V\longrightarrow[0,+\infty[$이다.
- $N(x+y)\leqslant N(x)+N(y)$
- scalar $a$에 대해서 $N(ax)=|a|N(x)$를 만족한다
- $N(x)=0$이면 $x=0$이다
$x\in V$에 대해, 가장 일반적으로 사용되는 규범이 아래 표에 요약되어 있다:
규범 | 표기법 | 정의 | 유스케이스 |
Manhattan, $L^1$ | $||x||_1$ | $\displaystyle\sum_{i=1}^n|x_i|$ | LASSO regularization |
Euclidean, $L^2$ | $||x||_2$ | $\displaystyle\sqrt{\sum_{i=1}^nx_i^2}$ | Ridge regularization |
$p$-norm, $L^p$ | $||x||_p$ | $\displaystyle\left(\sum_{i=1}^nx_i^p\right)^{\frac{1}{p}}$ | Hölder inequality |
Infinity, $L^{\infty}$ | $||x||_{\infty}$ | $\underset{i}{\textrm{max }}|x_i|$ | Uniform convergence |
일차 종속 집합 내의 벡터 중 하나가 다른 벡터들의 선형결합으로 정의될 수 있으면, 그 벡터 집합은 일차 종속이라고 한다.
비고: 어느 벡터도 이런 방식으로 표현될 수 없다면, 그 벡터들은 일차 독립이라고 한다.
행렬 랭크 주어진 행렬 $A$의 랭크는 열에 의해 생성된 벡터공간의 차원이고, $\textrm{rank}(A)$라고 쓴다. 이는 $A$의 선형독립인 열의 최대 수와 동일하다.
양의 준정부호 행렬 행렬 $A\in\mathbb{R}^{n\times n}$는 다음을 만족하면 양의 준정부호(PSD)라고 하고 $A\succeq 0$라고 쓴다:
비고 : 마찬가지로 PSD 행렬이 모든 0이 아닌 벡터 $x$에 대하여 $x^TAx>0$를 만족하면 행렬 $A$를 양의 정부호라고 말하고 $A≻0$라고 쓴다.
고유값, 고유벡터 주어진 행렬 $A\in\mathbb{R}^{n\times n}$에 대하여, 다음을 만족하는 벡터 $z\in\mathbb{R}^n\backslash\{0\}$가 존재하면, $z$를 고유벡터라고 부르고, $\lambda$를 $A$의 고유값이라고 부른다.
스펙트럼 정리 $A\in\mathbb{R}^{n\times n}$라고 하자. $A$가 대칭이면, $A$는 실수 직교행렬 $U\in\mathbb{R}^{n\times n}$에 의해 대각화 가능하다. $\Lambda=\textrm{diag}(\lambda_1,...,\lambda_n)$인 것에 주목하면, 다음을 만족한다:
특이값 분해 주어진 $m\times n$차원 행렬 $A$에 대하여, 특이값 분해(SVD)는 다음과 같이 $U$ $m\times m$ 유니터리와 $\Sigma$ $m\times n$ 대각 및 $V$ $n\times n$ 유니터리 행렬의 존재를 보증하는 인수분해 기술이다:
행렬 미적분
그라디언트 $f:\mathbb{R}^{m\times n}\rightarrow\mathbb{R}$는 함수이고 $A\in\mathbb{R}^{m\times n}$는 행렬이라 하자. $A$에 대한 $f$의 그라디언트 $\nabla_A f(A)$는 다음을 만족하는 $m\times n$ 행렬이다:
헤시안 $f:\mathbb{R}^{n}\rightarrow\mathbb{R}$는 함수이고 $x\in\mathbb{R}^{n}$는 벡터라고 하자. $x$에 대한 $f$의 헤시안 $\nabla_x^2 f(x)$는 다음을 만족하는 $n\times n$ 대칭행렬이다:
비고: $f$의 헤시안은 $f$가 스칼라를 반환하는 함수일 때만 정의된다.
그라디언트 연산 행렬 $A,B,C$에 대하여, 다음 그라디언트 성질을 염두해두는 것이 좋다: