Revisão de álgebra linear e cálculo
Conteúdo original por Afshine Amidi e Shervine Amidi
Traduzido por Gabriel Fonseca. Revisado por Leticia Portella.
Notações gerais
Definições
Vetor Indicamos por $x\in\mathbb{R}^n$ um vetor com $n$ elementos, onde $x_i\in\mathbb{R}$ é o $i^{ésimo}$ elemento:
Matriz Indicamos por $A\in\mathbb{R}^{m\times n}$ uma matriz com $m$ linhas e $n$ colunas, onde $A_{i,j}\in\mathbb{R}$ é o elementos localizado na $i^{ésima}$ linha e $j^{ésima}$ coluna:
Observação: o vetor $x$ defindo acima pode ser visto como uma matriz $n\times1$ e é mais particularmente chamado de vetor coluna.
Matrizes principais
Matriz identidade A matriz identidade $I\in\mathbb{R}^{n\times n}$ é uma matriz quadrada com uns na sua diagonal e zeros nas demais posições:
Observação: para todas as matrizes $A\in\mathbb{R}^{n\times n}$, nós temos $A\times I=I\times A=A$.
Matriz diagonal Uma matriz diagonal $D\in\mathbb{R}^{n\times n}$ é uma matriz quadrada com valores não nulos na sua diagonal e zeros nas demais posições:
Observação: nós também indicamos $D$ como $\textrm{diag}(d_1,...,d_n)$.
Operações de matriz
Multiplicação
Vetor-vetor Há dois tipos de produtos vetoriais:
- Produto interno: para $x,y\in\mathbb{R}^n$, temos:
- Produto tensorial: para $x\in\mathbb{R}^m, y\in\mathbb{R}^n$, temos :
Matriz-vetor O produto de uma matriz $A\in\mathbb{R}^{m\times n}$ e um vetor $x\in\mathbb{R}^{n}$ é um vetor de tamanho $\mathbb{R}^{m}$, de tal modo que:
Matriz-matriz O produto das matrizes $A\in\mathbb{R}^{m\times n}$ e $B\in\mathbb{R}^{n\times p}$ é uma matriz de tamanho $\mathbb{R}^{m\times p}$, de tal modo que:
Outras operações
Transposta A transposta de uma matriz $A\in\mathbb{R}^{m\times n}$, indicada por $A^T$, é tal que suas linhas são trocadas por suas colunas:
Observação: para matrizes $A, B$, temos $(AB)^T=B^TA^T$.
Inversa A inversa de uma matriz quadrada inversível $A$ é indicada por $A^{−1}$ e é uma matriz única de tal modo que:
Observação: nem todas as matrizes quadrada são inversíveis. Também, para matrizes $A,B$, temos $(AB)^{-1}=B^{-1}A^{-1}$.
Traço O traço de uma matriz quadrada $A$, indicado por $\textrm{tr}(A)$, é a soma dos elementos de sua diagonal:
Observação: para matrizes $A, B$, temos $\textrm{tr}(A^T)=\textrm{tr}(A)$ e $\textrm{tr}(AB)=\textrm{tr}(BA)$.
Determinante A determinante de uma matriz quadrada $A\in\mathbb{R}^{n\times n}$, indicada por $|A|$ ou $\textrm{det}(A)$ é expressa recursivamente em termos de $A_{\backslash i, \backslash j}$, a qual é a matriz $A$ sem a sua $i^{ésima}$ linha e $j^{ésima}$ coluna, como se segue:
Observação: $A$ é inversível se e somente se $|A|\neq0$. Além disso, $|AB|=|A||B|$ e $|A^T|=|A|$.
Propriedades da matriz
Definições
Decomposição simétrica Uma dada matriz $A$ pode ser expressa em termos de suas partes simétricas e assimétricas como a seguir:
Norma Uma norma é uma função $N:V\longrightarrow[0,+\infty[$ onde $V$ é um vetor espaço, e de tal modo que para todo $x,y\in V$, nós temos:
- $N(x+y)\leqslant N(x)+N(y)$
- $N(ax)=|a|N(x)$ para $a$ escalar
- se $N(x)=0$, então $x=0$
Para $x\in V$, as mais comumente utilizadas normas estão resumidas na tabela abaixo:
Norma | Notação | Definição | Caso de uso |
Manhattan, $L^1$ | $||x||_1$ | $\displaystyle\sum_{i=1}^n|x_i|$ | LASSO |
Euclidean, $L^2$ | $||x||_2$ | $\displaystyle\sqrt{\sum_{i=1}^nx_i^2}$ | Ridge |
$p$-norme, $L^p$ | $||x||_p$ | $\displaystyle\left(\sum_{i=1}^nx_i^p\right)^{\frac{1}{p}}$ | Desigualdade de Hölder |
Infini, $L^{\infty}$ | $||x||_{\infty}$ | $\underset{i}{\textrm{max }}|x_i|$ | Convergência uniforme |
Dependência linear Um conjunto de vetores é dito ser linearmente dependete se um dos vetores no conjunto puder ser definido como uma combinação linear dos demais.
Observação: se nenhum vetor puder ser escrito dessa maneira, então os vetores são ditos serem linearmente independentes.
Posto da matriz O posto de uma dada matriz $A$ é indicada por $\textrm{rank}(A)$ e é a dimensão do vetor espaço gerado por suas colunas. Isso é equivalente ao número máximo de colunas linearmente independentes de $A$.
Matriz positiva semi-definida Uma matriz $A\in\mathbb{R}^{n\times n}$ é positiva semi-definida (PSD) e é indicada por $A\succeq 0$ se tivermos:
Observação: de forma similar, uma matriz $A$ é dita ser positiva definida, e é indicada por $A\succ0$ se ela é uma matriz (PSD) que satisfaz todo vetor $x$ não nulo, $x^TAx>0$.
Autovalor, autovetor Dada uma matriz $A\in\mathbb{R}^{n\times n}$, $\lambda$ é dita ser um autovalor de $A$ se existe um vetor $z\in\mathbb{R}^n\backslash\{0\}$, chamado autovetor, nós temos:
Teorema spectral Seja $A\in\mathbb{R}^{n\times n}$. Se $A$ é simétrica, então $A$ é diagonalizável por uma matriz ortogonal $U\in\mathbb{R}^{n\times n}$. Indicando $\Lambda=\textrm{diag}(\lambda_1,...,\lambda_n)$, nós temos:
Decomposição em valor singular Para uma dada matriz $A$ de dimensões $m\times n$, a decomposição em valor singular (SVD) é uma técnica de fatorização que garante a existência de matrizes unitária $U$ $m\times m$, diagonal $\Sigma$ $m\times n$ e unitária $V$ $n\times n$, de tal modo que:
Cálculo com matriz
Gradiente Seja $f:\mathbb{R}^{m\times n}\rightarrow\mathbb{R}$ uma função e $A\in\mathbb{R}^{m\times n}$ uma matriz. O gradiente de $f$ a respeito a $A$ é a matriz $m\times n$, indicada por $\nabla_A f(A)$, de tal modo que:
Observação: o gradiente de $f$ é somente definido quando $f$ é uma função que retorna um escalar.
Hessiano Seja $f:\mathbb{R}^{n}\rightarrow\mathbb{R}$ uma função e $x\in\mathbb{R}^{n}$ um vetor. O hessiano de $f$ a respeito a $x$ uma matriz simétrica $n\times n$, indicada por $\nabla_x^2 f(x)$, de tal modo que:
Observação: o hessiano de $f$ é somente definifo quando $f$ é uma função que retorna um escalar.
Operações com gradiente Para matrizes $A,B,C$, as seguintes propriedade de gradiente valem a pena ter em mente: