Repaso de Álgebra Lineal y Cálculo
Contenido original por Afshine Amidi y Shervine Amidi
Traducido por Fernando González-Herrera. Revisado por Fernando Diaz, Gustavo Velasco-Hernández y Juan P. Chavat.
Notaciones Generales
Definiciones
Vector Sea $x\in\mathbb{R}^n$ un vector con $n$ entradas, donde $x_i\in\mathbb{R}$ es la $i$-ésima entrada:
Matriz Sea $A\in\mathbb{R}^{m\times n}$ una matriz con $m$ filas y $n$ columnas; donde $A_{i,j}\in\mathbb{R}$ es el valor ubicado en la $i$-ésima fila y la $j$-ésima columna:
Observación: el vector $x$ definido arriba puede ser visto como una matriz $n\times1$ y es particularmente llamado vector-columna.
Matrices principales
Matriz identidad La matriz identidad $I\in\mathbb{R}^{n\times n}$ es una matriz cuadrada con valores 1 en su diagonal y ceros en el resto:
Observación: para todas las matrices $A\in\mathbb{R}^{n\times n}$, se cumple que $A\times I=I\times A=A$.
Matriz diagonal Una matriz diagonal $D\in\mathbb{R}^{n\times n}$ es una matriz cuadrada con valores diferentes de zero en su diagonal y cero en el resto:
Observación: también se denota $D$ como $\textrm{diag}(d_1,...,d_n)$.
Operaciones de matrices
Multiplicación
Vector-vector Hay dos tipos de multiplicaciones vector-vector:
- Producto interno: para $x,y\in\mathbb{R}^n$, se tiene que:
- Producto diádico : para $x\in\mathbb{R}^m, y\in\mathbb{R}^n$, se tiene que:
Matriz-vector El producto de la matriz $A\in\mathbb{R}^{m\times n}$ y el vector $x\in\mathbb{R}^{n}$, es un vector de tamaño $\mathbb{R}^{m}$; tal que:
Matriz-matriz El producto de las matrices $A\in\mathbb{R}^{m\times n}$ y $B\in\mathbb{R}^{n\times p}$ es una matriz de tamaño $\mathbb{R}^{m\times p}$, tal que:
Otras operaciones
Transpuesta La transpuesta de una matriz $A\in\mathbb{R}^{m\times n}$, denotada $A^T$, es tal que sus entradas se intercambian de la siguiente forma:
Observación: dadas las matrices $A,B$, se cumple que $(AB)^T=B^TA^T$.
Inversa La inversa de una matriz cuadrada invertible $A$ es denotada como $A^{−1}$ y es la única matriz tal que:
Observación: no todas las matrices cuadradas son invertibles. Además, para las matrices $A,B$, se cumple que $(AB)^{-1}=B^{-1}A^{-1}$.
Traza La traza de una matriz cuadrada $A$, denotada $\textrm{tr}(A)$, es la suma de los elementos en su diagonal:
Observación: dadas las matrices $A,B$, se cumple que $\textrm{tr}(A^T)=\textrm{tr}(A)$ y $\textrm{tr}(AB)=\textrm{tr}(BA)$.
Determinante El determinante de una matriz cuadrada $A\in\mathbb{R}^{n\times n}$, denotado $|A|$ o $\textrm{det}(A)$, es expresado recursivamente en términos de $A_{\backslash i, \backslash j}$, que es la matriz $A$ sin su $i$-ésima fila ni su $j$-ésima columna, de la siguiente forma:
Observación: $A$ es invertible si y solo si $|A|\neq0$. Además, $|AB|=|A||B|$ y $|A^T|=|A|$.
Propiedades de matrices
Definiciones
Descomposición simétrica Una matriz dada $A$ puede ser expresada en términos de sus partes simétricas y antisimétricas de la siguiente forma:
Norma Una norma (o módulo) es una función $N:V\longrightarrow[0,+\infty[$ donde $V$ es un vector espacial tal que para todo $x,y\in V$, se cumple que:
- $N(x+y)\leqslant N(x)+N(y)$
- $N(ax)=|a|N(x)$ siendo $a$ un escalar
- si $N(x)=0$, entonces $x=0$
Para $x\in V$, las normas comúnmente utilizadas se resumen en la siguiente tabla:
Norma | Notación | Definición | Caso de uso |
Manhattan, $L^1$ | $||x||_1$ | $\displaystyle\sum_{i=1}^n|x_i|$ | LASSO |
Euclidean, $L^2$ | $||x||_2$ | $\displaystyle\sqrt{\sum_{i=1}^nx_i^2}$ | Ridge |
$p$-norma, $L^p$ | $||x||_p$ | $\displaystyle\left(\sum_{i=1}^nx_i^p\right)^{\frac{1}{p}}$ | Desigualdad de Hölder |
Infinito, $L^{\infty}$ | $||x||_{\infty}$ | $\underset{i}{\textrm{max }}|x_i|$ | Convergencia |
Dependencia lineal Un conjunto de vectores se dice que es linealmente dependiente si uno de los vectores del conjunto puede ser definido como una combinación lineal de los restantes.
Observación: si ningún vector puede ser escrito de esta forma, entonces se dice que los vectores son linealmente independientes.
Rango matricial El rango de una matriz dada $A$ es denotado $\textrm{rank}(A)$ y es la dimensión del espacio vectorial generado por sus columnas. Esto es equivalente al máximo número de columnas linealmente independientes de $A$.
Matriz semi-definida positiva Una matriz $A\in\mathbb{R}^{n\times n}$ es semi-defininda positiva (PSD), lo cual se denota como $A\succeq 0$, si se cumple que:
Observación: de igual forma, una matriz $A$ se dice definida positiva, lo cual se denota con $A\succ0$, si es una matriz PSD que satisface para todos los vectores $x$ diferentes de cero, $x^TAx>0$.
Valor propio, vector propio Dada una matriz $A\in\mathbb{R}^{n\times n}$, $\lambda$ se dice que es un valor propio (eigenvalue, en inglés) de $A$ si existe un vector $z\in\mathbb{R}^n\backslash\{0\}$, llamado vector propio (eigenvector, en inglés), tal que:
Teorema espectral Sea $A\in\mathbb{R}^{n\times n}$. Si $A$ es simétrica, entonces $A$ es diagonalizable a través de una matriz real ortogonal $U\in\mathbb{R}^{n\times n}$. Denotando $\Lambda=\textrm{diag}(\lambda_1,...,\lambda_n)$, se tiene que:
Descomposición en valores singulares Para una matriz dada $A$ de dimensiones $m\times n$, la descomposición en valores singulares (SVD, por sus siglas en inglés de Singular-Value Decomposition) es una técnica de factorización que garantiza la existencia de las matrices $U$ $m\times m$ unitaria, $\Sigma$ $m\times n$ diagonal y $V$ $n\times n$ unitaria, tal que:
Cálculo de matrices
Gradiente Sea $f:\mathbb{R}^{m\times n}\rightarrow\mathbb{R}$ una función y $A\in\mathbb{R}^{m\times n}$ una matriz. El gradiente de $f$ con respecto a $A$ es una matriz de $m\times n$, denotada por $\nabla_A f(A)$, tal que:
Observación: el gradiente de $f$ se define únicamente cuando $f$ es una función que retorna un escalar.
Hessiana Sea $f:\mathbb{R}^{n}\rightarrow\mathbb{R}$ una función y $x\in\mathbb{R}^{n}$ un vector. La hessiana de $f$ con recpecto a $x$ es una matriz simétrica $n\times n$, denotada $\nabla_x^2 f(x)$, tal que:
Observación: la matriz hessiana de $f$ se define únicamente cuando $f$ es una función que devuelve un escalar.
Operaciones de gradiente Dadas las matrices $A,B,C$, las siguientes propiedades de gradiente merecen ser tenidas en cuenta: