CS 229 - Aprendizaje automático

Repaso de Álgebra Lineal y Cálculo
Star

Contenido original por Afshine Amidi y Shervine Amidi
Traducido por Fernando González-Herrera. Revisado por Fernando Diaz, Gustavo Velasco-Hernández y Juan P. Chavat.

Notaciones Generales

Definiciones

Vector Sea $x\in\mathbb{R}^n$ un vector con $n$ entradas, donde $x_i\in\mathbb{R}$ es la $i$-ésima entrada:

\[x=\left(\begin{array}{c}x_1\\x_2\\\vdots\\x_n\end{array}\right)\in\mathbb{R}^n\]

Matriz Sea $A\in\mathbb{R}^{m\times n}$ una matriz con $m$ filas y $n$ columnas; donde $A_{i,j}\in\mathbb{R}$ es el valor ubicado en la $i$-ésima fila y la $j$-ésima columna:

\[A=\left(\begin{array}{ccc}A_{1,1}& \cdots&A_{1,n}\\\vdots&& \vdots\\A_{m,1}& \cdots&A_{m,n}\end{array}\right)\in\mathbb{R}^{m\times n}\]

Observación: el vector $x$ definido arriba puede ser visto como una matriz $n\times1$ y es particularmente llamado vector-columna.


Matrices principales

Matriz identidad La matriz identidad $I\in\mathbb{R}^{n\times n}$ es una matriz cuadrada con valores 1 en su diagonal y ceros en el resto:

\[I=\left(\begin{array}{cccc}1&0& \cdots&0\\0& \ddots& \ddots& \vdots\\\vdots& \ddots& \ddots&0\\0& \cdots&0&1\end{array}\right)\]

Observación: para todas las matrices $A\in\mathbb{R}^{n\times n}$, se cumple que $A\times I=I\times A=A$.


Matriz diagonal Una matriz diagonal $D\in\mathbb{R}^{n\times n}$ es una matriz cuadrada con valores diferentes de zero en su diagonal y cero en el resto:

\[D=\left(\begin{array}{cccc}d_1&0& \cdots&0\\0& \ddots& \ddots& \vdots\\\vdots& \ddots& \ddots&0\\0& \cdots&0&d_n\end{array}\right)\]

Observación: también se denota $D$ como $\textrm{diag}(d_1,...,d_n)$.


Operaciones de matrices

Multiplicación

Vector-vector Hay dos tipos de multiplicaciones vector-vector:

- Producto interno: para $x,y\in\mathbb{R}^n$, se tiene que:

\[\boxed{x^Ty=\sum_{i=1}^nx_iy_i\in\mathbb{R}}\]

- Producto diádico : para $x\in\mathbb{R}^m, y\in\mathbb{R}^n$, se tiene que:

\[\boxed{xy^T=\left(\begin{array}{ccc}x_1y_1& \cdots&x_1y_n\\\vdots&& \vdots\\x_my_1& \cdots&x_my_n\end{array}\right)\in\mathbb{R}^{m\times n}}\]

Matriz-vector El producto de la matriz $A\in\mathbb{R}^{m\times n}$ y el vector $x\in\mathbb{R}^{n}$, es un vector de tamaño $\mathbb{R}^{m}$; tal que:

\[\boxed{Ax=\left(\begin{array}{c}a_{r,1}^Tx\\\vdots\\a_{r,m}^Tx\end{array}\right)=\sum_{i=1}^na_{c,i}x_{i}\in\mathbb{R}^{m}}\]
donde $a_{r,i}^T$ son los vectores fila y $a_{c,j}$ son los vectores columna de $A$, y $x_i$ son las entradas de $x$.


Matriz-matriz El producto de las matrices $A\in\mathbb{R}^{m\times n}$ y $B\in\mathbb{R}^{n\times p}$ es una matriz de tamaño $\mathbb{R}^{m\times p}$, tal que:

\[\boxed{AB=\left(\begin{array}{ccc}a_{r,1}^Tb_{c,1}& \cdots&a_{r,1}^Tb_{c,p}\\\vdots&& \vdots\\a_{r,m}^Tb_{c,1}& \cdots&a_{r,m}^Tb_{c,p}\end{array}\right)=\sum_{i=1}^na_{c,i}b_{r,i}^T\in\mathbb{R}^{m\times p}}\]
donde $a_{r,i}^T, b_{r,i}^T$ son los vectores fila y $a_{c,j}, b_{c,j}$ son los vectores columna de $A$ y $B$ respectivamente.


Otras operaciones

Transpuesta La transpuesta de una matriz $A\in\mathbb{R}^{m\times n}$, denotada $A^T$, es tal que sus entradas se intercambian de la siguiente forma:

\[\boxed{\forall i,j,\quad\quad A_{i,j}^T=A_{j,i}}\]

Observación: dadas las matrices $A,B$, se cumple que $(AB)^T=B^TA^T$.


Inversa La inversa de una matriz cuadrada invertible $A$ es denotada como $A^{−1}$ y es la única matriz tal que:

\[\boxed{AA^{-1}=A^{-1}A=I}\]

Observación: no todas las matrices cuadradas son invertibles. Además, para las matrices $A,B$, se cumple que $(AB)^{-1}=B^{-1}A^{-1}$.


Traza La traza de una matriz cuadrada $A$, denotada $\textrm{tr}(A)$, es la suma de los elementos en su diagonal:

\[\boxed{\textrm{tr}(A)=\sum_{i=1}^nA_{i,i}}\]

Observación: dadas las matrices $A,B$, se cumple que $\textrm{tr}(A^T)=\textrm{tr}(A)$ y $\textrm{tr}(AB)=\textrm{tr}(BA)$.


Determinante El determinante de una matriz cuadrada $A\in\mathbb{R}^{n\times n}$, denotado $|A|$ o $\textrm{det}(A)$, es expresado recursivamente en términos de $A_{\backslash i, \backslash j}$, que es la matriz $A$ sin su $i$-ésima fila ni su $j$-ésima columna, de la siguiente forma:

\[\boxed{\textrm{det}(A)=|A|=\sum_{j=1}^n(-1)^{i+j}A_{i,j}|A_{\backslash i,\backslash j}|}\]

Observación: $A$ es invertible si y solo si $|A|\neq0$. Además, $|AB|=|A||B|$ y $|A^T|=|A|$.


Propiedades de matrices

Definiciones

Descomposición simétrica Una matriz dada $A$ puede ser expresada en términos de sus partes simétricas y antisimétricas de la siguiente forma:

\[\boxed{A=\underbrace{\frac{A+A^T}{2}}_{\textrm{Simétrica}}+\underbrace{\frac{A-A^T}{2}}_{\textrm{Antisimétricas}}}\]

Norma Una norma (o módulo) es una función $N:V\longrightarrow[0,+\infty[$ donde $V$ es un vector espacial tal que para todo $x,y\in V$, se cumple que:

- $N(x+y)\leqslant N(x)+N(y)$
- $N(ax)=|a|N(x)$ siendo $a$ un escalar
- si $N(x)=0$, entonces $x=0$

Para $x\in V$, las normas comúnmente utilizadas se resumen en la siguiente tabla:

Norma Notación Definición Caso de uso
Manhattan, $L^1$ $||x||_1$ $\displaystyle\sum_{i=1}^n|x_i|$ LASSO
Euclidean, $L^2$ $||x||_2$ $\displaystyle\sqrt{\sum_{i=1}^nx_i^2}$ Ridge
$p$-norma, $L^p$ $||x||_p$ $\displaystyle\left(\sum_{i=1}^nx_i^p\right)^{\frac{1}{p}}$ Desigualdad de Hölder
Infinito, $L^{\infty}$ $||x||_{\infty}$ $\underset{i}{\textrm{max }}|x_i|$ Convergencia

Dependencia lineal Un conjunto de vectores se dice que es linealmente dependiente si uno de los vectores del conjunto puede ser definido como una combinación lineal de los restantes.

Observación: si ningún vector puede ser escrito de esta forma, entonces se dice que los vectores son linealmente independientes.


Rango matricial El rango de una matriz dada $A$ es denotado $\textrm{rank}(A)$ y es la dimensión del espacio vectorial generado por sus columnas. Esto es equivalente al máximo número de columnas linealmente independientes de $A$.


Matriz semi-definida positiva Una matriz $A\in\mathbb{R}^{n\times n}$ es semi-defininda positiva (PSD), lo cual se denota como $A\succeq 0$, si se cumple que:

\[\boxed{A=A^T}\quad\textrm{ y }\quad\boxed{\forall x\in\mathbb{R}^n,\quad x^TAx\geqslant0}\]

Observación: de igual forma, una matriz $A$ se dice definida positiva, lo cual se denota con $A\succ0$, si es una matriz PSD que satisface para todos los vectores $x$ diferentes de cero, $x^TAx>0$.


Valor propio, vector propio Dada una matriz $A\in\mathbb{R}^{n\times n}$, $\lambda$ se dice que es un valor propio (eigenvalue, en inglés) de $A$ si existe un vector $z\in\mathbb{R}^n\backslash\{0\}$, llamado vector propio (eigenvector, en inglés), tal que:

\[\boxed{Az=\lambda z}\]

Teorema espectral Sea $A\in\mathbb{R}^{n\times n}$. Si $A$ es simétrica, entonces $A$ es diagonalizable a través de una matriz real ortogonal $U\in\mathbb{R}^{n\times n}$. Denotando $\Lambda=\textrm{diag}(\lambda_1,...,\lambda_n)$, se tiene que:

\[\boxed{\exists\Lambda\textrm{ diagonal},\quad A=U\Lambda U^T}\]

Descomposición en valores singulares Para una matriz dada $A$ de dimensiones $m\times n$, la descomposición en valores singulares (SVD, por sus siglas en inglés de Singular-Value Decomposition) es una técnica de factorización que garantiza la existencia de las matrices $U$ $m\times m$ unitaria, $\Sigma$ $m\times n$ diagonal y $V$ $n\times n$ unitaria, tal que:

\[\boxed{A=U\Sigma V^T}\]

Cálculo de matrices

Gradiente Sea $f:\mathbb{R}^{m\times n}\rightarrow\mathbb{R}$ una función y $A\in\mathbb{R}^{m\times n}$ una matriz. El gradiente de $f$ con respecto a $A$ es una matriz de $m\times n$, denotada por $\nabla_A f(A)$, tal que:

\[\boxed{\Big(\nabla_A f(A)\Big)_{i,j}=\frac{\partial f(A)}{\partial A_{i,j}}}\]

Observación: el gradiente de $f$ se define únicamente cuando $f$ es una función que retorna un escalar.


Hessiana Sea $f:\mathbb{R}^{n}\rightarrow\mathbb{R}$ una función y $x\in\mathbb{R}^{n}$ un vector. La hessiana de $f$ con recpecto a $x$ es una matriz simétrica $n\times n$, denotada $\nabla_x^2 f(x)$, tal que:

\[\boxed{\Big(\nabla_x^2 f(x)\Big)_{i,j}=\frac{\partial^2 f(x)}{\partial x_i\partial x_j}}\]

Observación: la matriz hessiana de $f$ se define únicamente cuando $f$ es una función que devuelve un escalar.


Operaciones de gradiente Dadas las matrices $A,B,C$, las siguientes propiedades de gradiente merecen ser tenidas en cuenta:

\[\boxed{\nabla_A\textrm{tr}(AB)=B^T}\quad\quad\boxed{\nabla_{A^T}f(A)=\left(\nabla_Af(A)\right)^T}\] \[\boxed{\nabla_A\textrm{tr}(ABA^TC)=CAB+C^TAB^T}\quad\quad\boxed{\nabla_A|A|=|A|(A^{-1})^T}\]