CS 229 - Machine Learning
Español


Hoja de referencia de consejos y trucos sobre Aprendizaje Automático
Star

Contenido original por Afshine Amidi y Shervine Amidi
Traducido por David Jiménez Paredes y Fernando Diaz. Revisado por Gustavo Velasco-Hernández y Alonso Melgar-Lopez.

Métricas para clasificación

En el contexto de una clasificación binaria, estas son las principales métricas que son importantes seguir para evaluar el rendimiento del modelo.

Matriz de confusión ― La matriz de confusión (en inglés, Confusion matrix) se utiliza para tener una visión más completa al evaluar el rendimiento de un modelo. Se define de la siguiente manera:

Clase predicha
+ -
Clase real + TP
True Positives
FN
False Negatives
Type II error
- FP
False Positives
Type I error
TN
True Negatives

Métricas principales ― Las siguientes métricas se utilizan comúnmente para evaluar el rendimiento de los modelos de clasificación:

Métrica Fórmula Interpretación
Exactitud $\displaystyle\frac{\textrm{TP}+\textrm{TN}}{\textrm{TP}+\textrm{TN}+\textrm{FP}+\textrm{FN}}$ Rendimiento general del modelo
Precisión $\displaystyle\frac{\textrm{TP}}{\textrm{TP}+\textrm{FP}}$ Que tan precisas son las predicciones positivas
Exhaustividad
Sensibilidad
$\displaystyle\frac{\textrm{TP}}{\textrm{TP}+\textrm{FN}}$ Cobertura de la muestra positiva real
Especificidad $\displaystyle\frac{\textrm{TN}}{\textrm{TN}+\textrm{FP}}$ Cobertura de la muestra negativa real
F1 score $\displaystyle\frac{2\textrm{TP}}{2\textrm{TP}+\textrm{FP}+\textrm{FN}}$ Métrica híbrida útil para clases desbalanceadas

ROC ― La curva Característica Operativa del Receptor (en inglés, Receiver Operating Curve), también conocida como ROC, es una representación gráfica de la sensibilidad frente a la especificidad según se varía el umbral. Estas métricas se resumen en la siguiente tabla:

Métrica Fórmula Interpretación
True Positive Rate
TPR
$\displaystyle\frac{\textrm{TP}}{\textrm{TP}+\textrm{FN}}$ Exhaustividad, sensibilidad
False Positive Rate
FPR
$\displaystyle\frac{\textrm{FP}}{\textrm{TN}+\textrm{FP}}$ 1-especificidad

AUC ― El área bajo la curva Característica Operativa del Receptor, también conocida como AUC o AUROC (en inglés, Area Under the Receiving Operating Curve), es el área debajo del ROC, como se muestra en la siguiente figura:


ROC AUC

Métricas de regresión

Métricas básicas ― Dado un modelo de regresión $f$, las siguientes métricas se usan comúnmente para evaluar el rendimiento del modelo:

Suma total de cuadrados Suma de cuadrados explicada Suma residual de cuadrados
$\displaystyle\textrm{SS}_{\textrm{tot}}=\sum_{i=1}^m(y_i-\overline{y})^2$ $\displaystyle\textrm{SS}_{\textrm{reg}}=\sum_{i=1}^m(f(x_i)-\overline{y})^2$ $\displaystyle\textrm{SS}_{\textrm{res}}=\sum_{i=1}^m(y_i-f(x_i))^2$

Coeficiente de determinación ― El coeficiente de determinación, a menudo indicado como $R^2$ o $r^2$, proporciona una medida de lo bien que los resultados observados son replicados por el modelo y se define de la siguiente manera:

\[\boxed{R^2=1-\frac{\textrm{SS}_\textrm{res}}{\textrm{SS}_\textrm{tot}}}\]

Métricas principales ― Las siguientes métricas se utilizan comúnmente para evaluar el rendimiento de los modelos de regresión, teniendo en cuenta la cantidad de variables n que tienen en consideración:

Cp de Mallow AIC BIC $R^2$ ajustado
$\displaystyle\frac{\textrm{SS}_{\textrm{res}}+2(n+1)\widehat{\sigma}^2}{m}$ $\displaystyle2\Big[(n+2)-\log(L)\Big]$ $\displaystyle\log(m)(n+2)-2\log(L)$ $\displaystyle1-\frac{(1-R^2)(m-1)}{m-n-1}$

donde $L$ es la probabilidad y $\widehat{\sigma}^2$ es una estimación de la varianza asociada con cada respuesta.


Selección de modelo

Vocabulario ― Al seleccionar un modelo, distinguimos 3 partes diferentes de los datos que tenemos de la siguiente manera:

Conjunto de entrenamiento Conjunto de validación Conjunto de prueba
• Modelo es entrenado
• Generalmente el 80% del conjunto de datos
• Modelo es evaluado
• Generalmente el 20% del conjunto de datos
• También llamado hold-out o conjunto de desarrollo
• Modelo da predicciones
• Datos no vistos

Una vez que se ha elegido el modelo, se entrena sobre todo el conjunto de datos y se testea sobre el conjunto de prueba no visto. Estos están representados en la figura a continuación:

Partition of the dataset

Validación cruzada ― La validación cruzada, también denominada CV (en inglés, Cross validation), es un método que se utiliza para seleccionar un modelo que no confíe demasiado en el conjunto de entrenamiento inicial. Los diferentes tipos se resumen en la tabla a continuación:

$k$-fold Leave-$p$-out
• Entrenamiento sobre los conjuntos $k-1$ y evaluación en el restante
• Generalmente $k=5$ o 10
• Entrenamiento en observaciones $n-p$ y evaluación en los $p$ restantes
• El caso $p=1$ se llama leave-one-out

El método más comúnmente utilizado se denomina validación cruzada $k$-fold y divide los datos de entrenamiento en $k$ conjuntos para validar el modelo sobre un conjunto mientras se entrena el modelo en los otros $k-1$ conjuntos, todo esto $k$ veces. El error luego se promedia sobre los $k$ conjuntos y se denomina error de validación cruzada.

Cross-validation

Regularización ― El procedimiento de regularización tiene como objetivo evitar que el modelo se sobreajuste a los datos y, por lo tanto, resuelve los problemas de alta varianza. La siguiente tabla resume los diferentes tipos de técnicas de regularización comúnmente utilizadas:

LASSO Ridge Elastic Net
• Reduce los coeficientes a 0
• Bueno para la selección de variables
Hace que los coeficientes sean más pequeños Compensación entre la selección de variables y los coeficientes pequeños
Lasso Ridge Elastic Net
$...+\lambda||\theta||_1$
$\lambda\in\mathbb{R}$
$...+\lambda||\theta||_2^2$
$\lambda\in\mathbb{R}$
$...+\lambda\Big[(1-\alpha)||\theta||_1+\alpha||\theta||_2^2\Big]$
$\lambda\in\mathbb{R},\alpha\in[0,1]$

Diagnóstico

Sesgo ― El sesgo (en inglés, Bias) de un modelo es la diferencia entre la predicción esperada y el modelo correcto que tratamos de predecir para determinados puntos de datos.


Varianza ― La varianza (en inglés, Variance) de un modelo es la variabilidad de la predicción del modelo para puntos de datos dados.


Corrección de sesgo/varianza ― Cuanto más simple es el modelo, mayor es el sesgo, y cuanto más complejo es el modelo, mayor es la varianza.


Underfitting Just right Overfitting
Síntomas • Error de entrenamiento alto
• Error de entrenamiento cercano al error de prueba
• Sesgo alto
• Error de entrenamiento ligeramente inferior al error de prueba • Error de entrenamiento muy bajo
• Error de entrenamiento mucho más bajo que el error de prueba
• Varianza alta
Ejemplo de regresión Underfit in regression Right fit in regression Overfit in regression
Ejemplo de clasificación Underfit in classification Right fit in classification Overfit in classification
Ejemplo de aprendizaje profundo Underfit in deep learning Right fit in deep learning Overfit in deep learning
Posibles soluciones • Incrementar la complejidad del modelo
• Agregar más funciones
• Entrenar más tiempo
• Realizar la regularización
• Obtener más datos

Análisis de errores ― El análisis de errores analiza la causa raíz de la diferencia de rendimiento entre los modelos actuales y perfectos.


Análisis ablativo ― El análisis ablativo analiza la causa raíz de la diferencia en el rendimiento entre los modelos actuales y de referencia.