Hoja de referencia de consejos y trucos sobre Aprendizaje Automático

Traducido por David Jiménez Paredes y Fernando Diaz

Revisado por Gustavo Velasco-Hernández y Alonso Melgar-Lopez

Métricas para clasificación

En el contexto de una clasificación binaria, estas son las principales métricas que son importantes seguir para evaluar el rendimiento del modelo.

Matriz de confusión La matriz de confusión (en inglés, Confusion matrix) se utiliza para tener una visión más completa al evaluar el rendimiento de un modelo. Se define de la siguiente manera:

		Clase predicha
		+	-
Clase real	+	TP True Positives	FN False Negatives Type II error
Clase real	-	FP False Positives Type I error	TN True Negatives

Métricas principales Las siguientes métricas se utilizan comúnmente para evaluar el rendimiento de los modelos de clasificación:

Métrica	Fórmula	Interpretación
Exactitud	$\displaystyle\frac{\textrm{TP}+\textrm{TN}}{\textrm{TP}+\textrm{TN}+\textrm{FP}+\textrm{FN}}$	Rendimiento general del modelo
Precisión	$\displaystyle\frac{\textrm{TP}}{\textrm{TP}+\textrm{FP}}$	Que tan precisas son las predicciones positivas
Exhaustividad Sensibilidad	$\displaystyle\frac{\textrm{TP}}{\textrm{TP}+\textrm{FN}}$	Cobertura de la muestra positiva real
Especificidad	$\displaystyle\frac{\textrm{TN}}{\textrm{TN}+\textrm{FP}}$	Cobertura de la muestra negativa real
F1 score	$\displaystyle\frac{2\textrm{TP}}{2\textrm{TP}+\textrm{FP}+\textrm{FN}}$	Métrica híbrida útil para clases desbalanceadas

ROC La curva Característica Operativa del Receptor (en inglés, Receiver Operating Curve), también conocida como ROC, es una representación gráfica de la sensibilidad frente a la especificidad según se varía el umbral. Estas métricas se resumen en la siguiente tabla:

Métrica	Fórmula	Interpretación
True Positive Rate TPR	$\displaystyle\frac{\textrm{TP}}{\textrm{TP}+\textrm{FN}}$	Exhaustividad, sensibilidad
False Positive Rate FPR	$\displaystyle\frac{\textrm{FP}}{\textrm{TN}+\textrm{FP}}$	1-especificidad

AUC El área bajo la curva Característica Operativa del Receptor, también conocida como AUC o AUROC (en inglés, Area Under the Receiving Operating Curve), es el área debajo del ROC, como se muestra en la siguiente figura:

Métricas de regresión

Métricas básicas Dado un modelo de regresión $f$, las siguientes métricas se usan comúnmente para evaluar el rendimiento del modelo:

Suma total de cuadrados	Suma de cuadrados explicada	Suma residual de cuadrados
$\displaystyle\textrm{SS}_{\textrm{tot}}=\sum_{i=1}^m(y_i-\overline{y})^2$	$\displaystyle\textrm{SS}_{\textrm{reg}}=\sum_{i=1}^m(f(x_i)-\overline{y})^2$	$\displaystyle\textrm{SS}_{\textrm{res}}=\sum_{i=1}^m(y_i-f(x_i))^2$

Coeficiente de determinación El coeficiente de determinación, a menudo indicado como $R^2$ o $r^2$, proporciona una medida de lo bien que los resultados observados son replicados por el modelo y se define de la siguiente manera:

[\boxed{R^2=1-\frac{\textrm{SS}\textrm{res}}{\textrm{SS}\textrm{tot}}}]

Métricas principales Las siguientes métricas se utilizan comúnmente para evaluar el rendimiento de los modelos de regresión, teniendo en cuenta la cantidad de variables n que tienen en consideración:

Cp de Mallow	AIC	BIC	$R^2$ ajustado
$\displaystyle\frac{\textrm{SS}_{\textrm{res}}+2(n+1)\widehat{\sigma}^2}{m}$	$\displaystyle2\Big[(n+2)-\log(L)\Big]$	$\displaystyle\log(m)(n+2)-2\log(L)$	$\displaystyle1-\frac{(1-R^2)(m-1)}{m-n-1}$

donde $L$ es la probabilidad y $\widehat{\sigma}^2$ es una estimación de la varianza asociada con cada respuesta.

Selección de modelo

Vocabulario Al seleccionar un modelo, distinguimos 3 partes diferentes de los datos que tenemos de la siguiente manera:

Conjunto de entrenamiento	Conjunto de validación	Conjunto de prueba
• Modelo es entrenado • Generalmente el 80% del conjunto de datos	• Modelo es evaluado • Generalmente el 20% del conjunto de datos • También llamado hold-out o conjunto de desarrollo	• Modelo da predicciones • Datos no vistos

Una vez que se ha elegido el modelo, se entrena sobre todo el conjunto de datos y se testea sobre el conjunto de prueba no visto. Estos están representados en la figura a continuación:

Validación cruzada La validación cruzada, también denominada CV (en inglés, Cross validation), es un método que se utiliza para seleccionar un modelo que no confíe demasiado en el conjunto de entrenamiento inicial. Los diferentes tipos se resumen en la tabla a continuación:

$k$-fold	Leave-$p$-out
• Entrenamiento sobre los conjuntos $k-1$ y evaluación en el restante • Generalmente $k=5$ o 10	• Entrenamiento en observaciones $n-p$ y evaluación en los $p$ restantes • El caso $p=1$ se llama leave-one-out

El método más comúnmente utilizado se denomina validación cruzada $k$-fold y divide los datos de entrenamiento en $k$ conjuntos para validar el modelo sobre un conjunto mientras se entrena el modelo en los otros $k-1$ conjuntos, todo esto $k$ veces. El error luego se promedia sobre los $k$ conjuntos y se denomina error de validación cruzada.

Regularización El procedimiento de regularización tiene como objetivo evitar que el modelo se sobreajuste a los datos y, por lo tanto, resuelve los problemas de alta varianza. La siguiente tabla resume los diferentes tipos de técnicas de regularización comúnmente utilizadas:

LASSO	Ridge	Elastic Net
• Reduce los coeficientes a 0 • Bueno para la selección de variables	Hace que los coeficientes sean más pequeños	Compensación entre la selección de variables y los coeficientes pequeños

$...+\lambda\|\|\theta\|\|_1$ $\lambda\in\mathbb{R}$	$...+\lambda\|\|\theta\|\|_2^2$ $\lambda\in\mathbb{R}$	$...+\lambda\Big[(1-\alpha)\|\|\theta\|\|_1+\alpha\|\|\theta\|\|_2^2\Big]$ $\lambda\in\mathbb{R},\alpha\in[0,1]$

Diagnóstico

Sesgo El sesgo (en inglés, Bias) de un modelo es la diferencia entre la predicción esperada y el modelo correcto que tratamos de predecir para determinados puntos de datos.

Varianza La varianza (en inglés, Variance) de un modelo es la variabilidad de la predicción del modelo para puntos de datos dados.

Compensación sesgo/varianza Cuanto más simple es el modelo, mayor es el sesgo, y cuanto más complejo es el modelo, mayor es la varianza.

	Underfitting	Just right	Overfitting
Síntomas	• Error de entrenamiento alto • Error de entrenamiento cercano al error de prueba • Sesgo alto	• Error de entrenamiento ligeramente inferior al error de prueba	• Error de entrenamiento muy bajo • Error de entrenamiento mucho más bajo que el error de prueba • Varianza alta
Ejemplo de regresión
Ejemplo de clasificación
Ejemplo de aprendizaje profundo
Posibles soluciones	• Incrementar la complejidad del modelo • Agregar más funciones • Entrenar más tiempo		• Realizar la regularización • Obtener más datos

Análisis de errores El análisis de errores analiza la causa raíz de la diferencia de rendimiento entre los modelos actuales y perfectos.

Análisis ablativo El análisis ablativo analiza la causa raíz de la diferencia en el rendimiento entre los modelos actuales y de referencia.