4.3 Matriz de Confusión Multiclase

Introducción

Un breve demo interactivo a continuación te ayuda a explorar los errores típicos que comete el clasificador de triaje de Minermont y cómo esos errores afectan las métricas por clase. El sistema debe asignar cada caso entrante a una de tres colas: Urgencias, Consulta médica o Seguimiento. Genera matrices con distintas precisiones y observa qué categorías se confunden con mayor frecuencia.

🏢

Actividad

Clasificador de triaje: Urgencias · Consulta médica · Seguimiento

La matriz de confusión es la herramienta central para evaluar el clasificador de triaje de Minermont. Muestra todas las combinaciones de colas predichas vs. reales, permitiendo calcular métricas por clase (Precisión, Recall, F1) y entender qué tipos de errores de enrutamiento comete el modelo.

Qué observar: La matriz de confusión permite ver exactamente dónde el clasificador está cometiendo errores: qué categorías de triaje se confunden entre sí y si alguna cola es más difícil de predecir correctamente. Esto es clave para priorizar mejoras en el sistema de enrutamiento.

¿Qué es una matriz de confusión?

La matriz de confusión es una tabla que compara las predicciones del modelo con la realidad. Para un clasificador de $K$ clases, es una matriz $C \in \mathbb{R}^{K \times K}$ donde:

$$ C_{ij} = |\{ n : y_n = i, \; \hat{y}_n = j \}| $$

Cada elemento $C_{ij}$ cuenta cuántas veces una muestra de la clase real $i$ fue predicha como clase $j$.

Diagonal principal ($C_{ii}$): Predicciones correctas para cada clase
Fuera de la diagonal: Confusiones entre clases

Exploración interactiva

Utiliza la herramienta siguiente para:

Generar matrices con diferentes niveles de precisión
Seleccionar una clase para ver sus métricas específicas (VP, FP, FN, VN, Precisión, Recall, F1)
Destacar componentes en la matriz para visualizar de dónde vienen los cálculos
Ver detalles haciendo clic en el icono ⓘ de cada métrica

Matriz de Confusión Multiclase

Explora cómo se evalúa el clasificador de triaje de Minermont. Genera matrices simuladas para las categorías Urgencias, Consulta médica y Seguimiento, y observa cómo se calculan las métricas por clase.

Configuración

Precisión del modelo:

80%

Muestras por clase:

Matriz de Confusión

Seleccionar clase para análisis:

Métricas y Cálculos Detallados

Destacar en la matriz:

VP

FP

FN

VN

Precisión

0.00

Recall

0.00

F1-Score

0.00

Métricas Globales

Exactitud: 0.00

Precisión Macro: 0.00

Recall Macro: 0.00

F1 Macro: 0.00

Métricas globales: Macro promediado

Para evaluar el rendimiento general del sistema de triaje, el equipo de Minermont calcula promedios de las métricas por clase:

Precisión Macro

$$ \mathrm{Precisión}_\text{macro} = \frac{1}{K} \sum_{k=1}^K \mathrm{Precisión}_k $$

Recall Macro

$$ \mathrm{Recall}_\text{macro} = \frac{1}{K} \sum_{k=1}^K \mathrm{Recall}_k $$

F1-Score Macro

$$ \mathrm{F1}_\text{macro} = \frac{1}{K} \sum_{k=1}^K \mathrm{F1}_k $$

¿Macro o Micro?

Macro promediado: Da igual peso a cada clase, útil para no descuidar clases minoritarias o raras.
Micro promediado: Agrega todas las decisiones antes de calcular, favoreciendo a clases más frecuentes.

En muchos contextos operativos, el macro promediado es preferible cuando no quieres que las clases menos frecuentes queden ocultas en los promedios.

Interpretando confusiones

Cuando observas la matriz de confusión, busca:

Diagonal fuerte: Valores altos en la diagonal indican buenas predicciones
Patrones de confusión: ¿Qué clases se confunden entre sí?
Asimetrías: ¿La confusión es bidireccional o unidireccional?

Ejemplo: Si muchos casos de Consulta médica se clasifican como Urgencias pero no al revés, puede indicar que la descripción del paciente usa lenguaje de urgencia sin serlo; el modelo necesita características más discriminantes para distinguir esas dos colas.

Decisiones basadas en métricas

Los equipos usan estas métricas para:

Ajustar umbrales de decisión por clase
Identificar clases problemáticas que necesitan más datos o mejores características
Balancear trade-offs entre precisión y recall según el costo operativo de cada tipo de error
Justificar el modelo ante interesados con evidencia cuantitativa

Conexión con ROC/AUC

La matriz de confusión captura el rendimiento en un punto de decisión específico. Para explorar cómo varían las métricas al ajustar umbrales de confianza, también podemos utilizar curvas ROC multiclase, extendiendo el análisis binario mediante estrategias uno-contra-resto o uno-contra-uno.

Referencias complementarias

Álgebra de métricas de evaluación: Derivaciones matemáticas completas de todas las métricas presentadas aquí.
Estrategias multiclase: Cómo extender clasificadores binarios a problemas multiclase.

Práctica operativa

En Minermont, Teresa y Javier revisan la matriz de confusión semanalmente. La usan para detectar confusiones sistemáticas (por ejemplo, casos de Seguimiento enrutados a Urgencias) y mejorar las guías de etiquetado y la recolección de señales para que el modelo tenga entradas más claras.