4.3 Matriz de Confusión Multiclase
Introducción
Un breve demo interactivo a continuación te ayuda a explorar los errores típicos que comete el clasificador de triaje de Minermont y cómo esos errores afectan las métricas por clase. El sistema debe asignar cada caso entrante a una de tres colas: Urgencias, Consulta médica o Seguimiento. Genera matrices con distintas precisiones y observa qué categorías se confunden con mayor frecuencia.
Actividad
Clasificador de triaje: Urgencias · Consulta médica · Seguimiento
¿Qué es una matriz de confusión?
La matriz de confusión es una tabla que compara las predicciones del modelo con la realidad. Para un clasificador de $K$ clases, es una matriz $C \in \mathbb{R}^{K \times K}$ donde:
$$ C_{ij} = |\{ n : y_n = i, \; \hat{y}_n = j \}| $$Cada elemento $C_{ij}$ cuenta cuántas veces una muestra de la clase real $i$ fue predicha como clase $j$.
- Diagonal principal ($C_{ii}$): Predicciones correctas para cada clase
- Fuera de la diagonal: Confusiones entre clases
Exploración interactiva
Utiliza la herramienta siguiente para:
- Generar matrices con diferentes niveles de precisión
- Seleccionar una clase para ver sus métricas específicas (VP, FP, FN, VN, Precisión, Recall, F1)
- Destacar componentes en la matriz para visualizar de dónde vienen los cálculos
- Ver detalles haciendo clic en el icono ⓘ de cada métrica
Matriz de Confusión Multiclase
Explora cómo se evalúa el clasificador de triaje de Minermont. Genera matrices simuladas para las categorías Urgencias, Consulta médica y Seguimiento, y observa cómo se calculan las métricas por clase.
Configuración
Matriz de Confusión
Métricas y Cálculos Detallados
VP
FP
FN
VN
Precisión
Recall
F1-Score
Métricas Globales
Métricas globales: Macro promediado
Para evaluar el rendimiento general del sistema de triaje, el equipo de Minermont calcula promedios de las métricas por clase:
Precisión Macro
$$ \mathrm{Precisión}_\text{macro} = \frac{1}{K} \sum_{k=1}^K \mathrm{Precisión}_k $$Recall Macro
$$ \mathrm{Recall}_\text{macro} = \frac{1}{K} \sum_{k=1}^K \mathrm{Recall}_k $$F1-Score Macro
$$ \mathrm{F1}_\text{macro} = \frac{1}{K} \sum_{k=1}^K \mathrm{F1}_k $$¿Macro o Micro?
- Macro promediado: Da igual peso a cada clase, útil para no descuidar clases minoritarias o raras.
- Micro promediado: Agrega todas las decisiones antes de calcular, favoreciendo a clases más frecuentes.
En muchos contextos operativos, el macro promediado es preferible cuando no quieres que las clases menos frecuentes queden ocultas en los promedios.
Interpretando confusiones
Cuando observas la matriz de confusión, busca:
- Diagonal fuerte: Valores altos en la diagonal indican buenas predicciones
- Patrones de confusión: ¿Qué clases se confunden entre sí?
- Asimetrías: ¿La confusión es bidireccional o unidireccional?
Ejemplo: Si muchos casos de Consulta médica se clasifican como Urgencias pero no al revés, puede indicar que la descripción del paciente usa lenguaje de urgencia sin serlo; el modelo necesita características más discriminantes para distinguir esas dos colas.
Decisiones basadas en métricas
Los equipos usan estas métricas para:
- Ajustar umbrales de decisión por clase
- Identificar clases problemáticas que necesitan más datos o mejores características
- Balancear trade-offs entre precisión y recall según el costo operativo de cada tipo de error
- Justificar el modelo ante interesados con evidencia cuantitativa
Conexión con ROC/AUC
La matriz de confusión captura el rendimiento en un punto de decisión específico. Para explorar cómo varían las métricas al ajustar umbrales de confianza, también podemos utilizar curvas ROC multiclase, extendiendo el análisis binario mediante estrategias uno-contra-resto o uno-contra-uno.
Referencias complementarias
- Álgebra de métricas de evaluación: Derivaciones matemáticas completas de todas las métricas presentadas aquí.
- Estrategias multiclase: Cómo extender clasificadores binarios a problemas multiclase.
Práctica operativa
En Minermont, Teresa y Javier revisan la matriz de confusión semanalmente. La usan para detectar confusiones sistemáticas (por ejemplo, casos de Seguimiento enrutados a Urgencias) y mejorar las guías de etiquetado y la recolección de señales para que el modelo tenga entradas más claras.