title: "4.2 Enrutamiento automático de tickets: Árboles de decisión" description: "Visualización interactiva de cómo un árbol de decisión construye reglas para clasificar, inspirado en el juego 'Quién es Quién'." weight: 12 draft: false slug: "arbol-decision-triaje"
Introducción
Un Árbol de Decisión es un modelo predictivo que aprende una serie de reglas simples, similares a un diagrama de flujo, para llegar a una conclusión. Al igual que en el juego 'Quién es Quién', el algoritmo busca la secuencia de preguntas más eficiente para clasificar un caso con la menor cantidad de pasos posible.
Actividad
Visualizador de Árbol de Decisión: ¿Qué Perfil Es?
Cómo explorarlo
- Define el Conjunto de Casos: Elige el conjunto de casos que el modelo debe aprender a diferenciar. Cada uno tiene un perfil único con distintos atributos.
- Construye el Protocolo de Preguntas: Pulsa 'Entrenar Árbol'. El algoritmo encontrará la secuencia de preguntas más eficiente, colocando la que mejor distingue en la raíz del árbol.
- Sigue la Ruta de Identificación: Explora el árbol generado. Cada nodo es una pregunta de sí/no sobre una característica. Sigue las respuestas para ver cómo el modelo te guía hasta identificar el perfil correcto.
Demostración Interactiva
Constructor de Árboles de Decisión
Paso 1: Selecciona los personajes (entre 2 y 49)
Características de los personajes
Cada personaje se define por un conjunto de características. Algunas son binarias (con respuestas 'Sí' o 'No'), mientras que otras son categóricas (con múltiples valores posibles). El algoritmo utiliza estas características para encontrar las preguntas más eficientes.
Árbol de Decisión Completo
Detalles de la decisión
¿Cómo funciona el algoritmo?
El árbol se construye usando un algoritmo de "Divide y vencerás". En cada paso, el sistema evalúa todas las preguntas posibles y elige la que mejor divide al grupo actual de personajes.
- Modo Normal: Prioriza la pregunta que crea el mayor número de subgrupos. Como desempate, elige la que produce el subgrupo más pequeño.
- Modo Sí/No: Selecciona la pregunta que genera una partición más equilibrada, minimizando la diferencia de tamaño entre el grupo "Sí" y el "No".
El árbol se está construyendo... o haz clic en un nodo de pregunta para ver sus cálculos.
Conceptos Fundamentales
¿Cómo Construye las Preguntas?
División Óptima
En cada nodo del árbol, el algoritmo busca la pregunta que mejor separe los datos en grupos más "puros" (homogéneos). Esto se mide usando métricas como:
- Entropía: Mide el desorden en los datos
- Índice de Gini: Probabilidad de clasificar incorrectamente
- Ganancia de información: Cuánto reduce la incertidumbre una pregunta
Ventajas y Limitaciones
Interpretabilidad
Ventajas principales:
- Fáciles de interpretar y explicar
- No requieren normalización de datos
- Manejan tanto variables numéricas como categóricas
- Pueden modelar relaciones no lineales
Limitaciones importantes:
- Propensos al sobreajuste con datos complejos
- Inestables (pequeños cambios pueden generar árboles muy diferentes)
- Pueden crear sesgos hacia variables con más niveles
Prevención del Sobreajuste
Para evitar que el árbol memorice los datos de entrenamiento:
- Poda: Eliminar ramas que no mejoran la generalización
- Profundidad máxima: Limitar cuántos niveles puede tener
- Mínimo de muestras: Requerir un número mínimo de casos por hoja