title: "4.2 Enrutamiento automático de tickets: Árboles de decisión" description: "Visualización interactiva de cómo un árbol de decisión construye reglas para clasificar, inspirado en el juego 'Quién es Quién'." weight: 12 draft: false slug: "arbol-decision-triaje"

Introducción

Un Árbol de Decisión es un modelo predictivo que aprende una serie de reglas simples, similares a un diagrama de flujo, para llegar a una conclusión. Al igual que en el juego 'Quién es Quién', el algoritmo busca la secuencia de preguntas más eficiente para clasificar un caso con la menor cantidad de pasos posible.

🏢

Actividad

Visualizador de Árbol de Decisión: ¿Qué Perfil Es?

Un Árbol de Decisión es un modelo que crea una secuencia de preguntas para llegar a una conclusión, funcionando como un juego de '¿Qué Perfil Es?'. Su gran ventaja es la interpretabilidad: cada decisión se puede explicar paso a paso.

Cómo explorarlo

  1. Define el Conjunto de Casos: Elige el conjunto de casos que el modelo debe aprender a diferenciar. Cada uno tiene un perfil único con distintos atributos.
  2. Construye el Protocolo de Preguntas: Pulsa 'Entrenar Árbol'. El algoritmo encontrará la secuencia de preguntas más eficiente, colocando la que mejor distingue en la raíz del árbol.
  3. Sigue la Ruta de Identificación: Explora el árbol generado. Cada nodo es una pregunta de sí/no sobre una característica. Sigue las respuestas para ver cómo el modelo te guía hasta identificar el perfil correcto.
Qué observar: Un Árbol de Decisión construye un 'protocolo de preguntas' claro. Aprende qué características son más distintivas para categorizar casos, permitiendo tomar decisiones rápidas y fundamentadas siguiendo un camino explicable.

Demostración Interactiva

Constructor de Árboles de Decisión

Paso 1: Selecciona los personajes (entre 2 y 49)

Características de los personajes

Cada personaje se define por un conjunto de características. Algunas son binarias (con respuestas 'Sí' o 'No'), mientras que otras son categóricas (con múltiples valores posibles). El algoritmo utiliza estas características para encontrar las preguntas más eficientes.

Conceptos Fundamentales

¿Cómo Construye las Preguntas?

División Óptima

En cada nodo del árbol, el algoritmo busca la pregunta que mejor separe los datos en grupos más "puros" (homogéneos). Esto se mide usando métricas como:

  • Entropía: Mide el desorden en los datos
  • Índice de Gini: Probabilidad de clasificar incorrectamente
  • Ganancia de información: Cuánto reduce la incertidumbre una pregunta

Ventajas y Limitaciones

Interpretabilidad

Ventajas principales:

  • Fáciles de interpretar y explicar
  • No requieren normalización de datos
  • Manejan tanto variables numéricas como categóricas
  • Pueden modelar relaciones no lineales

Limitaciones importantes:

  • Propensos al sobreajuste con datos complejos
  • Inestables (pequeños cambios pueden generar árboles muy diferentes)
  • Pueden crear sesgos hacia variables con más niveles
Prevención del Sobreajuste

Para evitar que el árbol memorice los datos de entrenamiento:

  • Poda: Eliminar ramas que no mejoran la generalización
  • Profundidad máxima: Limitar cuántos niveles puede tener
  • Mínimo de muestras: Requerir un número mínimo de casos por hoja