4.2 Bosques Aleatorios: La Sabiduría de Múltiples Árboles

Introducción

Un Bosque Aleatorio (Random Forest) es un conjunto de múltiples árboles de decisión que trabajan juntos para tomar una decisión. Cada árbol se entrena con una muestra aleatoria diferente de los datos, y la predicción final se obtiene por votación mayoritaria.

🏢

Actividad

Constructor de Bosques Aleatorios

Cómo explorarlo

  1. Configura el Bosque: Ajusta el número de árboles, la profundidad máxima y el porcentaje de características por división.
  2. Genera los Datos: Pulsa «Generar Datos de Ejemplo» para crear el conjunto de entrenamiento.
  3. Entrena el Bosque: Pulsa «Entrenar Bosque» y observa cómo cada árbol se entrena con una muestra bootstrap distinta.
  4. Analiza los Resultados: Revisa la precisión del bosque y las métricas de validación.
Qué observar: Random Forest mejora la precisión y reduce el sobreajuste al combinar predicciones de múltiples árboles. Cada árbol ve una muestra diferente de datos y un subconjunto de características, lo que hace al bosque más robusto ante entradas nuevas.

Demostración Interactiva

Constructor de Bosques Aleatorios

Configuración

Métricas

Votos del bosque

Haz clic en el gráfico

Frontera de Decisión del Bosque

Árboles individuales

Conceptos Fundamentales

Proceso de Construcción

Un Random Forest se construye en tres pasos principales:

  1. Bootstrap Sampling: Para cada árbol, se toma una muestra aleatoria con reemplazo del conjunto de entrenamiento.
  2. Random Feature Selection: En cada nodo solo se considera un subconjunto aleatorio de características (típicamente $\sqrt{n}$ para clasificación).
  3. Votación Mayoritaria: La clase más votada entre todos los árboles es la predicción final.
Fortalezas del Bosque
  • Reduce el sobreajuste: El promedio de muchos árboles generaliza mejor que uno solo.
  • Robusto a valores atípicos: La votación mayoritaria amortigua los errores individuales.
  • Estima importancia de características: Mide qué variables son más predictivas.
  • Funciona bien sin mucho ajuste: Menos hiperparámetros críticos que optimizar.
Nota Práctica

Random Forest consume más memoria y tiempo de cómputo que un árbol único. En sistemas con requisitos estrictos de latencia puede ser necesario balancear precisión con velocidad de respuesta.