Máquina de Aprendizaje de Cajas de Cerillas
Image generated by Nano Banana (Gemini)

1.4 Juego Interactivo: El Ratón y el Queso (Aprendizaje por Refuerzo)

Introducción

El Aprendizaje por Refuerzo (Reinforcement Learning) es un tipo de IA que aprende a tomar decisiones mediante prueba y error, de forma similar a como un animal aprende a navegar un laberinto para encontrar comida. El "agente" (nuestro ratón) explora un entorno y recibe "recompensas" por las acciones que lo acercan a su objetivo.

🔬

Actividad

Investigación Principiante
🧭 Contexto
El ratón debe aprender a encontrar el queso en un tablero. Para ello, el ratón debe elegir una secuencia de acciones para alcanzar un objetivo, navegando por un espacio de posibles estados. Las acciones que llevan al éxito se refuerzan positivamente, volviéndose más probables en el futuro. El entrenamiento extensivo permite encontrar estrategias consistentemente efectivas y robustas.
💡 Qué observar
El ratón explora diferentes estrategias, centrándose en las acciones que hacen conseguir queso. Cuando una secuencia lleva al éxito, esa ruta se refuerza positivamente. Con el tiempo, aprende la estrategia más eficiente.
El Aprendizaje por Refuerzo permite que la IA descubra por sí misma las mejores estrategias sin necesidad de ejemplos previos etiquetados, solo mediante la experiencia y el feedback del entorno.

¿Cómo funciona esta herramienta?

  1. 🐭 Objetivo: El ratón debe encontrar el queso (🧀) en el tablero.
  2. 🎮 Mecánica: El ratón aprende mediante refuerzo positivo (encuentra queso) y negativo (cae en trampa).
  3. 📊 Aprendizaje: Los valores en la tabla muestran la "preferencia" del ratón por cada acción (⬆️ ⬇️ ⬅️ ➡️) desde cada casilla. Valores más altos = mayor probabilidad de elegir esa acción.
  4. Entrenamiento: Cada partida actualiza estos valores. Después de muchas partidas, el ratón aprende el camino óptimo.

Controles y Configuración

Juego del Ratón y el Queso

Valores de Acción por Casilla

Conceptos Teóricos Fundamentales

Elementos del Aprendizaje por Refuerzo

Componentes Básicos
  • Agente: El ratón que toma decisiones
  • Entorno: El tablero con casillas, queso y trampas
  • Estados: Cada posición (fila, columna) en el tablero
  • Acciones: Movimientos posibles (↑↓←→)
  • Recompensas: Feedback positivo (queso) o negativo (trampa)
  • Política: La estrategia aprendida para elegir acciones

Metodología de Aprendizaje

Proceso de Refuerzo
  1. Exploración inicial: El agente toma acciones semi-aleatorias basadas en probabilidades equiprobables
  2. Experiencia: Cada trayectoria genera una secuencia estado-acción-recompensa
  3. Actualización: Las acciones exitosas incrementan su probabilidad de selección
  4. Convergencia: Gradualmente, emerge una política óptima

Entrenamiento por Bloques: Robustez Estadística

¿Por Qué Entrenar en Bloques Independientes?

El entrenamiento por bloques (10 experimentos × 100 partidas) simula un proceso científico riguroso:

  • Validación cruzada: Cada bloque es un experimento independiente que debe llegar a conclusiones similares
  • Reducción de varianza: Múltiples experimentos minimizan el efecto de la aleatoriedad inicial
  • Convergencia robusta: Asegura que el aprendizaje no depende de condiciones iniciales específicas
  • Agregación de conocimiento: El resultado final combina el aprendizaje de múltiples "agentes virtuales"

Aplicaciones en el Mundo Real

Este tipo de aprendizaje por refuerzo tiene aplicaciones directas en:

  • Medicina personalizada: Optimización de protocolos de tratamiento
  • Robótica: Navegación autónoma en entornos complejos
  • Finanzas: Estrategias de trading adaptativas
  • Juegos: Desarrollo de IA que supera a jugadores humanos (AlphaGo, OpenAI Five)

Materiales de Actividad Imprimibles

Descargar Versión PDF

📄 Descargar El Juego del Ratón y el Queso (PDF)

Esta versión imprimible contiene todos los materiales que necesitas para realizar esta actividad de aprendizaje por refuerzo sin conexión. Perfecta para talleres, aulas o demostraciones prácticas donde los participantes pueden experimentar físicamente cómo los agentes de IA aprenden mediante prueba y error.

27 oct. 2023