8.1 Cuando las máquinas aprenden de nuestras preferencias (RLHF)

Introducción

Una vez que un modelo de lenguaje ha sido entrenado para predecir texto, todavía necesita un ajuste final. Este ajuste no consiste en corregir errores factuales, sino en reforzar el tipo de respuestas que los usuarios prefieren.

🏢

Actividad

Ajuste por Preferencias Humanas

El ajuste por preferencias humanas permite que un modelo aprenda qué estilo, tono y nivel de detalle son más apropiados, sin necesidad de definir reglas explícitas.

Cómo explorarlo

  1. 📋 Se muestra una pregunta realista.
  2. 🔄 Se presentan dos respuestas plausibles generadas por el modelo.
  3. 👆 Tú eliges la respuesta que prefieres.
  4. 🧠 La red ajusta sus valores internos según tu preferencia.
  5. 📊 Tras varias elecciones, las respuestas se adaptan a tu estilo preferido.
Qué observar: El modelo genera múltiples respuestas posibles. Los evaluadores humanos indican cuál prefieren. Con cada preferencia, el modelo aprende a generar respuestas más alineadas con las expectativas de los usuarios.

Demostración Interactiva

Entrenador por Preferencias Humanas

Ronda 1 / 8

🧠 Modelo Interno

Débil
Neutro
Fuerte
Criterios Reforzados
💡 Claridad
0
⚠️ Prudencia
0
✂️ Concisión
0
❤️ Cercanía
0

💬 Pregunta del Usuario

🤖 Respuestas Generadas

Elige la respuesta que prefieres:

A
B

Conceptos Fundamentales

¿Cómo Funciona el Ajuste por Preferencias?

El modelo aprende de las elecciones humanas:

  1. Generación: El modelo produce varias respuestas posibles
  2. Comparación: Se presentan dos opciones al evaluador humano
  3. Preferencia: El humano indica cuál respuesta es mejor
  4. Refuerzo: Los valores internos se ajustan para favorecer respuestas similares
  5. Adaptación: Con muchas preferencias, el modelo converge hacia un estilo deseado
Criterios que se Refuerzan

Las preferencias pueden reforzar distintos aspectos:

  • Claridad: Respuestas fáciles de entender
  • Prudencia: Respuestas que reconocen limitaciones
  • Concisión: Respuestas directas y sin rodeos
  • Cercanía: Tono amable y empático
Importante

El modelo no aprende nuevos hechos mediante este proceso. Aprende qué tipo de respuestas son preferidas por los usuarios. Esto es fundamental para alinear el comportamiento del modelo con las expectativas humanas.

22 ene. 2024