8.1 Cuando las máquinas aprenden de nuestras preferencias (RLHF)

Introducción

Una vez que un modelo de lenguaje ha sido entrenado para predecir texto, todavía necesita un ajuste final. Este ajuste no consiste en corregir errores factuales, sino en reforzar el tipo de respuestas que los usuarios prefieren.

🏢

Actividad

Ajuste por Preferencias Humanas

El ajuste por preferencias humanas permite que un modelo aprenda qué estilo, tono y nivel de detalle son más apropiados, sin necesidad de definir reglas explícitas.

Cómo explorarlo

📋 Se muestra una pregunta realista.
🔄 Se presentan dos respuestas plausibles generadas por el modelo.
👆 Tú eliges la respuesta que prefieres.
🧠 La red ajusta sus valores internos según tu preferencia.
📊 Tras varias elecciones, las respuestas se adaptan a tu estilo preferido.

Qué observar: El modelo genera múltiples respuestas posibles. Los evaluadores humanos indican cuál prefieren. Con cada preferencia, el modelo aprende a generar respuestas más alineadas con las expectativas de los usuarios.

Demostración Interactiva

Entrenador por Preferencias Humanas

Ronda 1 / 8

🧠 Modelo Interno

Débil

Neutro

Fuerte

Criterios Reforzados

💡 Claridad

⚠️ Prudencia

✂️ Concisión

❤️ Cercanía

💬 Pregunta del Usuario

🤖 Respuestas Generadas

Elige la respuesta que prefieres:

Conceptos Fundamentales

¿Cómo Funciona el Ajuste por Preferencias?

El modelo aprende de las elecciones humanas:

Generación: El modelo produce varias respuestas posibles
Comparación: Se presentan dos opciones al evaluador humano
Preferencia: El humano indica cuál respuesta es mejor
Refuerzo: Los valores internos se ajustan para favorecer respuestas similares
Adaptación: Con muchas preferencias, el modelo converge hacia un estilo deseado

Criterios que se Refuerzan

Las preferencias pueden reforzar distintos aspectos:

Claridad: Respuestas fáciles de entender
Prudencia: Respuestas que reconocen limitaciones
Concisión: Respuestas directas y sin rodeos
Cercanía: Tono amable y empático

Importante

El modelo no aprende nuevos hechos mediante este proceso. Aprende qué tipo de respuestas son preferidas por los usuarios. Esto es fundamental para alinear el comportamiento del modelo con las expectativas humanas.