8.1 Cuando las máquinas aprenden de nuestras preferencias (RLHF)
Introducción
Una vez que un modelo de lenguaje ha sido entrenado para predecir texto, todavía necesita un ajuste final. Este ajuste no consiste en corregir errores factuales, sino en reforzar el tipo de respuestas que los usuarios prefieren.
🏢
Actividad
Ajuste por Preferencias Humanas
El ajuste por preferencias humanas permite que un modelo aprenda qué estilo, tono y nivel de detalle son más apropiados, sin necesidad de definir reglas explícitas.
Cómo explorarlo
- 📋 Se muestra una pregunta realista.
- 🔄 Se presentan dos respuestas plausibles generadas por el modelo.
- 👆 Tú eliges la respuesta que prefieres.
- 🧠 La red ajusta sus valores internos según tu preferencia.
- 📊 Tras varias elecciones, las respuestas se adaptan a tu estilo preferido.
Qué observar:
El modelo genera múltiples respuestas posibles. Los evaluadores humanos indican cuál prefieren. Con cada preferencia, el modelo aprende a generar respuestas más alineadas con las expectativas de los usuarios.
Demostración Interactiva
Entrenador por Preferencias Humanas
Ronda
1 / 8
🧠 Modelo Interno
Débil
Neutro
Fuerte
Criterios Reforzados
Claridad0
Prudencia0
Concisión0
Cercanía0
Pregunta del Usuario
Respuestas Generadas
Elige la respuesta que prefieres:
A
B
Conceptos Fundamentales
¿Cómo Funciona el Ajuste por Preferencias?
El modelo aprende de las elecciones humanas:
- Generación: El modelo produce varias respuestas posibles
- Comparación: Se presentan dos opciones al evaluador humano
- Preferencia: El humano indica cuál respuesta es mejor
- Refuerzo: Los valores internos se ajustan para favorecer respuestas similares
- Adaptación: Con muchas preferencias, el modelo converge hacia un estilo deseado
Criterios que se Refuerzan
Las preferencias pueden reforzar distintos aspectos:
- Claridad: Respuestas fáciles de entender
- Prudencia: Respuestas que reconocen limitaciones
- Concisión: Respuestas directas y sin rodeos
- Cercanía: Tono amable y empático
Importante
El modelo no aprende nuevos hechos mediante este proceso. Aprende qué tipo de respuestas son preferidas por los usuarios. Esto es fundamental para alinear el comportamiento del modelo con las expectativas humanas.