📚 Bibliografía: Aplicaciones y Seguridad de LLMs
Esta bibliografía complementa el Capítulo 8 y se centra en LLMs aplicados: cómo guiarlos, evaluarlos y desplegarlos con seguridad.
Prompting y uso de herramientas
- Lilian Weng (OpenAI). Prompt Engineering.
- Anthropic. Constitutional AI.
Post-entrenamiento: instruction tuning y alineación
- Ouyang et al. (2022). Training language models to follow instructions with human feedback (InstructGPT).
- Bai et al. (2022). Training a Helpful and Harmless Assistant with Reinforcement Learning from Human Feedback.
Evaluación, fiabilidad y seguridad
- OpenAI. Evals.
- Ribeiro et al. (2020). Beyond Accuracy: Behavioral Testing of NLP Models with CheckList.
Privacidad y despliegue
- NIST. AI Risk Management Framework (AI RMF 1.0).