Ojos y oídos
Libro 3
Ojos y oídos
Cuando las máquinas aprenden a ver y escuchar
¿Qué significa que una máquina “entienda” una imagen? ¿Cómo puede generar una voz — o un vídeo?
Este volumen recorre el salto a la IA multimodal: modelos que conectan texto, imágenes, audio (y más) y usan esas representaciones para crear. La idea guía es la misma: convertir lo que parece magia en un mecanismo que puedas razonar.
Lo que aprenderás
- Visión: de píxeles a representaciones
- Audio: reconocimiento, síntesis y significado
- Modelos generativos: crear imagen/audio/vídeo (y por qué funciona)
- Alineación multimodal: conectar visión, audio y lenguaje
- Accesibilidad: IA como puente sensorial
En Desarrollo
Este libro se está escribiendo ahora. Si quieres enterarte cuando haya avances (capítulos, demos, fechas), escríbeme.