Ojos y oídos

Libro 3

Ojos y oídos

Cuando las máquinas aprenden a ver y escuchar

¿Qué significa que una máquina “entienda” una imagen? ¿Cómo puede generar una voz — o un vídeo?

Este volumen recorre el salto a la IA multimodal: modelos que conectan texto, imágenes, audio (y más) y usan esas representaciones para crear. La idea guía es la misma: convertir lo que parece magia en un mecanismo que puedas razonar.

Lo que aprenderás

  • Visión: de píxeles a representaciones
  • Audio: reconocimiento, síntesis y significado
  • Modelos generativos: crear imagen/audio/vídeo (y por qué funciona)
  • Alineación multimodal: conectar visión, audio y lenguaje
  • Accesibilidad: IA como puente sensorial

En Desarrollo

Este libro se está escribiendo ahora. Si quieres enterarte cuando haya avances (capítulos, demos, fechas), escríbeme.