Ojos y oídos

Libro 3

Ojos y oídos

Cuando las máquinas aprenden a ver y escuchar

¿Qué significa que una máquina “entienda” una imagen? ¿Cómo puede generar una voz — o un vídeo?

Este volumen recorre el salto a la IA multimodal: modelos que conectan texto, imágenes, audio (y más) y usan esas representaciones para crear. La idea guía es la misma: convertir lo que parece magia en un mecanismo que puedas razonar.

Lo que aprenderás

Visión: de píxeles a representaciones
Audio: reconocimiento, síntesis y significado
Modelos generativos: crear imagen/audio/vídeo (y por qué funciona)
Alineación multimodal: conectar visión, audio y lenguaje
Accesibilidad: IA como puente sensorial

En Desarrollo

Este libro se está escribiendo ahora. Si quieres enterarte cuando haya avances (capítulos, demos, fechas), escríbeme.

← Volver a la trilogía Empezar por el Libro 1 →