6.4 Laboratorio CNN: Dibuja, Entrena y Predice

Introducción

Hasta ahora vimos neuronas individuales y aprendizaje multicapa. El siguiente paso es entender por qué las Redes Neuronales Convolucionales (CNN) se convirtieron en el estándar para tareas de visión por computadora.

Una CNN no mira una imagen como una lista plana de píxeles. Aprende patrones locales (trazos, esquinas, bordes) y después los combina para formar conceptos visuales más complejos.

🧩

Actividad

radiology Principiante

🧭 Contexto

Un sistema de triaje recibe miles de radiografías de tórax cada semana. Un modelo que aplana píxeles pierde estructura espacial y falla en señales locales sutiles.

💡 Qué observar

Una CNN recorre pequeñas regiones, detecta señales locales y construye características de mayor nivel. Esa jerarquía espacial es clave en imágenes médicas.

Laboratorio interactivo: CNN para reconocimiento de dígitos

En esta demo puedes seguir el flujo clásico de introducción a visión por computadora:

Dibujar un dígito en una caja.
Ejecutar predicción y revisar probabilidades.
Elegir una de dos rutas:
- Entrenar desde cero con muestras sintéticas.
- Cargar un snapshot preentrenado y empezar a experimentar directamente.

Laboratorio de Reconocimiento de Dígitos con CNN

1) Entrena el modelo

Épocas Muestras/época Learning rate

2 Dibuja y predice

Entrada 20×20

Distribución de probabilidad

3) Mira cómo “ve” la CNN

Cada filtro convolucional (3×3) detecta trazos simples. Combinados, producen una representación que termina en probabilidades para cada dígito. Pasa el cursor por neuronas y conexiones para ver más detalle.

Activaciones en tiempo real

Pasa el cursor por una neurona o conexión para ver su interpretación.

Activación baja

Activación alta

Peso negativo

Peso positivo

Mapa de color: en la red, nodos más verdes indican mayor activación. En los filtros, rojo = peso negativo y verde = peso positivo.

Consejo: prueba dibujar el mismo número con diferentes estilos para ver cómo cambian las activaciones y probabilidades.

¿Qué ocurre dentro del modelo?

Arquitectura CNN de este laboratorio

La demo usa una CNN compacta:

Entrada (20×20): Tu dibujo se normaliza y centra.
Convolución (filtros 3×3): Detecta patrones locales de trazo.
ReLU: Conserva activaciones positivas informativas.
Pooling: Comprime respuestas locales manteniendo estructura útil.
Densa + Softmax: Produce probabilidades para los dígitos 0–9.

Cómo explorarlo mejor

Dibuja el mismo número con estilos distintos.
Compara predicciones antes y después del entrenamiento.
Observa la visualización de filtros para ver cómo se especializan.
Prueba entrenamientos cortos vs. largos y compara precisión de validación.

Limitación importante

Este entorno es educativo, no un OCR de producción. Es intencionalmente liviano para mantener visible y manipulable el proceso de aprendizaje.

¿Por qué importa más allá de los dígitos?

El reconocimiento de dígitos es la puerta de entrada clásica para entender CNN. Una vez dominada esta intuición, la misma lógica escala a:

Triaje de lesiones cutáneas
Análisis de retina
Cribado en radiografías de tórax
Herramientas de apoyo en histopatología

Cambia el dominio, no el principio: patrones locales se combinan en evidencia de alto nivel.