6.4 Laboratorio CNN: Dibuja, Entrena y Predice
Introducción
Hasta ahora vimos neuronas individuales y aprendizaje multicapa. El siguiente paso es entender por qué las Redes Neuronales Convolucionales (CNN) se convirtieron en el estándar para tareas de visión por computadora.
Una CNN no mira una imagen como una lista plana de píxeles. Aprende patrones locales (trazos, esquinas, bordes) y después los combina para formar conceptos visuales más complejos.
Actividad
Laboratorio interactivo: CNN para reconocimiento de dígitos
En esta demo puedes seguir el flujo clásico de introducción a visión por computadora:
- Dibujar un dígito en una caja.
- Ejecutar predicción y revisar probabilidades.
- Elegir una de dos rutas:
- Entrenar desde cero con muestras sintéticas.
- Cargar un snapshot preentrenado y empezar a experimentar directamente.
Laboratorio de Reconocimiento de Dígitos con CNN
1) Entrena el modelo
2 Dibuja y predice
3) Mira cómo “ve” la CNN
Cada filtro convolucional (3×3) detecta trazos simples. Combinados, producen una representación que termina en probabilidades para cada dígito. Pasa el cursor por neuronas y conexiones para ver más detalle.
Mapa de color: en la red, nodos más verdes indican mayor activación. En los filtros, rojo = peso negativo y verde = peso positivo.
Consejo: prueba dibujar el mismo número con diferentes estilos para ver cómo cambian las activaciones y probabilidades.
¿Qué ocurre dentro del modelo?
Arquitectura CNN de este laboratorio
La demo usa una CNN compacta:
- Entrada (20×20): Tu dibujo se normaliza y centra.
- Convolución (filtros 3×3): Detecta patrones locales de trazo.
- ReLU: Conserva activaciones positivas informativas.
- Pooling: Comprime respuestas locales manteniendo estructura útil.
- Densa + Softmax: Produce probabilidades para los dígitos 0–9.
Cómo explorarlo mejor
- Dibuja el mismo número con estilos distintos.
- Compara predicciones antes y después del entrenamiento.
- Observa la visualización de filtros para ver cómo se especializan.
- Prueba entrenamientos cortos vs. largos y compara precisión de validación.
Limitación importante
Este entorno es educativo, no un OCR de producción. Es intencionalmente liviano para mantener visible y manipulable el proceso de aprendizaje.
¿Por qué importa más allá de los dígitos?
El reconocimiento de dígitos es la puerta de entrada clásica para entender CNN. Una vez dominada esta intuición, la misma lógica escala a:
- Triaje de lesiones cutáneas
- Análisis de retina
- Cribado en radiografías de tórax
- Herramientas de apoyo en histopatología
Cambia el dominio, no el principio: patrones locales se combinan en evidencia de alto nivel.