5.2 El poder del clustering: Descubriendo grupos ocultos
Introducción
El algoritmo K-Means es una poderosa herramienta de aprendizaje no supervisado cuya misión es explorar un conjunto de datos y descubrir "grupos" o "clusters" ocultos sin necesidad de etiquetas previas. Funciona agrupando los puntos de datos que son más similares entre sí, permitiendo revelar la estructura inherente de la información.
Actividad
Explorador de Clusters K-Means
Demostración Interactiva
Configuración del Algoritmo K-Means
Método del Codo
Usa el Método del Codo para estimar el mejor número de clusters para tus datos.
Conceptos Fundamentales
El Método del Codo: Encontrando el K Óptimo
¿Qué es el Método del Codo?
El Método del Codo es una técnica heurística fundamental para determinar el número óptimo de clusters (K) en un conjunto de datos. Funciona ejecutando K-Means para diferentes valores de K y calculando la suma de errores cuadrados (SSE) o "inercia" para cada valor.
Proceso:
- Ejecutar K-Means para un rango de valores de K (de 1 a 10)
- Calcular la Inercia (SSE) para cada K:
SSE = Σ(distancia² entre cada punto y su centroide) - Graficar la Curva (K en eje X, inercia en eje Y)
- Encontrar el "Codo" donde la tasa de disminución se ralentiza
Interpretación y Aplicación
- Pocos clusters (K pequeño): Inercia alta, puntos lejos de centroides
- Muchos clusters (K grande): Inercia baja, pero riesgo de sobreajuste
- K óptimo: Equilibrio entre compacidad y simplicidad del modelo
El punto óptimo está donde la curva forma un "codo", indicando que añadir más clusters no mejora significativamente la agrupación.
Algoritmo K-Means Paso a Paso
Proceso Iterativo
K-Means utiliza un proceso iterativo de refinamiento:
- Inicialización: Colocar K centroides aleatoriamente
- Asignación: Asignar cada punto al centroide más cercano
- Actualización: Recalcular posición de centroides como promedio de sus puntos
- Repetir hasta convergencia (centroides dejan de moverse significativamente)