5.2 El poder del clustering: Descubriendo grupos ocultos

Introducción

El algoritmo K-Means es una poderosa herramienta de aprendizaje no supervisado cuya misión es explorar un conjunto de datos y descubrir "grupos" o "clusters" ocultos sin necesidad de etiquetas previas. Funciona agrupando los puntos de datos que son más similares entre sí, permitiendo revelar la estructura inherente de la información.

🏢

Actividad

Explorador de Clusters K-Means

Nivel Principiante

El algoritmo K-Means es la herramienta central del capítulo para descubrir segmentos ocultos sin etiquetas previas. El centro de servicio de Minermont necesita identificar perfiles de usuarios distintos a partir de señales de comportamiento, sin saber de antemano cuántos grupos existen.

Qué observar: K-Means revela grupos con características similares, ayudando al equipo a diseñar procesos adaptados para cada segmento y a detectar clusters inusuales a tiempo.

Demostración Interactiva

Configuración del Algoritmo K-Means

Número de Clusters (K): 3

Usar K-Means++

Método del Codo

Usa el Método del Codo para estimar el mejor número de clusters para tus datos.

Conceptos Fundamentales

El Método del Codo: Encontrando el K Óptimo

¿Qué es el Método del Codo?

El Método del Codo es una técnica heurística fundamental para determinar el número óptimo de clusters (K) en un conjunto de datos. Funciona ejecutando K-Means para diferentes valores de K y calculando la suma de errores cuadrados (SSE) o "inercia" para cada valor.

Proceso:

Ejecutar K-Means para un rango de valores de K (de 1 a 10)
Calcular la Inercia (SSE) para cada K: SSE = Σ(distancia² entre cada punto y su centroide)
Graficar la Curva (K en eje X, inercia en eje Y)
Encontrar el "Codo" donde la tasa de disminución se ralentiza

Interpretación y Aplicación

Pocos clusters (K pequeño): Inercia alta, puntos lejos de centroides
Muchos clusters (K grande): Inercia baja, pero riesgo de sobreajuste
K óptimo: Equilibrio entre compacidad y simplicidad del modelo

El punto óptimo está donde la curva forma un "codo", indicando que añadir más clusters no mejora significativamente la agrupación.

Algoritmo K-Means Paso a Paso

Proceso Iterativo

K-Means utiliza un proceso iterativo de refinamiento:

Inicialización: Colocar K centroides aleatoriamente
Asignación: Asignar cada punto al centroide más cercano
Actualización: Recalcular posición de centroides como promedio de sus puntos
Repetir hasta convergencia (centroides dejan de moverse significativamente)