7.2 Métodos de particionamiento.
Los métodos de particionamiento, según ya se dijo en la introducción, pretenden una partición de los individuos de la muestra en \(k\) grupos, en base a los valores de las variables observadas en cada individuo. Por supuesto, los grupos se formarán por proximidad en el espacio \(d\)-dimensional, siendo \(d\) el número de variables.
Un criterio natural para la formación de los grupos, consistiría en elegir la partición en grupos que haga mínima la variabilidad dentro de cada grupo, medida por la suma de cuadrados intra-grupo. El criterio parece sencillo pero el problema será la imposibilidad de recorrer todas las particiones posibles de \(n\) individuos en \(k\) grupos. Sólo \(n=15\) datos y \(k=3\) grupos son suficientes para generar más de dos millones de posibles particiones. Con valores de \(n\) y \(k\) algo más grandes, el número de particiones crece de manera desorbitada.
Ante esta situación, es preciso adoptar un algoritmo que partiendo de una solución inicial razonable, llegue a una solución mejor de acuerdo con el criterio, mediante pasos que aporten mejoras sucesivas. Nótese que, a pesar de existir muchas particiones, la inmensa mayoría son absurdas como solución del problema, pues carecen de sentido todos los grupos que se formen tomando observaciones "salteadas" en el espacio.
Vamos a considerar únicamente el algoritmo de las \(k\)-medias, del que hay múltiples versiones, aunque su forma más sencilla podría constar de los pasos siguientes.
Paso 1: Crear una partición inicial en \(k\) grupos.
Paso 2: Asignar cada individuo al grupo cuyo centro, que denominaremos centroide, le quede más próximo. Recalcular los centroides en base a los grupos modificados.
Paso 3: Repetir el paso 2 hasta que no haya más reasignaciones.
El primer paso se puede obtener proporcionando \(k\) centroides iniciales escogidos adecuadamente a la vista de la muestra. De hecho, pueden ser individuos de la muestra. También es posible conformar la partición inicial, aplicando una técnica de agrupamiento jerárquico, y escogiendo el nivel de agrupamiento en el cual se generan \(k\) grupos.
El paso 2 admite muchas variantes dependiendo del algoritmo concreto. Planteado en términos generales, la idea es considerar posibles cambios de algunos individuos de un grupo a otro. Serían candidatos a cambiar de grupo los individuos que ocupan posiciones fronterizas. Para cada posible cambio, se evalúan las consecuencias que tendría sobre el criterio (por ejemplo, suma de cuadrados intra-grupo), y se efectúa el cambio que más contribuye a mejorar el criterio. Se detiene el algoritmo cuando no hay cambios que redunden en mejoras apreciables del criterio.
Los algoritmos de las \(k\)-medias presentan ciertas limitaciones, como puede ser la dependencia de la partición inicial que se escoja, así como la tendencia a formar grupos esféricos, ya que la distancia que se considera es la distancia euclídea usual. Existen muchas propuestas de otros métodos que permiten superar estas limitaciones y que se adaptan a propósitos diversos. En cualquier caso, el algoritmo de las \(k\)-medias es un punto de referencia inicial, que se debe tener presente dentro de los métodos de particionamiento.
La función kmeans de \(R\) permite escoger entre varios métodos de las \(k\)-medias. Si no se indica el método, por defecto aplica el algoritmo de Hartigan and Wong (1979).