Revista de Matema´tica: Teor´ıa y Aplicaciones 1994 1(1) : 17–29 cimpa – ucr – ccss issn: 1409-2433 particiones o´ptimas: caracter´ısticas y calidad de sus aproximaciones Said Labre`che* Resumen En la primera parte, se hara´ una presentacio´n factorial del problema de clasificacio´n segu´n el criterio de mı´nimos cuadrados, para toda escogencia de la me´trica en el espacio de individuos. Se deduce que la inercia interclases posee una cota superior que depende del nu´mero de clases y de los resultados de un Ana´lisis en Componentes Principales, lo que nos permite generalizar un coeficiente para medir la calidad de la aproximacio´n de una particio´n o´ptima. En la segunda parte, se da una demostracio´n original del hecho que la inercia induce un orden estricto hasta un cierto rango sobre cualquier conjunto de particiones o´ptimas. Finalmente, mediante un procedimiento heur´ıstico se propone una manera de escoger a priori el nu´mero de clases en una poblacio´n. Palabras clave: ana´lisis en componentes principales, ana´lisis factorial, clasificacio´n au- toma´tica, clasificacio´n por particiones, particio´n o´ptima, nu´mero de clases. Abstract In the part, we present a factorial approach for clustering following the least squares criterion, for every choice of the metrics in the individual space. We deduce that the between-clusters inertia has an upper bound that depends on the numner of clusters and the results of a Principal Component Analysis; this enables us to generalize a coefficient that measures the quality of the approximation of an optimal partition. In the second part, we demonstrate that the inertia induces a strict ordering of the set of optimal partitions. Finally, we propose a heuristic for choosing the number of clusters. 1. Introduccio´n Muchos me´todos de Clasificacio´n Automa´tica no jera´rquica consisten en buscar una particio´n de una poblacio´n en un cierto nu´mero de clases, de manera tal que se optimice un *Universidad Paul Sabatier, Toulouse, Francia 17 18 s. labreche criterio matema´tico bien definido [7, 8, 15, 16, 20]. Uno de estos criterios es el de la inercia interclases [5, 9], tambie´n llamado criterio de la varianza debido a su significado estad´ıstico [12, 17]. Sera´ de este criterio que trataremos en este art´ıculo. La presentacio´n factorial del problema de la clasificacio´n ha sido tratada por diversos autores [2, 13, 16, 17, 18, 21]. Por ejemplo, Lerman se restringe al caso en que la matriz asociada a la me´trica escogida en el espacio de los individuos es diagonal; nuestro trabajo es una extensio´n al caso general de esta presentacio´n. Deduciremos tambie´n que la inercia explicada por toda particio´n tiene una cota superior que es menor o igual a la inercia total. Esta cota depende del nu´mero de clases y de los resultados de un Ana´lisis en Componentes Principales (ACP) de la nube de puntos a clasificar. Este resultado nos permitira´ proponer un coeficiente para controlar la calidad de la aproximacio´n de una particio´n o´ptima por toda particio´n en un nu´mero dado de clases. Daremos una demostracio´n original del hecho que la inercia interclases induce un orden estricto hasta un cierto rango sobre todo conjunto de particiones o´ptimas. A partir de estos dos resultados y de los resultados significativos obtenidos sobre varias tablas de datos, reales o simuladas, proponemos un me´todo que permite resolver parcial- mente el problema abierto [5, 7, 8, 11] de la escogencia del nu´mero de clases. 2. Presentacio´n factorial de la clasificacio´n 2.1. Datos y notaciones Los datos son presentados bajo la forma de una matriz individuos × variables X de dimensiones n × p y de rango s. Esta matriz representa las observaciones de p variables centradas sobre un conjunto Ω de n individuos. La entrada (i, j) de X es el valor que toma la j-e´sima variable sobre el i-e´simo individuo. Sea M la matriz de la me´trica escogida en el espacio E de individuos y D la matriz diagonal de los pesos de los individuos que define la me´trica en el espacio F de variables. El triplete (X,M,D) define una nube de puntos Nx en E. El i-e´simo punto Xi de Nx representa la i-e´sima fila de X. La inercia interclases de una particio´n Pq = {Pq(k)/k = 1, . . . , q} de Ω en q clases esta´ definida por: B(Pq) = q∑ k=1 B[Pq(k)] = q∑ k=1 µ(k)‖Gk‖2M donde: B[Pq(k)] = µ(k)‖Gk‖2M es la contribucio´n de la clase Pq(k) a B(Pq), Gk (resp. µ(k)) es el centro de gravedad (resp. peso) de la clase Pq(k). Si denotamos Y la matriz n× q de las indicatrices asociadas a las clases de la particio´n Pq, tenemos una nueva expresio´n de la inercia interclases: B(Pq) = traza[(Y TDY )−1Y TDXMXTDY ] = traza[χ2VyxMVxy] donde χ2 es la matriz diagonal del chi-cuadrado para las indicatrices (es decir, particiones o´ptimas: caracter´ısticas y calidad de sus aproximaciones 19 χ2(k, k) = 1/µ(k) con µ(k) el peso de la k-e´sima clase) y Vxy (= XTDY = V Tyx) es la matriz de covarianzas entre las variables {Xj/j = 1, . . . , p} y las indicatrices de las clases. El problema de la clasificacio´n consiste en buscar en el conjunto IPq de todas las parti- ciones de Ω en q clases, una particio´n P ∗q que maximice B(Pq). Tales particiones P ∗q sera´n llamadas particiones o´ptimas. Debe notarse que este problema puede tener varias soluciones distintas. 2.2. Definicio´n de una nube de puntos en F . Como la matriz M es sime´trica, definida, positiva y de rango p, existe una matrizM1 de rango p tal que: M =M1MT1 . (M1 puede ser obtenida ya sea mediante una descomposicio´n espectral de M o mediante la descomposicio´n de Doolittle-Cholesky [3]). Sean Z = XM1 y Nz = {Zj/j = 1, . . . , p} la nube de puntos en F asociados a los vectores columna de Z. Ponderamos cada punto de Nz por 1/p y denotamos Dp la matriz de pesos asociada. Observaciones: a) La nube Nz esta´ en el subespacio Fx de F generado por los vectores columna de X. b) La inercia de las nubesNx yNz son proporcionales. Verifican las siguientes igualdades: I[Nx] = n∑ i=1 µi‖Xi‖2M = p p∑ j=1 1 p ‖Zj‖2D = pI[Nz] Sea R la matriz cuadrada ZDpZTD, de rango s. Su j-e´simo valor propio no nulo λ j z es igual, salvo por un coeficiente de 1/p, al j-e´simo momento principal λjx del ACP de (Nx,M,D). Las variables principales asociadas a λjx son vectores propios de R asociados a λjz. 2.3. Proyeccio´n de Nz sobre Fy En esta seccio´n mostraremos que B(Pq) es proporcional a la inercia de la nube Nz proyectada sobre el subespacio Fyc de dimensio´n q − 1 generado por las indicatrices cen- tradas de las clases. Denotamos Yc la matriz de las indicatrices centradas de las clases. El subespacio Fy generado por las indicatrices (no centradas) se descompone como sigue: Fy = ∆1n ⊕ Fyc donde ∆1n es el eje de constantes generado por el vector 1n cuyas compo- nentes son todas iguales a 1. ∆1n es D-ortogonal a Fyc y Fx. El operador Πy de proyeccio´n sobre Fy es la suma de los operadores de proyeccio´n Πyc y Π1n sobre Fyc y ∆1n respectiva- mente. Como Nz esta´ contenido en Fx, se deduce que N̂z = Πy(Nz), la imagen de Nz por Πy, esta´ contenida en Fyc. Considerando las expresiones de los operadores de proyeccio´n Πy = Y (Y TDY )−1Y TD y Πyc = Yc(Y Tc DYc)†Y Tc D, donde † simboliza la inversa generalizada de Moore-Penrose [22], 20 s. labreche y teniendo en cuenta las propiedades de la traza de una matriz, la inercia de N̂z se puede escribir: I[N̂z] = p∑ j=1 (1/p)‖Πy(Zj)‖2D = (1/p) p∑ j=1 Y (Y TDY )−1Y TDZj = (1/p) traza [Y (Y TDY )−1Y TDXMXTD] = (1/p) traza [χ2VyxMVxy] = (1/p) B(Pq) = (1/p) p∑ j=1 ‖Πyc(Zj)‖2D = (1/p) p∑ j=1 ‖Yc(Y TDYc)†Y Tc DZj‖2D = (1/p) traza [Yc(Y Tc DYc) †Y Tc DXMX TD] = (1/p) traza [V †y VyxMVxy] = (1/p) B(Pq) Consecuencia: Si {Uk/k = 1, . . . , q − 1} es una base D-ortonormada de Fyc, tenemos entonces una nueva expresio´n de I[N̂z]: I[N̂z] = p∑ j=1 ‖ q−1∑ k=1 UkU T k DZ j‖2D = q−1∑ k=1 UTk DZDpZ TDUk = q−1∑ k=1 UTk DRUk = q−1∑ k=1 D(RUk, Uk) = (1/p)B(Pq). Por lo tanto, buscar una particio´n del conjunto de Ω que maximice B(Pq), se reduce a buscar q − 1 vectores particulares D-ortonormados del espacio F , tales que la inercia de la nube Nz proyectada sobre el subespacio que ellos generan sea ma´xima. Estos vectores deben generar un subespacio de F asociado al conjunto de indicatrices centradas de una particio´n en q clases. La clasificacio´n puede entonces ser presentada como un ACP de la nube (Nz,D,Dp) con restricciones sobre les vectores axiales principales. Observaciones: CuandoM es una matriz diagonal (resp. identidad), la presentacio´n anterior es equiv- alente a la presentacio´n de Lerman [17] (resp. Mirkin [21]). Con la introduccio´n de las me´tricas a efecto relacional [24], tambie´n se muestra que la clasificacio´n puede ser presentada como un ACP de la nube Nx, con restricciones sobre los vectores axiales principales [16]. 2.4. Cota superior de la inercia interclases Antes de mostrar una propiedad extremal de B(p), recordamos un resultado propuesto por Rao [23, p.331]: particiones o´ptimas: caracter´ısticas y calidad de sus aproximaciones 21 sean A una matriz sime´trica n × n y D una matriz sime´trica, definida positiva n × n, si {Uk/k = 1, . . . , q} es un conjunto de vectores linealmente independientes de IRn tales que: ∀(k, k′) B(Uk, Uk′) = tUkDUk′ = δkk′ (1) donde δ denota la delta de Kronecker, tenemos: q∑ k=1 tUkAUk ≤ q∑ k=1 λk (2) donde λk es la k-e´sima ra´ız de la ecuacio´n det(A − λB) = 0, λ ∈ IR y det denota el determinante. Propiedad 1 La inercia interclases explicada por toda particio´n Pq en q clases cumple: B(Pq) ≤ sq∑ j=1 λjx donde sq es el minimo entre q − 1 y s, el rango de X. Demostracio´n: En las igualdades I[N̂z] = q−1∑ k=1 tUkDRUk = q−1∑ k=1 D(RUk, Uk) = 1 p B(P ) la matriz DR es sime´trica y positiva. Sea {λjz/j = 1, . . . , s} el conjunto de ra´ıces no nulas de la ecuacio´n det(DR− λD) = det(D)det(R − λIn), donde In denota la matriz identidad de orden n. Como los vectores {Uk/k = 1, . . . , q−1} verifican la ecuacio´n 1, de la desigualdad 2 deduci- mos B(P ) = pI[N̂z] = p q−1∑ k=1 tUkAUk ≤ p sq∑ j=1 λjz = sq∑ j=1 λjx La propiedad queda as´ı demostrada. Observaciones: Una propiedad similar fue propuesta por F. Marchotorchino en el marco del Ana´lisis Facto- rial Relacional, que el autor introdujo [19, 20]. Su demostracio´n esta´ basada en el teorema de Hoffman-Wielandt [19, pp. 87-88]. 22 s. labreche 2.5. Proposicio´n para medir la calidad de la aproximacio´n El problema de buscar las particiones o´ptimas es un problema combinatorio pues el cardinal de todo conjunto IPq es finito [6, p.81]. En la pra´ctica, estas particiones son dif´ıciles de obtener y por lo tanto deben ser aproximadas mediante algoritmos. Una literatura abun- dante es consagrada a los me´todos de aproximacio´n, llamados algoritmos de clasificacio´n [5, 6, 7, 8]. En los diferentes art´ıculos y obras que hemos consultado y que tratan sobre la clasi- ficacio´n, no hemos encontrado me´todos para “medir”globalmente la calidad de la aproxi- macio´n de una solucio´n exacta, de las soluciones obtenidas mediante los algoritmos. Por ello proponemos un coeficiente que cumpla esta funcio´n. De la propiedad 1 deducimos que, para toda particio´n Pq en q clases, el cociente B(Pq) B(P ∗q ) esta´ minorado por B(Pq) sq∑ j=1 λjx . Para medir la calidad de la aproximacio´n de una particio´n o´ptima P ∗q por Pq, proponemos el coeficiente QA (Calidad de la Aproximacio´n) definido por: QA(Pq) = 1− B(Pq)sq∑ j=1 λjx Diremos entonces que la particio´n Pq es una buena aproximacio´n de una particio´n o´ptima P ∗q si QA(Pq) esta´ cercano a 0. Observaciones: Si el nu´mero q de clases es mayor o igual a s + 1, se tiene entonces sq∑ j=1 λjx = I[Nx]. En este caso, el coeficiente QA coincide con el coeficiente cla´sico Q(P ) = B(P ) I[Nx] que se usa para medir la calidad, en el sentido de adecuacio´n a los datos, de la particio´n Pq [5, p. 155]. Cuando el nu´mero de clases es menor o igual a s, los coeficientes QA y Q son diferentes. Si para una particio´n Pq ambos son pequen˜os, entonces Pq es una buena aproximacio´n de una particio´n o´ptima P ∗q , a pesar de que Pq puede resumir mal los datos cuando hay una gran pe´rdida de inercia. Esta situacio´n no es rara: para el ejemplo que sera´ pre- sentado ma´s adelante, si se escoje la me´trica de Mahalanobis (inversa de la matriz de varianzas), tendremos QA(Pq) = 0,09 y Q(Pq) = 0,13, con q = 2. particiones o´ptimas: caracter´ısticas y calidad de sus aproximaciones 23 3. Orden sobre las particiones o´ptimas El objetivo de esta seccio´n es el de mostrar que la inercia interclases induce un orden, es- tricto hasta un cierto rango, sobre todo conjunto {P ∗q /q = 1, . . . , n} de particiones o´ptimas. Sean q < n y Pq una particio´n de Ω en q clases. Como existe al menos una clase P (k) en Pq que no sea reducida a un solo elemento, entonces se puede construir una nueva particio´n P iq+1 en q + 1 clases si se toma un elemento i de P (k) que forme una nueva clase y de la clase P (k) se elimina i, formando la clase P i(k), dejando igual las clases restantes. Por el teorema de Huyghens (ver por ejemplo [9, p.59]), se tiene B(P iq+1) = B(Pq) + µi‖Xi −Gk‖2M + µi(k)‖Gik −Gk‖2M donde Gik (resp.µ i(k)) es el centro de gravedad (resp. peso) de la clase P i(k). Se deduce entonces que B(P iq+1) ≥ B(Pq). Aplicando este procedimiento a las particiones o´ptimas, se obtiene entonces las sucesio´n de desigualdades: 0 = B(P ∗1 ) ≤ B(P ∗2 ) ≤ . . . ≤ B(P ∗q ) ≤ . . . ≤ B(P ∗n) = I[Nx]. (3) Demostraremos que este orden es estricto hasta un cierto rango, a partir del cual hay igualdad. Propiedad 2 Una particio´n Pm de Ω en m clases (m < n) es tal que B(Pm) = I[Nx] si y so´lo si todos los puntos de cada clase coinciden con el centro de gravedad de su clase. Adema´s, se tiene m > s. Demostracio´n: Sea B(Pm) = I[Nx]. Si existe al menos un punto Xi que no coincida con el centro de gravedad de su clase, entonces por construccio´n de la particio´n P im+1 se tiene I[Nx] = B(Pm) < B(P im+1) ≤ I[Nx] lo cual es imposible. Evidentemente, si todos los puntos coinciden con el centro de gravedad de su clase, por definicio´n de la inercia se tiene B(Pm) = I[Nx]. Veamos ahora que el entero m es estrictamente mayor que s. En efecto, si esto no fuera cierto (m ≤ s), entonces dimFx ≤ s−1 pues hemos supuesto que las variables son centradas, lo cual ser´ıa una contradiccio´n con dimFx = rangX = s. De la propiedad anterior y de la serie de desigualdades 3, demostramos la propiedad siguiente: 24 s. labreche Propiedad 3 Para todo par de me´tricas M y D, existe un entero m tal que 0 = B(P ∗1 ) < B(P ∗ 2 ) < . . . < B(P ∗ s ) < . . . < B(P ∗ m) = . . . = B(P ∗ n) = I[Nx] Demostracio´n: Sea m el menor entero tal que existe una particio´n Pm de Ω en m clases que cumple B(Pm) = I[Nx] (si no hay puntos coincidentes entonces m = n). Por lo tanto B(Pm) = B(P ∗m) y se tiene entonces B(P ∗m) = . . . = B(P ∗ n) = I[Nx]. Sea q < m. Sabemos que B(P ∗q ) ≤ B(P ∗q+1). Como q < n, siguiendo el procedimiento descrito al comienzo de esta seccio´n, se puede construir, a partir de una particio´n o´ptima P ∗q , una particio´n P iq+1 en q + 1 clases aislando un elemento i de una clase no unitaria. Se tiene entonces que B(P iq+1) > B(P ∗ q ). En efecto, si se diera el caso en que B(P iq+1) = B(P ∗ q ), denotando por P ∗ q (k) la clase de i en P ∗q , entonces se tendr´ıa que ∀j ∈ P ∗q (k) ‖Xj − Gk‖2M = 0, donde Gk es el centro de gravedad de P ∗q (k). Todos los Xj coincidir´ıan entonces con Gk. Segu´n la propiedad 2, se tendr´ıa entonces B(P ∗q ) = I[Nx] y por lo tanto q ≥ m, lo cual es imposible por la forma como se escogio´ q. De las propiedades anteriores, deducimos la consecuencia siguiente: Consecuencia: Las sucesiones (h1(q)) y (h2(q)) definidas por •h1(1) = O y h1(q) = sq∑ j=1 λxj para q > 1; •h2(q) = B(P ∗q ) son crecientes y para todo q se tiene h1(q) ≥ h2(q). El q-e´simo te´rmino de h2 es la inercia explicada por el sq-e´simo subespacio principal del ACP del triplete (Nx,M,D). Para tener una idea de la forma en que crecen estas sucesiones y de la diferencia entre sus elementos, podemos representar sobre un mismo gra´fico las funciones crecientes f y g de interpolacio´n de los conjuntos de puntos {(q, h1(q)) /q = 1, . . . , n} y {(q, h2(q)) /q = 1, . . . , n} respectivamente (ver figura 1 ma´s adelante). Nota: en el caso en que se desee comparar las inercias explicadas por una particio´n y por un subespacio principal, las definiciones de las sucesiones anteriores permiten escoger la dimensio´n apropiada de este subespacio. particiones o´ptimas: caracter´ısticas y calidad de sus aproximaciones 25 Ejemplo de ilustracio´n Uno de los algoritmos usados para aproximar las particiones o´ptimas es el me´todo de particiones principales [10, 16], que implementa un algoritmo de transferencias. Para tener una idea de los valores que toma el coeficiente QA sobre las aproximaciones dadas por este algoritmo, hemos considerado varias tablas de datos reales y simulados. En todos los ejemplos tratados, estos valores son en promedio pequen˜os (menores o iguales a 0.2). Estos resultados prueban la eficacia de este algoritmo sobre los datos utilizados. Presentamos aqu´ı los resultados obtenidos sobre un ejemplo. La tabla de datos es la us- ada por W. Castillo [4, p. 69] que contiene 29 individus (cantones) descritos por 7 variables. Por simple consulta de la tabla, se puede notar que no hay puntos confundidos (m = n). Todo conjunto de particiones o´ptimas esta´ por lo tanto estrictamente ordenado por la in- ercia explicada. Es ma´s, como las variables centradas son linealmente independientes, la matriz de varianzas-covarianzas V y su inversa V −1 (matriz de Mahalanobis) son definidas positivas. Escogiendo M = V y pesos iguales, y usando el me´todo de particiones principales mediante transferencias, hemos aproximado 9 de las primeras particiones o´ptimas. Todas les particiones son inicializadas al azar. Las aproximaciones {P˜q/q = 1, . . . , 9} de las 9 primeras particiones o´ptimas son tales que: 0 = B(P˜1) < B(P˜2) < . . . < B(P˜9). Los valores del coeficiente QA, para todas las particiones anteriores, son menores a 0,25. Puesto que no se conocen los valores de la sucesio´n (h2(q)), hemos aproximado, mediante una funcio´n de interpolacio´n g, la sucesio´n creciente de puntos{( 1, B(P˜1) ) , . . . , ( 9, B(P˜9) ) , (29, I[Nx]) , } . Esta funcio´n de aproximacio´n y la funcio´n f de interpolacio´n del conjunto {(1, h1(1)) , . . . , (9, h1(9)) , (29, h1(29))} son representadas en la figura 1. Este gra´fico muestra que las inercias explicadas por las particiones o´ptimas en q clases son muy cercanas a las inercias explicadas por los subespacios principales de dimensiones sq. 4. Problema de la escogencia del nu´mero de clases La importancia y la dificultad del problema de la escogencia del nu´mero de clases ha sido sen˜alada por diversos autores [5, 7, 8, 11, 14, etc.] que se han interesado en este problema. Everitt [11] estudia y compara diferentes me´todos propuestos para tratar de resolver este problema. La definicio´n de la sucesio´n (h2(q)) muestra que toda particio´n o´ptima es mejor que las particiones en un nu´mero menor de clases, en el sentido del criterio de la inercia interclases. Por lo tanto, este problema no es matema´tico sino estad´ıstico. Su dificultad radica esencial- mente en dos objetivos contrarios que se persiguen en Clasificacio´n Automa´tica: la bu´squeda de una particio´n cuyo nu´mero de clases sea lo ma´s pequen˜o posible y cuya inercia interclases sea lo ma´s grande posible. 26 s. labreche 100 80 60 40 20 0 10 20 30              (((       !! !(( funcio´n f aproximacio´n de la funcio´n g QQk  Figura 1: funciones de interpolacio´n De las definiciones de las sucesiones (h1(q)) y (h2(q)), deducimos que un particio´n o´ptima que verifique el segundo objetivo debe ser tal que: B(Pq) B(P(q+1)) ' h1(q) h1(q + 1) ' 1. El nu´mero de clases q∗ mejor adaptado a los datos tratados sera´ por lo tanto el menor valor tal que el cociente h1(q∗) h1(q∗ + 1) es cercano a 1. Este valor corresponde al punto a partir del cual la funcio´n f es pra´cticamente constante. Puede ser determinado ya sea al examinar el gra´fico de f , o bien al examinar el conjunto de cocientes {h1(q)/h1(q + 1)/q = 1, . . . , s+ 1}. El nu´mero q∗ corresponde tambie´n a la menor dimensio´n sq∗ de los subespacios prin- cipales ma´s significativos. Esta proposicio´n heur´ıstica esta´ acorde con la escogencia cla´sica del nu´mero de clases, que Lerman [17, pa´g. 331] resume con la frase: “en general, q es sensiblemente ma´s grande que el nu´mero de factores interpretables”. Para un estudio ma´s detallado de los datos, ser´ıa u´til examinar las aproximaciones de las particiones o´ptimas cuyo nu´mero de clases es menor que q∗ o igual a q∗ + 1. Aplicacio´n Para el ejemplo de ilustracio´n presentado ma´s arriba, la sucesio´n de cocientes (h1(q)/h1(q + 1)/q = 1, . . . , s+ 1) es (0,9249, 0,9903, 0,9940,' 1,' 1,' 1, 1). Los elementos de esta sucesio´n son casi todos iguales a 1. Observamos que a partir del ı´ndice 3, sus variaciones son muy pequen˜as. El nu´mero de clases adaptado a los datos y sugerido por nuestra proposicio´n, es entonces 4. particiones o´ptimas: caracter´ısticas y calidad de sus aproximaciones 27 En la figura 2 se representan lo individuos en el primer plano principal, que explica 99,44% de la inercia total de la nube de puntos Nx. Hemos representado mediante un trazo continuo las cuatro clases de P˜4. Dos de estas clases se subdividen a su vez (con l´ınea punteada) para completar las seis clases de P˜6, llamadas C1, . . . , C6. Estas clases son: C1 = {Santa Cruz, Can˜as, Puriscal, Limo´n, Santa Ba´rbara, San Rafael, Aserr´ı, N˜icoya, Tarrazu´, Atenas, Puntarenas, Esparza, Mora, Liberia, San Mateo} C2 = {Barva, La Unio´n} C3 = {Grecia} C4 = {Para´ıso, Cartago, Escazu´, San Ramo´n, Alajuela} C5 = {Santo Domingo, Palmares, Heredia, Naranjo, Desamparados} C6 = {San Jose´} · · · · · · ····· · ··· ·· ··· · · · C2 C1 C3 C4 C5 C6 Figura 2: Particiones representadas en el primer plano principal Hay que notar que sobre el primer plano principal las clases esta´n bien separadas, lo que permite un buena interpretacio´n de los datos. Las particiones P˜1, . . . , P˜6 esta´n encajadas. este hecho lo hemos representado en la figura 3, que muestra la jerarqu´ıa que forman las particiones a partir de los conjuntos C1, . . . , C6. En esta figura, hemos presentado la inercia interclases de cada particio´n. As´ı, las seis primeras particiones obtenidas son: P˜1 = Ω P˜2 = (C1, C2, C3, C4), (C5, C6) P˜3 = (C1, C2, C3, C4), (C5), (C6) P˜4 = (C1, C2), (C3, C4), (C5), (C6) P˜5 = (C1, C2), (C3), (C4), (C5), (C6) P˜5 = (C1), (C2), (C3), (C4), (C5), (C6). Observacio´n El problema del nu´mero de clases no se plantea en el Ana´lisis Factorial Relacional, pues se muestra que la particio´n trivial, con q = n, no es necesariamente o´ptima [19]. Una de las ventajas de este me´todo es que el nu´mero de clases de la particio´n buscada es uno de los resultados del algoritmo. 28 s. labreche 92.72% 91.14% 88.85% 73.84% 50.78% Inercia interclases C1 C2 C3 C4 C5 C6 P˜6 P˜5 P˜4 P˜3 P˜2 Figura 3: Jerarqu´ıa formada por las primeras aproximaciones de las particiones o´ptimas 5. Conclusio´n Los pequen˜os valores del coeficiente QA muestran que, en ma´s de 300 ejemplos de datos reales o simulados, la inercia explicada por el sq-e´simo subespacio principal es cercana a la inercia interclases de una particio´n o´ptima P ∗q . ¿Son esta observacio´n y los buenos resultados obtenidos hasta el momento, generales? es decir, ¿son independientes de los datos tratados y de las me´tricas escogidas, o bien espec´ıficos a las escogencias hechas? Las respuestas a estas preguntas, que tienen que ver con la relacio´n entre los resultados del ACP y los de la clasificacio´n, nos parecen dif´ıciles. La dificultad radica en que el primer problema posee una solucio´n formal (anal´ıtica) y el segundo es un problema combinatorio. Para responder, aunque sea parcialmente, a estas interrogantes, las investigaciones presen- tadas aqu´ı deben ser profundizadas y completadas. En particular, habr´ıa que considerar otros conjuntos de datos, otras me´tricas y escoger otros algoritmos de clasificacio´n. Agradecimientos La direccio´n y las sugerencias del Profesor Y. Schektman, han sido de un gran val- or cient´ıfico en nuestras investigaciones, por lo que queremos manifestar aqu´ı nuestro re- conocimiento y agradecimiento. particiones o´ptimas: caracter´ısticas y calidad de sus aproximaciones 29 Referencias [1] Be´de´carrax, C.; Huot, C. (1991) De´veloppement d’indicateurs pour l’interpre´tation des re´sultats d’une analyse factorielle-relationnelle. Etude MAP-005, De´cembre 1991, Centre Europe´en de Mathe´matiques Applique´es, Compagnie IBM-France. [2] Benze´cri, J.-P. y colaboradores (1973) Analyse des Donne´es, tomo II. Dunod, Par´ıs. [3] Caillez, F.; Page`s, J.-P. (1976) Introduction a` l’Analyse des Donne´es. SMASH, Par´ıs. [4] Castillo, W. (1991) Descripcio´n de algunos me´todos de clasificacio´n automa´tica y aplicacio´n a un problema de produccio´n distribuida por canto´n. Ciencias Matema´ticas, Vol. II, No 1, pp.67- 78. [5] Celeux, G.; Diday, E.; Govaert, G.; Lechevallier, Y.; Ralambondrainy, H. (1989) Classification Automatique des Donne´es. Dunod-Informatique, Par´ıs. [6] Chandon, J.L.; Pinson, S. (1981) Analyses Typologiques, The´ories et Applications. Masson, Par´ıs. [7] Cormack, M. (1971) A review of classification. Journal of the Royal Statistical Society, serie A, 134, No 3, pp. 321-367 [8] Diday, E. y colaboradores (1980) Optimisation en Classification Automatique. INRIA, Roc- quencourt. [9] Diday, E.; Lemaire, J.; Pouget, J.; Testu, F. (1985) Ele´ments d’Analyse de Donne´es. Dunod, Par´ıs. [10] Espinoza, J.L.; Trejos, J. (1989) Clasificacio´n por particiones. Revista Ciencia y Tecnolog´ıa, Vol. XIII, Nos. 1-2, pp.129-154. [11] Everitt, B.S. (1979) Unresolved problems in cluster analysis. Biometrics, 35, pp. 169-181. [12] Friedman, H.P.; Rubin, J. (1967) On some invariant criteria for grouping data. Journal of the American Statistical Association, 1967, 62, pp. 1159-1178. [13] Gondran, M. (1976) Valeurs propres et vecteurs propres en classification hie´rarchique. RAIRO, Recherche Ope´rationnelle, serie R: Informatique The´orique, Vol. 10, no 3, pp. 39-46. [14] Gower, J.C. (1973) Classification problems. Bulletin de l’Institut International de Statistique, Actes de la 39e`me session, Viena. [15] Gower, J.C. (1974) Maximal predictive classification. Biometrics, Vol. 30, pp. 643-654. [16] Ibrahim, A.; Schektman, Y. (1986) Principal cluster analysis. En: Classification as a Tool for Research, W. Gaul and M. Schader (eds.), Elsevier Sc.Publ, North-Holland, pp. 217-233. [17] Lerman, I.C. (1979) Les pre´sentations factorielles de la classification. RAIRO, Vol. 13 No2, p.107-128 y No3, p.227-251. [18] Lerman, I.C. (1981) Classification et Analyse Ordinale des Donne´es. Dunod, Par´ıs. [19] Marchotorchino, F. (1991) L’analyse factorielle-relationnelle, I y II. Etude MAP-003, Centre Europe´en de Mathe´matiques Applique´es, Compagnie IBM-France. [20] Marchotorchino, F.; Be´de´carrax, C. (1992) Le crite`re de diffe´rence de profils. Distancia’92, Rennes. [21] Mirkin, B.G. (1987) Additive clustering and qualitative factor analysis. Methods for similarity matrices. Journal of Classification, No 1, Springer-Verlag, New-York, pp. 3-27 30 s. labreche [22] Nashed, Z., editor (1976) Generalized Inverses and Applications. Academic Press, London. [23] Rao, C.R (1964) The use and interpretation of principal component analysis in applied research. Sankhya, serie A, 1964, 26, pp. 329-358. [24] Schektman, Y. (1978) Contribution a` la mesure en facteurs dans les sciences expe´rimentales et a` la mise en œuvre automatique dans les calculs statistiques. Tesis de Estado, Toulouse.