Revista de Matema´tica: Teor´ıa y Aplicaciones 2(2): 75–86 (1995) el nu´mero equivalente como medida de la informacio´n en ana´lisis de datos Javier Trejos Zelaya1 Resumen Se recuerda la definicio´n del nu´mero equivalente, propuesto para medir el nu´mero de unidades independientes de informacio´n y lo adaptamos al contexto del ana´lisis multivariado de datos. Proponemos algunas propiedades en el contexto eucl´ıdeo usual y estudiamos algunas aplicaciones: en la determinacio´n del nu´mero de factores en un ana´lisis factorial, del nu´mero de clases en clasificacio´n automa´tica y del nu´mero de componentes de una conjuncio´n de modalidades. Palabras–clave: Ana´lisis multivariado de datos, unidades de informacio´n independientes, ana´lisis en componentes principales, clasificacio´n automa´tica, generacio´n de reglas. 1 Introduccio´n El nu´mero equivalente fue estudiado por G. Der Me´gre´ditchian [2, 3, 4] en un contexto probabil´ıstico para calcular el nu´mero de estaciones independientes en la previsio´n meteo- rolo´gica. Para una tabla de datos X definida por p variables cuantitativas x1, . . . , xp, si se introduce una me´trica M en el espacio de los individuos E = IRp, podemos adaptar la definicio´n del nu´mero equivalente (Neq), al contexto eucl´ıdeo, de la manera siguiente: Definicio´n 1 El nu´mero equivalente asociado a la matriz X, respecto a la me´trica M , es: Neq(X,M) = (trazaVM)2 traza(VM)2 , donde V es la matriz de varianzas–covarianzas de las p variables xj. Se deduce claramente que Neq(X,M) = ( ∑p j=1 λj) 2 ∑p j=1 λ 2 j donde λj es el j-e´simo valor propio no nulo de VM . La siguiente propiedad, debida a M. Troupe´ [16], precisa el sentido que damos en este contexto al Neq como medida de la cantidad de informacio´n no redundante aportada por un conjunto de variables cuantitativas (respecto a M). 1PIMAD, Escuela de Matema´tica, Universidad de Costa Rica 76 j. trejos Proposicio´n 1 a) Neq(X,M) ≥ 1 b) Neq(X,M) = 1 si y so´lo si hay solamente un valor propio no nulo de VM . c) Si VM tiene al menos dos valores propios no nulos distintos, entonces Neq(X,M) < rang X. d) Neq(X,M) = rang X si y so´lo si todos los valores propios no nulos de VM son iguales. La demostracio´n de esta propiedad esta´ basada en la observacio´n que: Neq(X,M) = 1 + rang X∑ j=1 rang X∑ k=1 k 6=j λjλk rang X∑ j=1 λ2j y que Neq(X,M) ≤ rang X ⇔ rang X ∑p j=1 λ 2 j − ( ∑p j=1 λj) 2 ≥ 0. Se puede ilustrar el cara´cter de medida de la informacio´n no redundante que posee el Neq, considerando el caso en que se esta´ en presencia de dos variables (p = 2). Si λ1 y λ2, los dos valores propios de VM , son iguales, entonces el nu´mero equivalente calculado a partir de los λ es: Neqλ(X,M) = (2λ1) 2/2λ21 = 2, lo cual indica claramente el hecho que hay dos medidas de la informacio´n independientes. Si se hace una variacio´n sobre estos valores propios, manteniendo constante el valor de la inercia de la nube de puntos (dada por traza(VM) = λ1 + λ2): sea α > 0 y sean γ1 = λ1 + α, γ2 = λ2 − α los nuevos valores propios de VM , entonces el nu´mero equivalente calculado a partir de los γ ser´ıa: Neqγ(X,M) = Neqλ(X,M) λ21 λ21+α 2 , por lo que Neqγ(X,M) < Neqλ(X,M). Es decir, entre mayor sea la separacio´n entre los valores propios, menor sera´ el valor de Neq puesto que el mayor de los valores propios tiene mayor parte de la inercia explicada por la componente principal asociada. 2 Caso de la me´trica diagonal de las inversas de las varianzas A continuacio´n estudiamos el comportamiento del nu´mero equivalente en el caso en que M = D1/σ2 , la diagonal de las inversas de las varianzas [13]. Recue´rdese que este es el caso usual en Ana´lisis en Componentes Principales cuando las variables esta´n centradas y estandarizadas. Tenemos M = D1/σ2 = diag(1/var x j), donde var xj es la varianza de la variable xj . Supondremos en lo que sigue que las variables esta´n centradas. el nu´mero equivalente como medida de la informacio´n en ana´lisis de datos77 Proposicio´n 2 Si M = D1/σ2 entonces: Neq(X,D1/σ2) = p2 p∑ j=1 p∑ k=1 ρ2(xj , xk) (1) donde ρ es el coeficiente de correlacio´n lineal. Demostracio´n: Como M = D1/σ2 y V es la matriz de varianzas–covarianzas de las variables x1, . . . , xp se tiene [VM ]jk = cov(xj ,xk) var xk , donde cov(xj , xk) es la covarianza entre xj y xk. Luego, se tiene traza(VM) = p. Adema´s, el j-e´simo elemento de la diago- nal de (VM)2 es: ∑p k=1 cov(xj ,xk) var xk cov(xk ,xj) var xj = ∑p k=1 ρ 2(xj , xk), por lo que traza(VM)2 =∑p j=1 ∑p k=1 ρ 2(xj, xk), y finalmente Neq(X,D1/σ2 ) = p2∑p j=1 ∑p k=1 ρ 2(xj ,xk) . Para M = D1/σ2 , la igualdad 1 permite reducir la complejidad del ca´lculo del Neq: en efecto, como el ca´lculo de cada correlacio´n es en O(n), la suma de los cuadrados de las p2 correlaciones –y por consiguiente el ca´lculo del Neq– es de complejidad O(np2), mientras que con la definicio´n general 1, la complejidad del ca´lculo del Neq es en al menos O(np3). Observacio´n: De la demostracio´n anterior se deduce inmediatamente que si Ip es la ma- triz identidad de orden p, entonces Neq(X, Ip) = ( ∑p j=1 var x j)2/ ∑p j=1 ∑p k=1 cov 2(xj , xk). En este caso, la complejidad del ca´lculo del Neq es tambie´n en O(np2).  La siguiente propiedad establece claramente el sentido de “nu´mero de unidades de informacio´n independientes” que posee el nu´mero equivalente en este contexto. Corolario 3 Sea M = D1/σ2 . Si se tienen m clases de variables K1, . . . ,Km de mismo cardinal s y tales que ∀(xj , xj ′ ) ∈ K` ×K`′ ρ 2(xj , xj ′ ) = δ``′, entonces Neq(X,M) = m. Demostracio´n: Se tiene ∑p j=1 ∑p k=1 ρ 2(xj, xk) = ∑m `=1 card 2(K`) = ms 2 y p2 = ( ∑m `=1 card(K`)) 2 = (ms)2. Por lo tanto Neq(M) = m 2s2 ms2 = m. En presencia de grupos de variables con correlaciones intra elevadas y correlaciones inter bajas, el Neq tendra´ un valor vecino al nu´mero de grupos: este resultado es una ilustracio´n suplementaria del poder de medida de redundancia de la informacio´n que hemos mencionado que posee el Neq. 3 Aplicaciones En sus trabajos originales, G. Der Me´gre´ditchian estudio´ la aplicacio´n del Neq para de- terminar el nu´mero de estaciones de observacio´n meteorolo´gica necesarias para tener toda la informacio´n pertinente, de manera tal que no se repita la informacio´n aportada por dos estaciones diferentes. Como hemos dicho, estos trabajos estaban enmarcados en un contexto probabil´ıstico. Nosotros hemos encontrado, a partir de los desarrollos de la 78 j. trejos seccio´n anterior, algunas aplicaciones que pueden ser interesantes en el Ana´lisis Multivari- ado de Datos segu´n la Escuela Francesa, es decir, sin asumir distribuciones de probabilidad teo´ricas a priori en los datos. 3.1 Ana´lisis en componentes principales: determinacio´n del nu´mero de factores El ana´lisis en componentes principales (A.C.P.) trata de encontrar un conjunto de q vari- ables sinte´ticas Cj a partir de una tabla de datos descrita por p variables cuantitativas x1, . . . , xp, tales que las Cj sean no correlacionadas y con inercia ma´xima, en el sentido que la proyeccio´n de la nube de puntos–individuos en IRp sobre el espacio generado por las Cj tenga inercia ma´xima [1, 5, 6, 7, 8, 14]. En el caso usual, las variables esta´n centradas y se estandarizan, por lo que la me´trica en IRp es M = D1/σ2 . Es sabido que la solucio´n de este problema se obtiene a partir de la diagonalizacio´n de la matriz VM , producto de la matriz V de varianzas–covarianzas y la me´trica M sobre IRp, por lo que cuando M = D1/σ2 los valores y vectores propios de VM se obtienen a partir de la matriz de correlaciones. Uno de los problemas ligados a la pra´ctica del A.C.P. es el de la determinacio´n del nu´mero q de componentes principales (es claro que q < p para que tenga sentido hacer el ana´lisis). Diversos autores [1, 6, 7, 8] han propuesto algunos criterios emp´ıricos, tales como: 1. Tomar q tal que la inercia explicada por C1, . . . , Cq sobrepase un umbral (porcentual, por ejemplo 70% u 80%) de la inercia total de la nube de puntos–individuos. 2. Tomar q tal que el diagrama de los valores propios de VM , ordenados en orden decreciente, muestre el punto donde el decrecimiento se aprecie como estable (este me´todo es conocido como el me´todo del “codo”). 3. En el caso usual de la me´tricaM = D1/σ2 , tomar q como el nu´mero de valores propios de VM mayores que 1; este criterio esta´ basado en el hecho que, para variables estandarizadas, las variables originales tienen varianza 1, y como la varianza de una componente principal es el valor propio al que esta´ asociada, entonces no tiene sentido tomar componentes principales con varianza menor que la de las variables originales. 4. Tomar tantas componentes principales como sean necesarias, en el sentido que una componente principal Cj es “interpretable” cuando hay por lo menos un individuo tal que el coseno cuadrado entre su vector en IRp y su proyeccio´n sobre Cj es mayor que 0.5, o bien cuando la correlacio´n entre al menos una variable original y Cj es 0.7. Ninguno de estos criterios es un criterio absoluto, antes bien se pregoniza la utilizacio´n conjunta de varios de ellos para decidir, lo mejor posible, la escogencia de q, y se llega incluso a afirmar que esta escogencia depende en mucho de la experiencia del analista. ¿Puede entonces darse una herramienta confiable que pueda servir al usuario, lego en la materia, para la determinacio´n de q? Nosotros pensamos que el nu´mero equivalente el nu´mero equivalente como medida de la informacio´n en ana´lisis de datos79 puede ayudar a responder a esta cuestio´n. En efecto, por tratarse de una medida de la informacio´n independiente contenida en una tabla de datos, es posible que ayude a decidir cua´ntos factores guardar de un A.C.P. Con el fin de estudiar esta posibilidad, calculamos el Neq sobre varias tablas de datos, y comparamos el resultado con los criterios 1 y 3 mencionados arriba. Los resultados para varias tablas de datos se dan en la tabla 1. Los datos de las tablas correspondientes se pueden solicitar al autor. Tabla de datos n p Neq r Valores propios Inercia Notas escolares F 9 5 2.36 2 λ1 = 2.87 56% λ2 = 1.13 80% λ3 = 0.98 99% Notas escolares CR 10 5 2.24 2 λ1 = 2.89 58% λ2 = 1.62 90% Peces de Amiard 23 16 3.43 3 λ1 = 7.52 46% λ2 = 3.69 70% λ3 = 1.52 80% λ4 = 0.94 86% Sociomatriz de Thomas 24 24 7.42 7 λ1 = 5.25 22% λ2 = 4.72 42% λ3 = 3.92 58% ... ... λ8 = 0.84 87% Iris de Fisher 150 4 1.70 1 λ1 = 2.50 62% λ2 = 0.91 85% Prote´ınas 25 9 3.80 3 λ1 = 4.00 44% λ2 = 1.63 63% λ3 = 1.12 75% λ4 = 0.95 85% Pintores 24 4 2.52 1 λ1 = 2.27 57% λ2 = 0.98 81% Tabla 1: Comparacio´n entre el nu´mero equivalente (Neq) y el nu´mero r de valores propios mayores que 1, para varias tablas de datos de dimensiones n (nu´mero de individuos) por p (nu´mero de variables). Puede verse en la tabla que el Neq tiende a ser superior al nu´mero de valores propios mayores que uno. Por lo tanto, es posible que el nu´mero equivalente tienda a sobreestimar el nu´mero de factores importantes de un A.C.P. Esta observacio´n puede ser de utilidad para el usuario nuevo en el campo, que puede tener cierta aprehensio´n a dejar de lado informacio´n que puede ser u´til para su estudio. Por ello, el nu´mero equivalente podr´ıa servirle como nu´mero de componentes principales suficientes para tomar en cuenta. 80 j. trejos 3.2 Clasificacio´n por particiones: determinacio´n del nu´mero de clases En clasificacio´n automa´tica, los me´todos de particionamiento tratan de obtener una par- ticio´n de un conjunto de objetos sobre los que se han observado una serie de variables, de manera tal que los elementos de una misma clase sean lo ma´s parecidos posible, y los elementos de clases distintas sean bastante diferentes [1, 5, 7, 14]. Usualmente, se aplican me´todos que fijan a priori el nu´mero de clases, tales como los me´todos de nubes dina´micas, de las k-medias, de transferencias, etc., al contrario de me´todos como Isodata que estiman el nu´mero de clases pero con base en un gran nu´mero de para´metros dif´ıciles de controlar para un usuario poco experimentado. Ser´ıa por lo tanto u´til contar con un me´todo que estime el nu´mero de clases antes de implementar la metodolog´ıa de particionamiento. Para abordar esta cuestio´n, hemos pensado en usar una adaptacio´n del nu´mero equiv- alente que presentamos anteriormente. En efecto, los me´todos de particionamiento buscan tipolog´ıas de los individuos, mientras que los me´todos factoriales hacen tipolog´ıas de las variables. Las medidas del “parecido” entre individuos generalmente esta´n basadas en criterios de disimilitud o distancia: entre menor sea el ı´ndice ma´s parecidos son los ob- jetos, mientras que las medidas del “parecido” entre variables esta´n basadas en criterios de asociacio´n estad´ıstica, tales como la correlacio´n lineal: entre mayor sea el ı´ndice de asociacio´n ma´s parecido es el comportamiento de las variables. Sea Ω un conjunto de n individuos, sobre los que se dispone de una medida de disimil- itud d : Ω × Ω→ IR+ (d puede ser una distancia). Sea d∗ el ma´ximo valor que alcanza d sobre Ω× Ω, entonces se define la similitud s: s(i, j) = (d∗)2 − d2(i, j) (d∗)2 Obse´rvese que as´ı el valor ma´ximo de s(i, j) es 1, y corresponde al caso en que i = j. Se denota S la matriz de similitudes calculadas sobre los elementos de Ω. Definicio´n 2 Dado un conjunto Ω con una medida de similitud s : Ω × Ω → [0, 1], se define el nu´mero equivalente Neq(Ω, S) por: Neq(Ω, S) = (trazaS)2 traza(S2) = n2 n∑ i=1 n∑ j=1 s2(i, j) Adaptando la proposicio´n 3 a la definicio´n anterior, se tiene el resultado enunciado en la proposicio´n 4. Proposicio´n 4 Si existe una particio´n C1, . . . , Ck de Ω en k clases de mismo cardinal pi, tales que ∀(i, j) ∈ C` × C`′ s(i, j) = δ``′ , entonces Neq(Ω, s) = k. El resultado anterior sugiere que, si se tienen k clases bastante homoge´neas y de cardi- nal similar, el nu´mero equivalente puede dar una aproximacio´n de ese nu´mero de clases. En caso que las clases no tengan mismo cardinal, entonces Neq(Ω, s) = ( ∑k `=1 pi`) 2/ ∑k `=1 pi 2 ` , donde pi` es el cardinal de la clase C`. el nu´mero equivalente como medida de la informacio´n en ana´lisis de datos81 Hemos medido el nu´mero equivalente definido sobre una matriz de similitudes, para algunas de las tablas de datos estudiadas anteriormente. Estos resultados se dan en la tabla 2. Para algunas de las tablas mostradas, el nu´mero equivalente da una idea del nu´mero de clases que podr´ıan tomarse en una clasificacio´n. Recue´rdese que los a´rboles de clasificacio´n jera´rquica construidos ascendentemente, normalmente dan buenas agrupaciones en las partes bajas del a´rbol pero la calidad de la clasificacio´n disminuye conforme se asceinde en la construccio´n. Contrariamente, los a´rboles construidos descendentemente dan una mejor calidad en las partes superiores la calidad dismunuye en las partes inferiores. Estas comparaciones deben ser ampliadas, con diversos me´todos de clasificacio´n, as´ı como con diversos criterios de estimacio´n del nu´mero de clases. En [9] se propone un ı´ndice para “cortar” un a´rbol de clasificacio´n jera´rquica, basado en conjuntos difusos. Adema´s se hacen comparaciones entre 8 ı´dices para estimar el nu´mero de clases, entre ellos el que aqu´ı proponemos basado en el nu´mero equivalente. Una pro´xima publicacio´n dara´ cuenta de estas comparaciones. Tabla de datos n p Neq Notas escolares F 9 5 3.00 Notas escolares CR 10 5 3.21 Peces de Amiard 23 16 2.24 Sociomatriz de Thomas 24 24 4.68 Iris de Fisher 150 4 2.14 Prote´ınas 25 9 2.76 Pintores 24 4 2.92 Tabla 2: Comparacio´n entre el nu´mero equivalente (Neq) y el nu´mero de clases sugeridas por el a´rbol de clasificacio´n jera´rquica, para varias tablas de datos de dimensiones n (nu´mero de individuos) por p (nu´mero de variables). A manera de ilustracio´n, presentamos en las figuras 1 y 2 los a´rboles de clasificacio´n jera´rquica para las tablas de notas escolares, construidos usando el ı´ndice de agregacio´n de Ward. Hemos de decir que, a pesar de que segu´n el a´rbol jera´rquico correspondiente a las notas escolares costarricenses, aparentemente hay dos “clases naturales” entre los individuos, en realidad hay tres clases naturales. Para ello puede verse el primer plano principal obtenido a partir del A.C.P., que se muestra en la figura 3. 3.3 Generacio´n de reglas: determinacio´n del nu´mero de componentes de una conjuncio´n En el disen˜o de un sistema experto, en ocasiones se recurre a me´todos automa´ticos para la elaboracio´n de una base de conocimiento formada por reglas; estos me´todos se llaman usualmente generadores de reglas. Nosotros hemos trabajado [10, 11, 13, 16] sobre un me´todo basado en principios estad´ısticos y eucl´ıdeos. Se dispone de un conjunto de p variables cualitativas explicativas x1, . . . , xp y de una variable cualitativa a explicar y, y se quiere obtener reglas del tipo Cj → yk sabiendo 82 j. trejos Didier Monique Evelyne Pierre Anne Brigitte Andre´ Alain Jean Figura 1: Arbol de clasificacio´n jera´rquica segu´n Ward para la tabla de n otas escolares francesas I[yk|Cj], donde Cj es una conjuncio´n de modalidades de las variables explicativas, yk es una modalidad de la variable a explicar, e I es una medida de la incertidumbre. El me´todo esta´ basado en el uso de medidas de asociacio´n sime´tricas entre las modalidades explicativas y disime´tricas entre e´stas y las modalidades a explicar, y hace uso de estas medidas para representar las modalidades en espacios eucl´ıdeos apropiados con el fin de detectar las reglas mediante heur´ısticas de reduccio´n de la dimensio´n y de agrupamiento. El me´todo es iterativo, y en la primera iteracio´n solamente analiza las modalidades, esto es, las conjunciones de longitud uno. Para la segunda iteracio´n, se an˜aden las premisas de las reglas encontradas, y se hace una etapa de bu´squeda de nuevas conjunciones de longitud dos, mediante el cruce de modalidades explicativas (esta etapa tambie´n esta´ basada en te´cnicas de clasificacio´n). Con el nuevo conjunto de conjunciones se buscan las reglas y se reiteran las dos operaciones: creacio´n de nuevas conjunciones explicativas y bu´squeda de reglas. Se plantea entonces un problema: ¿Cua´ntas iteraciones hacer? ¿Sera´ necesario hacer p iteraciones o bastara´ con hacer un cierto nu´mero, menor que p, a partir del cual la informacio´n obtenida sera´ redundante? Para limitar la longitud de las conjunciones ex- plicativas, hemos usado el nu´mero equivalente, calculado sobre la tabla de contingencia definida por las indicatrices de las modalidades explicativas, usando la me´trica de chi– cuadrado. Para ilustrar las aplicaciones de este generador de reglas, damos algunos resul- tados obtenidos en la tabla 3. Estos resultados sugieren de nuevo que el nu´mero equivalente da una idea del nu´mero de unidades de informacio´n independientes. Introduccio´n de nuevas variables El algoritmo de generacio´n de reglas construye, a cada etapa, nuevas conjunciones ex- plicativas mediante la interseccio´n de conjunciones explicativas existentes; por lo tanto nos propusimos estudiar la evolucio´n del Neq cuando se an˜aden nuevas variables en una tabla de datos. el nu´mero equivalente como medida de la informacio´n en ana´lisis de datos83 Luis Sonia Carlos Andre´s Pedro Jose´ Mar´ıa Ana Carmen Luc´ıa Figura 2: Arbol de clasificacio´n jera´rquica segu´n Ward para la tabla de notas escolares costarricenses Eje 2 Eje 1 6 ? -ff % Inercia 70.62 ?Lucia ?Pedro ?Carmen ?Luis ?Andres ?Ana ?Carlos ?Jose ?Sonia ?Maria Figura 3: Primer plano principal del A.C.P. para la tabla de notas escolares costarricenses Proposicio´n 5 Si Neqp(X,D1/σ2) es el nu´mero equivalente asociado a las p variables x1, . . . , xp que definen la tabla X, para M = D1/σ2 , entonces el nu´mero equivalente Neqp+q(X˜,D1/σ2) asociado a las p + q variables x 1, . . . , xp, xp+1, . . . , xp+q que definen la tabla X˜, para M = D1/σ2 , es igual a: Neqp+q(X˜,D1/σ2) = (p+ q)2 p2 Neqp(D1/σ2 ) + 2ρInter(p,q) + ρIntra(q) donde ρInter(p,q) = ∑p j=1 ∑q k=1 ρ 2(xj , xp+k) es la suma de las correlaciones inter los grupos {x1, . . . , xp} y {xp+1, . . . , xp+q}, y ρIntra(q) = ∑q j=1 ∑q k=1 ρ 2(xp+j, xp+k), la suma de las correlaciones intra el grupo {xp+1, . . . , xp+q}. 84 j. trejos Tabla de datos n p Neq nu´mero de reglas nu´mero de reglas con premisa de longitud > Neq Datos simulados 100 3 1.64348 9 3 (de longitud 2) Datos simulados 20 5 2.134 19 2 (de longitud 3) Datos zoolo´gicos 101 16 7.0 185 0 (hay una de longitud 7) Tabla 3: Resultados del uso de nu´mero equivalente respecto al me´todo de generacio´n de reglas, donde n es el nu´mero de individuos y p el nu´mero de variables explicativas. Demostracio´n: Segu´n la proposicio´n 2, se tiene: Neqp(X,D1/σ2) = p2∑p j=1 ∑p k=1 ρ 2(xj ,xk) y Neqp+q(X˜,D1/σ2) = (p+q)2∑p+q j=1 ∑p+q k=1 ρ 2(xj ,xk) . Adema´s: p+q∑ j=1 p+q∑ k=1 ρ2(xj , xk) = p∑ j=1 p∑ k=1 ρ2(xj , xk) + 2 p∑ j=1 q∑ k=1 ρ2(xj , xp+k) + q∑ j=1 q∑ k=1 ρ2(xp+j, xp+k) = p2 Neqp(X,D1/σ2) + 2ρInter(p,q) + ρIntra(q) de donde se deduce el resultado. Puede observarse que cuando se introduce una sola variable nueva xp+1 (i.e. q = 1), se tiene: Neqp+1(X˜,D1/σ2) = (p+ 1)2 p2 Neqp(X,D1/σ2 ) + 2 ∑p j=1 ρ 2(xj , xp+1) + 1 (2) Una condicio´n necesaria y suficiente para que el nu´mero equivalente Neqp+1(X˜,D1/σ2) asociado a las p + 1 variables x1, . . . , xp, xp+1, sea superior a Neqp(X,D1/σ2), el nu´mero equivalente asociado a las p variables x1, . . . , xp, es que Neqp(X,D1/σ2) < 2p + 1 2 ∑p j=1 ρ 2(xj , xp+1) + 1 En efecto, por la igualdad 2 se tiene Neqp+1(X˜,D1/σ2) > Neqp(X,D1/σ2 ) si y so´lo si (p+1)2 p2 Neqp(X,D1/σ2 ) +2 ∑p j=1 ρ 2(xj ,xp+1)+1 > Neqp(X,D1/σ2) lo que es equivalente a (p + 1) 2 > p2 + Neqp(X,D1/σ2 ) [ 2 ∑p j=1 ρ 2(xj , xp+1) + 1 ] , puesto que el denominador deNeqp+1(X˜,D1/σ2) es positivo 4 Conclusiones y perspectivas El nu´mero equivalente tiene propiedades interesantes que pueden explotarse en ana´lisis de datos. Las aplicaciones mostradas han ayudado a abordar problemas abiertos que tiene el el nu´mero equivalente como medida de la informacio´n en ana´lisis de datos85 ana´lisis de datos, pudie´ndose aun profundizar en algunas propiedades teo´ricas que podr´ıan ayudar a esclarecer mejor los problemas planteados. Sin embargo, las investigaciones deben continuarse para hacer comparaciones con me´- todos y criterios existentes para la determinacio´n del nu´mero de factores en un ana´lisis factorial o el nu´mero de clases en clasificacio´n automa´tica. Tambie´n debe tratar de generalizarse al caso en que se tenga una tabla con variables cualitativas, o cuando se tiene una tabla de contingencia. Este u´ltimo caso ser´ıa particu- larmente u´til para estimar el nu´mero de componentes en un Ana´lisis de Correspondencias. Por otro lado, es posible que el nu´mero equivalente encuentre aplicaciones en otros campos del ana´lisis de datos, como en regresio´n y en discriminacio´n. En efecto, uno podr´ıa pensar en abordar el problema del nu´mero de variables explicativas necesarias para un problema de regresio´n (no necesariamente lineal, y sin suponer ninguna distribucio´n de probabilidad, ni en las variables activas ni en los residuos); as´ı mismo, se podr´ıa pensar en que el nu´mero equivalente puede ser u´til para la determinacio´n del nu´mero de variables explicativas significativas en discriminacio´n (de nuevo sin hacer hipo´tesis de probabilidad). Por otra parte, el conocido problema de la determinacio´n del nu´mero de neuronas en una red neuronal con una capa escondida (para la aplicacio´n del me´todo de retropropagacio´n del gradiente), podr´ıa encontrar alguna luz desde el punto de vista del nu´mero equivalente, adaptando su definicio´n al uso de los pesos sina´pticos entre las neuronas. Estas cuestiones sera´n estudiadas en futuras investigaciones dentro del Programa de Investigacio´n en Mod- elos y Ana´lisis de Datos de la Universidad de Costa Rica. Referencias [1] Cailliez, F.; Page`s, J.P. (1976) Introduction a` l’Analyse des Donne´es. Socie´te´ de Mathe´matiques Applique´es et de Sciences Humaines, Paris. [2] Der Me´gre´ditchian, G. (1979) “L’optimisation des re´seaux d’observation des champs me´te´orologi- ques”, La Me´te´orologie, 6(17): 51–66. [3] Der Me´greditchian, G. (1988) “Ana´lisis espacial de los campos meteorolo´gicos y aplicacio´n a la optimizacio´n de redes de medida”. En: Memorias IV Simposio Me´todos Matema´ticos Aplicados a las Ciencias, B. Montero & J. Poltronieri (eds.), 1984, Editorial de la Universidad de Costa Rica, pp. 1–34. [4] Der Me´greditchian, G. (1988) “Condensacio´n o´ptima de la informacio´n meteorolo´gica por medio del ana´lisis en componentes principales”. En: Memorias IV Simposio Me´todos Matema´ticos Aplicados a las Ciencias, B. Montero & J. Poltronieri (eds.), 1984, Editorial de la Universidad de Costa Rica, pp. 35–61. [5] Diday, E.; Lemaire, J.; Pouget, J.; Testu, F. (1982) Ele´ments d’Analyse de Donne´es. Dunod, Paris. [6] Escofier, B.; Page`s, J. (1988) Analyses Factorielles Simples et Multiples: Objectifs, Me´thodes et Interpre´tation. Dunod, Paris. [7] Jambu, M. (1989) Exploration Informatique et Statistique des Donne´es. Dunod, Paris. [8] Lebart, L.; Morineau, A.; Fe´nelon, J.-P. (1985) Tratamiento Estad´ıstico de Datos. Me´todos y Pro- gramas. Marcombo, Barcelona. 86 j. trejos [9] Murillo, A. (1996) Proposicio´n de un ı´ndice para la interpretacio´n de a´rboles de clasificacio´n basado en conjuntos difusos. Tesis para optar al grado de Magister Scientiæ en Computacio´n, Instituto Tecnolo´gico de Costa Rica, Cartago. [10] Schektman, Y.; Trejos, J.; Troupe´, M. (1992) “Un ge´ne´rateur de re`gles floues a` partir de bases de donne´es volumineuses”. En: Actes des 3-e`mes Journe´es Symbolique–Nume´rique, Universite´ Paris IX–Dauphine, pp. 121–130. [11] Schektman, Y.; Trejos, J.; Troupe´, M. (1994) “Generacio´n de reglas estad´ısticas a partir de grandes bases de datos”, Revista de Matema´tica: Teor´ıa y Aplicaciones, 1(1): 87-100. [12] Trejos, J. (1994) “Generacio´n de reglas: un enfoque estad´ıstico y eucl´ıdeo”. En Memorias del II Encuentro Centroamericano de Investigadores en Matema´ticas, I parte, G. Mora (ed.), 19-28. [13] Trejos, J. (1994) Contribution a` l’Acquisition Automatique de Connaissances a` Partir de Donne´es Qualitatives. The`se de doctorat, Universite´ Paul Sabatier, Toulouse. [14] Trejos, J. (1995) Principios de Ana´lisis Multivariados de Datos. Notas de curso, Universidad de Costa Rica, San Pedro. [15] Trejos, J. (1996) “Propiedades y aplicaciones del nu´mero equivalente en ana´lisis de datos”, it IV Encuentro Centroamericano de Investigadores en Matema´tica, Antigua Guatemala, 17–19 enero. [16] Troupe´, M. (1994) Contribution a` la Re´gression Multiple Multidimensionnelle et a` la Ge´ne´ration de Re`gles Incertaines. The`se de doctorat, Universite´ Paul Sabatier, Toulouse.