REVISTA DE MATEMÁTICA: TEORÍA Y APLICACIONES 2014 21(1) : 85–106 CIMPA – UCR ISSN: 1409-2433 GNM-NIPALS: ESTIMACIÓN GENERAL NO MÉTRICA Y NO LINEAL POR MÍNIMOS CUADRADOS PARCIALES ITERATIVOS GNM-NIPALS: GENERAL NONMETRIC–NONLINEAR ESTIMATION BY ITERATIVE PARTIAL LEAST SQUARES TOMÁS ALUJA∗ VÍCTOR MANUEL GONZÁLEZ† Received: 7/May/2013; Revised: 14/Nov/2013; Accepted: 15/Nov/2013 ∗Laboratori de Modelització i Anàlisi de la Informació (LIAM), Universitat Politècnica de Catalunya, Barcelona, España. E-Mail: tomas.aluja@upc.edu †Docente, Universidad del Valle, Cali, Colombia. E- Mail: victor.m.gonzalez@correounivalle.edu.co, vic- tor.manuel.gonzalez.rojas@upc.edu 85 86 T. ALUJA – V.M. GONZÁLEZ Resumen En este trabajo se desarrolla GNM-NIPALS para formar parte de los métodos NM-PLS, el cual permite cuantificar las variables cualitativas de una matriz de datos mixtos mediante una función lineal de k componentes principales, tipo reconstitución, maximizando la inercia en el plano k- dimensional asociado al ACP de la matriz así cuantificada. Es entonces una generalización del algoritmo NM-NIPALS que usa solo la primera componente principal en la cuantificación de variables cualitativas. De la maximización y positividad de la razón de correlación entre cada variable cualitativa y la función reconstituida, se tiene que la inercia acumulada en el plano k-dimensional asociado a la función de cuantificación del mismo rango, es mayor o igual que la generada en planos de igual dimensión pero con funciones de cuantificación de diferente rango. Con las k componentes principales asociadas a la matriz así cuantificada, se desarrolla el análisis de inercia saturada para evaluar si aún existe una dimensión k∗ < k, a partir de la cual la inercia acumulada en los ejes de orden igual o superior ya esta explicada, caso en el cual la función de cuantificación definitiva es de rango menor (k∗). Palabras clave: NM-PLS, ACP, datos mixtos, cuantificación, k-dimensional, inercia saturada, maximal, razón correlación. Abstract This paper develops GNM-NIPALS as an extension of the NM-PLS methods, which allows to quantify the qualitative variables of mixed data, by means of the reconstitution function using the first k principal com- ponents, maximizing the inertia in the plane k subspace associated with the PCA of the quantified matrix. It generalizes the NM-NIPALS algo- rithm in the sense that the latter only uses the first principal component in the quantification of qualitative variables. From the maximization and positivity of the correlation ratio between each qualitative variable and the reconstituted function, we have that the accumulated inertia on the k- dimensional subspace associated to the quantification function of the same range is greater than or equal to the one generated on subspaces of equal dimension, but with quantification functions of different range. With the k principal components associated to the quantified matrix, a saturated in- ertia analysis is performed to evaluate if a dimension k∗ < k still exists, from which the accumulated inertia on the axes of equal or superior order is already explained, in which case the definitive quantification function is of lesser range (k∗). Keywords: NM-PLS, PCA, mixed data, quantification, k-dimensional, saturated inertia, maximal, correlation ratio. Mathematics Subject Classification: 62H25. Rev.Mate.Teor.Aplic. (ISSN 1409-2433) Vol. 21(1): 85–106, January 2014 GNM-NIPALS: ESTIMACIÓN GENERAL NO MÉTRICA Y NO LINEAL 87 1 Introducción Muchas de las bases de datos creadas para implementar análisis estadísticos sue- len estar conformadas por datos mixtos, esto es, contienen tanto variables cuan- titativas como cualitativas. La mayoría de los análisis clásicos multivariantes Lebart et al. (2006) [3], requieren en su desarrollo que las variables sean de tipo cuantitativo; el Análisis de Componentes Principales (ACP) es muy útil para estudiar especialmente en el primer plano factorial las relaciones entre indivi- duos y variables de tipo cuantitativo (métricas), sin embargo el tratamiento de datos mixtos propuesto en este trabajo, requiere que las variables cualitativas sean cuantificadas óptimamente, para ser incluidas como parte activa del análisis factorial junto a las variables cuantitativas. Se sabe que remplazar cada variable cualitativa por su correspondiente ma- triz indicadora y luego desarrollar un ACP conlleva problemas de comparación de pesos entre las variables numéricas y las indicadoras, afectación (disminución proporcional) de la inercia en los primeros factores debido a la ortogonalidad de las indicadoras e incremento innecesario de la dimensionalidad (matrices espar- cidas) dificultando la capacidad de síntesis en el análisis. Russolillo (2012) [4] presenta el método NM-NIPALS (Non Metric – Non- linear estimation by Iterative PArtial Least Squares) y desarrolla algorítmica- mente el ACP en una matriz de datos mixtos que contiene n individuos y p∗ = p+ q variables con diferentes escalas de medida; q de ellas cualitativas. Con el método NM-NIPALS se cuantifica bajo un criterio de optimización cada variable cualitativa, como un todo, conservando las propiedades de perte- nencia y orden (si existe) implícitas en las categorías correspondientes. El NM- NIPALS aprovecha la flexibilidad del algoritmo NIPALS, Wold (1975) [7], para en una primera fase del proceso cuantificar las variables cualitativas a partir de la primera componente principal t1 que se obtiene iterando hasta la convergencia. En este artículo, se presenta una generalización de NM-NIPALS, denomi- nado GNM-NIPALS, el cual implementa la cuantificación a partir de una fun- ción lineal γ = f(th) de h componentes principales vía reconstitución de la qe´sima variable como en ACP, Aluja & Morineau (1999) [1], es decir de la forma f(th) = p1q t1 + p2qt2 + . . . + phqth, donde phq es la q-ésima coordenada del vector propio Ph. Las h componentes principales t1, t2, . . . , th que sirven de ini- cio en el algoritmo y que son proporcionadas por la matriz de datos cuantitativos Xp, indican la dimensión de la función de reconstitución. El criterio de optimización asociado a la cuantificación se deriva del hecho de que la razón de correlación ηγ|Xq es máxima y positiva, Saporta (2011) [5], conllevando la generación de máxima inercia en el plano h-dimensional; con lo cual para h = 1, GNM-NIPALS es equivalente a NM-NIPALS y se tendrá Rev.Mate.Teor.Aplic. (ISSN 1409-2433) Vol. 21(1): 85–106, January 2014 88 T. ALUJA – V.M. GONZÁLEZ máxima inercia en el primer eje factorial; ninguna otra cuantificación presenta mayor inercia en el primer eje. Para h = 2 se tendrá máxima inercia en el primer plano factorial, y ninguna otra cuantificación presenta mayor inercia en R2; y así sucesivamente. La matriz cuantificada presenta de hecho una estructura inercial decreciente eje por eje de acuerdo con la descomposición espectral; sin embargo, de las propiedades de la razón de correlación, cada función de cuantificación f(tk) hace que la inercia generada en el plano de igual dimensión (k) sea maximal, tal que la inercia de cualquier otro plano k-dimensional derivado de otra función f(th) es inferior para todo h 6= k. La dimensión “ideal” de la función de cuantificación se puede determinar aplicando la regla de Cattell sobre la gráfica de inercia maximal acumulada eje por eje, identificando el punto k optimal a partir del cual la información de los ejes restantes no es relevante, y la función de cuantificación sería, f(tk) = p1qt1 + p2qt2 + . . .+ pkqtk. Con la matriz k cuantificada, se desarrolla el análisis de Saturación de Inercia Explicada (SIE) para evaluar si las primeras k∗ < k de las componentes finales involucradas en la cuantificación ya contienen la inercia explicada en los planos de dimensión k∗, . . . , k, . . . , p∗. Si es así, entonces la función de cuantificación definitiva es: f(tk∗) = p1q tk1 + p2qtk2 + . . . + pk∗qtkk∗ donde el superíndice k indica que son las componentes finales que se obtuvieron con la función f(tk). Estas propiedades y algunas otras características también serán estudiadas aprovechando la ortogonalidad de las componentes principales t1, . . . , tk con- sideradas en f(tk). La aplicación se desarrolla tomando como base de datos el grupo gustación del ejemplo vinos, ver Escofier & Pagès (1992) [2]. El software utilizado es del entorno R, y las principales funciones desarrolladas proveen los resultados presentados. Ya que la base fundamental de este trabajo reside en el método NIPALS, la sección dos iniciará explicando la conceptualización de este procedimiento y luego se expondrá lo relacionado con el NM-NIPALS; al final de la sección se presenta el procedimiento algorítmico objeto de este artículo denominado GNM- NIPALS y fundamentado en los métodos NM-PLS. La sección tres contiene la interpretación y resultados del ejemplo de apli- cación de GNM-NIPALS y finalmente en la sección cuatro se dan las conclu- siones evidenciando la ganancia de inercia frente al NM-NIPALS. Rev.Mate.Teor.Aplic. (ISSN 1409-2433) Vol. 21(1): 85–106, January 2014 GNM-NIPALS: ESTIMACIÓN GENERAL NO MÉTRICA Y NO LINEAL 89 2 Metodologías 2.1 El algoritmo NIPALS NIPALS es la base de la regresión PLS, Tenenhaus (1998) [6]. Fundamental- mente realiza una descomposición singular de una matriz de datos, mediante secuencias iterativas de proyecciones ortogonales (concepto geométrico de re- gresión) obtenidas como productos escalares. Con bases de datos completas se tiene equivalencia con los resultados del ACP; además, y esta quizá es su mayor virtud, se puede realizar el ACP con datos faltantes (missing data) y obtener sus estimaciones a partir de la matriz de datos reconstituida. Para la matriz de datos Xn,p de rango a cuyas columnas X1, . . . ,Xp se supo- nen centradas o estandarizadas, la descomposición derivada del ACP permite la reconstitución mediante el siguiente esquema: X = a∑ h thP ′ h (th es la h-ésima componente principal y representa los scores, y Ph es el vector propio o loadings en el eje h), por tanto, [X1 . . . Xp] = t1P ′ 1 + . . .+ taP ′ a. (1) Así, la variable Xj = a∑ h thphj , j = 1, . . . , p (1a) y la i-ésima fila (individuo) xi = a∑ h thiPh, i = 1, . . . , n. (1b) . Observe que si h = 1, la columna j se expresa como Xj = p1jt1 es decir phj = X ′ jth es como el coeficiente (pendiente) en la regresión sin intercepto de Xj sobre th, con lo cual para todas las j-variables se obtiene el h-ésimo vector propio Ph = (ph1, . . . , php). En el espacio filas, thi es el coeficiente de la regresión sin constante del individuo xi sobre Ph. Para h > 1, phj es el coeficiente de regresión de th en la regresión simple del vector deflactado Xj − ∑h−1 l pljtl sobre th. Así, el flujograma asociado al procedimiento iterativo 2.2 del algoritmo NIPALS es: Rev.Mate.Teor.Aplic. (ISSN 1409-2433) Vol. 21(1): 85–106, January 2014 90 T. ALUJA – V.M. GONZÁLEZ X = X0 - t1 - P + 1 = X ′t1/t ′ 1t1 - P1 = P+ 1 ‖P+ 1 ‖ fft1 = XP1/P ′1P1 6 Se construirá una serie de tablas notadas Xh cuyas columnas se denotan como Xhj y la i-ésima fila se notará x′hi. El algoritmo comienza tomando la matriz original como X0 e iniciando la primera componente principal t1 con la primera columna, X01; en realidad la inicialización de t1 puede ser el promedio de las variables o cualquier otra función lineal de las mismas. Con t1 se calcula X′ XP1︸︷︷︸ t1 = λP1 ⇒ X ′t1/λ = P1, que después de ser normado permite recalcular t1 e iterar hasta la convergencia; además, λ1 = 1n t ′ 1t1. Luego se deflacta la matriz mediante X1 = X0 − t1P ′1 para garantizar la ortogonalidad de las siguientes componentes, e inicia nuevamente el proceso de iteración con h = 2, 3, . . . , a. Para matrices con datos completos, el pseudo- algoritmo asociado a NIPALS es de la forma: Etapa 1. X0 = Xh Etapa 2. h = 1, 2, . . . , a : Etapa 2.1. th = 1a columna de Xh−1 Etapa 2.2. Repetir hasta la convergencia de Ph Etapa 2.2.1. Ph = X′ h−1 th t′ h th Etapa 2.2.2. Normar ph a 1 Etapa 2.2.3. th = Xh−1Ph/P ′hPh Etapa 2.3. Xh = Xh−1 − thP ′h [garantiza la ortogonalidad] Siguiente h. NIPALS entrega las componentes th y los vectores propios Ph correspon- dientes a la matriz X excepto tal vez por signo, tal como si se hubiese aplicado la función svd(X) de R. Rev.Mate.Teor.Aplic. (ISSN 1409-2433) Vol. 21(1): 85–106, January 2014 GNM-NIPALS: ESTIMACIÓN GENERAL NO MÉTRICA Y NO LINEAL 91 2.2 NM-NIPALS En el proceso de transformación, cada categoría observada en la variable no métrica cruda x∗ es remplazada por un valor numérico en escala de intervalo. La variable escalada xˆ debe preservar las propiedades grupales y de orden si es requerido. Respecto a la propiedad grupal, la variable escalada xˆ debe ser restringida tal que: x∗i ∼ x ∗ i′ ⇒ xˆi = xˆi′ donde ∼ significa pertenencia a la misma categoría. Si la variable a ser cuantificada es ordinal debe añadirse la restricción de orden (≺), con lo cual x∗i ∼ x ∗ i′ ⇒ xˆi = xˆi′ y x ∗ i ≺ x ∗ i′ ⇒ xˆi < xˆi′ . Se define la función de cuantificación q(), Young (1981) [8], como una fun- ción real aplicada a x∗ la cual genera un valor numérico optimo xˆ para cada observación. Bajo los métodos NM-PLS, la cuantificación de las k categorías de x∗ satisfaciendo la pertenencia grupal, corresponden con el vector generado por el proyector ortogonal de su matriz indicadora X˜ sobre el criterio latente (LC) γ o t más cercano: q˜(x∗, γ) : xˆ = X˜(X˜ ′X˜)−1X˜ ′γ = PX˜γ. (2) El coeficiente de determinación de esta regresión equivale al cuadrado de la razón de correlación de Pearson entre la variable categórica original y el LC. Por tanto la razón de correlación entre γ y x∗ que siempre es positiva puede ser expresada en términos de la correlación lineal de Pearson: cor(γ, xˆ) = ηγ|x∗ además η2γ|x∗ = R 2 (γ,x˜1,...,x˜k) = γ′PX˜γ/γ ′γ. Como R = supa1,...,ak r(γ; ∑k j=1 ajx˜j), de la razón de correlación se sabe que ese máximo se tiene para aj = γ¯j , con lo cual cada categoría j queda cuantifi- cada con la media de los valores de γ asociados a la j-ésima categoría, y por tanto con este procedimiento NM-NIPALS obtiene en cada cuantificación max{cor2(xˆ, t1)}. (3) Rev.Mate.Teor.Aplic. (ISSN 1409-2433) Vol. 21(1): 85–106, January 2014 92 T. ALUJA – V.M. GONZÁLEZ El pseudocódigo del algoritmo de NM-NIPALS es: Input X∗ Output Ph : [p1, . . . , ph]; Th : [t1, . . . , th]; Xˆ. 1. Inicializa t1 2. Repeat xˆq = q(x ∗ q , t1) # cuantificación mediante ecuación (2) Xˆ = [x1 . . . xˆq] p1 = Xˆ ′t1/(t ′ 1t1) p1 = p1/‖p1‖ t1 = Xˆp1 Until convergencia de p1. 3. E1 = Xˆ− t1p′1 4. for h = 2, . . . , p∗ Inicializa th 5. Repeat ph = E ′ h−1th/(t ′ hth) ph = ph/‖ph‖ th = Eh−1ph/(p ′ hph) Until convergencia de ph. 6. Eh = Eh−1 − thp′h 7. End. Note que en la fase 2 se cuantifica con el t1 inicial, luego se calcula p1 el cual permite a su vez recalcular t1 iterando así hasta la convergencia de p1. En el paso 3 se deflacta, y a partir de la etapa 4, se obtienen las demás componentes t1, . . . , tp∗ si Xˆ es de rango completo p∗. Para garantizar el orden se usa en vez de las indicadoras las matrices de or- den X¯ donde para cada individuo se tiene una de las siguientes recodificaciones según la categoría de orden asumida (a < b < . . . < k): a 1 0 . . . 0 b 1 1 . . . 0 . . . k 1 1 . . . 1 Rev.Mate.Teor.Aplic. (ISSN 1409-2433) Vol. 21(1): 85–106, January 2014 GNM-NIPALS: ESTIMACIÓN GENERAL NO MÉTRICA Y NO LINEAL 93 Luego, mediante regresión monótona de γ sobre X¯ se seleccionan las colum- nas (categorías-ordenadas) con coeficientes positivos, excepto con la categoría a que puede tener cualquier signo, para conformar la matriz de regresión ˜˜X. La exclusión de categorías con coeficientes de regresión negativos, induce empates con las categorías contiguas tomando por tanto el mismo valor de cuantificación. Así, para cada xˆq analizada a nivel de escala ordinal, la cuantificación está dada por: ˜˜q(x∗q, t1) : xˆq ∝ ˜˜Xq( ˜˜X ′q ˜˜Xq) −1 ˜˜X ′qt1 (4) Ahora, puesto que cor(xˆq, t1) ∝ p1q , cuando p1q > 0 una regresión monótona creciente es implementada; y si p 1q < 0 la regresión monótona es decreciente. Cuando p 1q ≈ 0 la relación es no monótona y la variable a cuantificar x∗q en general no contendrá orden. 2.3 GNM-NIPALS Si la matriz de datos para el análisis está constituida por múltiples dimensiones subyacentes significativas, es mucho más adecuado el uso de GNM-NIPALS que NM-NIPALS el cual se identifica más con sistemas de información unidi- mensionales que asocian factor tamaño. GNM-NIPALS es también un método algorítmico que busca, bajo un crite- rio de optimización, cuantificar las variables cualitativas de una matriz de datos mixtos mediante una función lineal de h componentes contenidas en la matriz de datos cuantitativos, esto es: f(th) = p1q t1 + p2q t2 + . . .+ phqth. (5) La función f(th) es una aplicación directa del concepto de reconstitución de una variable q derivada del ACP. Los pesos p hq (estandarizados) corresponden a la q-ésima coordenada del vector propio Ph asociado a la componente th del mismo rango; ver (1a). Por tanto, con cada phq se puede obtener la correlación de la variable q cuantificada con el eje h, que en este caso equivale a la razón de correlación ηγ|x∗q = cor(xˆq, γ), la cual es máxima y positiva, γ = phqth. Esta correlación se puede calcular bajo th ya que xˆqγ = PX˜qγ = phqPX˜q th = phq xˆqt. Por tanto ∀xq, cor(xˆqγ , γ) = cor(phq xˆqt, phqth) = cor(xˆqt, th). (6) Rev.Mate.Teor.Aplic. (ISSN 1409-2433) Vol. 21(1): 85–106, January 2014 94 T. ALUJA – V.M. GONZÁLEZ Observe que la correlación asociada a la cuantificación xˆqγ con γ es equivalente a la correlación cuantificando (xˆqt) con el t asociado. Sin embargo la cor(xˆqγ , th) toma el mismo valor excepto por el signo de p hq . El método inicia tomando h componentes asociadas a la matriz Xp (de rango completo) que contiene las p variables cuantitativas, lo cual garantiza la ortogo- nalidad al comenzar y una rápida convergencia. Con cada componente th de (5) se realiza la cuantificación xˆq como en (2) y se obtiene la correlación (6), la cual permite estimar el p hq correspondiente, que junto a las correlaciones de las va- riables cuantitativas con la misma componente, conducen a la conformación del vector propio Ph (normalizado) de dimensión p∗ . Se toman así las q-ésimas coordenadas de los vectores propios Ph permi- tiendo formular la función de inicio f(th) = p1q t1 + p2qt2 + . . . + phqth con la cual se comienza el proceso GNM-NIPALS para cuantificar la q-ésima variable cualitativa, iterando hasta la convergencia de los th y Ph; note que f(th) es un vector agregado de h componentes. Se debe distinguir las cargas (pesos) y componentes finales (alcanzadas en la convergencia) asociadas a cada matriz cuantificada por su correspondiente f(th). Así, si cuantificamos con f(t1) se tiene la matriz cuantificada XC1 de cuya descomposición singular obtenemos los vectores propios P a1 , P a2 , . . . , P ap∗ y las componentes principales ta1, ta2, . . . , tap∗ ; el superíndice a indica que la cuantifi- cación se realizó solo con la primera componente principal t1 de la matriz Xp. Si cuantificamos con las dos primeras componentes f(t2), de la matriz así cuantifi- cada XC2 obtendremos los vectores propios P b1 , P b2 , . . . , P bp∗ y las componentes principales tb1, tb2, . . . , tbp∗ , donde el superíndice b indica que la cuantificación se realizó con dos componentes. Observe entonces que ta1 6= tb1, ta2 6= tb2, . . .; las componentes del mismo or- den asociadas a una y otra matriz son diferentes. En general estas diferencias se presentan para cada cuantificación realizada según la dimensión h = 1, 2, . . . , p. De acuerdo con (2) haciendo γ = f(th), al cuantificar sin orden simultánea- mente cada variable cualitativa con h componentes, la cor2(xˆ, f(th)) sigue siendo máxima y crece hasta la unidad de acuerdo con f(tp∗), caso en el que se tiene rango completo (p∗) en la matriz cuantificada. Esta correlación maximal puede ser un índice de la dimensionalidad de f(t), ya que valores relativamente grandes, por ejemplo cor2(xˆ, f(th)) > 0.90 indican que h componentes serán suficientes para la cuantificación vía reconstitución; observe que con h = p∗ entonces cor2(xˆ, f(tp∗)) = 1, lo cual es coherente con el hecho de que ∑p∗ h=1 r 2 (Xj ,th) = 1. La propiedad de máxima correlación expuesta anteriormente, conlleva a que fundamentalmente con GNM-NIPALS se consigue máxima inercia en el plano Rev.Mate.Teor.Aplic. (ISSN 1409-2433) Vol. 21(1): 85–106, January 2014 GNM-NIPALS: ESTIMACIÓN GENERAL NO MÉTRICA Y NO LINEAL 95 h-dimensional derivado de la matriz cuantificada con h componentes: f(th) = p 1q t1+ p2q t2+ . . .+ phqth, h ≤ p. Así, para h = 1, f(t1) = p1q t1 induce máx- ima inercia proyectada en el primer eje y el proceso coincide con NM-NIPALS. Cuantificando con h = 2 y por tanto con f(t2) = p1q t1 + p2qt2, se consigue máxima inercia en el plano de los dos primeros ejes, tal que con ninguna otra cuantificación se consigue inercia superior en el primer plano factorial, esto es, se tiene que λa1 + λa2 ≤ λb1 + λb2; pero además, λa1 ≥ λb1. Sean th· = phqth y qh. = PIqth. la cuantificación asociada, donde PIq es el proyector ortogonal de las indicadoras de la variable q. En el caso, f(t2) = t12. = t1. + t2. la cuantificación asociada qb12. se consigue mediante qb12. = PIqt b 12. = PIqt b 1. + PIqt b 2. gracias a la convergencia y ortogonalidad de tb1., t b 2.. De la razón de correlación se tiene que r2(qb12., tb12.) = r2(qb12., tb1.) + r2(qb12., t b 2.) es máxima, induciendo máxima inercia en el plano generado por tb1, t b 2. Se muestra algorítmicamente que estos resultados se extienden a h = 3, . . . , p. Si h = 3 también se tiene que λa1 ≥ λc1 y que λb1 + λb2 ≥ λc1 + λc2. Así mismo, λc1 + λ c 2 + λ c 3 ≥ { λa1 + λ a 2 + λ a 3 λb1 + λ b 2 + λ b 3. Si denominamos XCk la matriz conteniendo las p variables cuantitativas (estandarizadas) y las q variables (cualitativas) cuantificadas y estandarizadas, es evidente que al realizar la descomposición singular de XCk se obtienen tantas componentes tk1 , tk2 , . . . , tks como el rango s de XCk, las mismas obtenidas en la convergencia de la cuantificación sin orden. De la ortogonalidad de las componentes finales y del concepto de inercia maximal descrito anteriormente, se presentan dos propiedades denominadas Iner- cia Maximal Intra y Saturación de Inercia Explicada. Propiedad 1 (Inercia maximal intra.) La inercia explicada Ikk en el plano k dimensional derivada de la función de cuantificación del mismo orden f(tk) = p1qt1 + p2qt2 + . . . + pkqtk, es mayor o igual que la explicada en planos de igual dimensión k, asociados a funciones de cuantificación con menor número de componentes finales, es decir con f(tk∗) = p1q tk1 + p2qtk2 + . . . + pk∗q tkk∗ se tiene: Ikk ≥ I k k∗, donde k∗ < k. Ya que la inercia asociada a la componente final h bajo la cuantificación de orden k se obtiene mediante ∑p∗ j r 2 (Xj ,th) = λkh, y que estas correlaciones son invariantes para las variables cuantitativas, solo es necesario analizar las corre- Rev.Mate.Teor.Aplic. (ISSN 1409-2433) Vol. 21(1): 85–106, January 2014 96 T. ALUJA – V.M. GONZÁLEZ laciones de las variables cualitativas recuantificadas para obtener dichas iner- cias; ver Tabla 1. f(t1.) t1 t2 . . . tp+q f(t12.) t1 t2 . . . tp+q X1 r11 r12 r1p∗ X1 r11 r12 r1p∗ X2 r21 r22 r2p∗ X2 r21 r22 r2p∗ . . . . . . qa1 r a q11 ra q12 qb1 r b q11 rb q12∑ r2 jk λa1 λ a 2 . . . λ a p∗ ∑ r2 jk λb1 λ b 2 . . . λ b p∗ Tabla 1: Correlación de las variables e inercias con los ejes, derivados de funciones de cuantificación f(t1.) = t1. y f(t12.) = t1. + t2. denotadas con superíndices a y b respectivamente. Demostración. Omitiremos en esta demostración el superíndice k solo por co- modidad, pero no debemos olvidar que las componentes finales usadas para la recuantificación provienen de funciones de dimensión k. La función de recuantificación con tres de las componentes finales es: t123. = t1. + t2. + t3. = t12. + t3. (7) y su cuantificación asociada es: q123. = PIq ∗ t123. = PIqt1. + PIqt2. + PIqt3. q123. = q1. + q2. + q3. = q12. + q3.. (8) De la ortogonalidad de las componentes se tiene que las correlaciones al cuadrado son: r2(q123., t123.) = r 2(q123., t1.) + r 2(q123., t2.) + r 2(q123., t3.) = I 3 3 (9) Análogamente, de las recuantificaciones con k∗ = 2, y k∗ = 1 se tiene respectivamente: r2(q12., t12.) = r 2(q12., t1.) + r 2(q12., t2.) = I 2 2 (10) r2(q1., t1.) = I 1 1 . (11) Las expresiones (9), (10) y (11) son maximales (en sus respectivas dimen- siones), debido a que la razón de correlación η2 Y |X = r 2 (correlación lineal) Rev.Mate.Teor.Aplic. (ISSN 1409-2433) Vol. 21(1): 85–106, January 2014 GNM-NIPALS: ESTIMACIÓN GENERAL NO MÉTRICA Y NO LINEAL 97 es máxima al aplicar el proyector ortogonal de las indicatrices PIq a t12...k∗ (Saporta 2011) [5]. El extremo derecho de la igualdad en las ecuaciones (12), (13) y (14) de- muestran la “inercia maximal intra” en los planos de igual dimensión. En el plano k = 1, r2(q1., t1.) ≥ { r2(q12., t1.) = r 2(q12., q1.)r 2(q1., t1.) = I 1 2 r2(q123., t1.) = r 2(q123., q1.)r 2(q1., t1.) = I 1 3 (12) con lo cual I11 ≥ { I12 I13 . En el plano de dimensión dos, r2(q12., t12.) ≥ { r2(q1., t12.) = r 2(q1., q12.)r 2(q12., t12.) = I 2 1 r2(q123., t12.) = r 2(q123., q12.)r 2(q12., t12.) = I 2 3 (13) entonces I22 ≥ { I21 I23 . Análogamente, ya que la expresión (9) es maximal r2(q123., t123.) ≥ { r2(q1., t123.) = r 2(q1., q123.)r 2(q123., t123.) = I 3 1 r2(q12., t123.) = r 2(q12., q123.)r 2(q123., t123.) = I 3 2 (14) por tanto, I33 ≥ { I31 I32 . De las expresiones (12), (13) y (14) se concluye que las inercias en los planos k-dimensionales son máximas cuando son generadas por funciones de cuantifi- cación de igual dimensión. Propiedad 2 (Inercia Saturada.) Se denomina SIE al caso en el que alguna de las matrices cuantificadas con las primeras k∗ < k de las componentes finales ya contiene la inercia acumulada explicada en los ejes k∗, . . . , k, k+1, k+2, . . . de la matriz XCk. La presencia de inercia saturada en el análisis, conlleva la disminución del orden k de dimensionalidad de la función de cuantificación generalmente a k − 1; lo cual nos permite afinar la dimensión asociada a f(t). La generalización de estos resultados al caso en el cual k > 3 es evidente e inmediato. El pseudoalgoritmo asociado al procedimiento GNM-NIPALS se presenta a continuación: Rev.Mate.Teor.Aplic. (ISSN 1409-2433) Vol. 21(1): 85–106, January 2014 98 T. ALUJA – V.M. GONZÁLEZ Input Xp; Output XC,T,P Inicializa T=(t1, t2, . . . , tH ) [H componentes en Xp via NIPALS] 1. for h=1,2,. . . ,H ∀p, p hp = r(Xp, th) [correlación p-v.cuantitativas con th ] ∀q, p hq = r(Xˆq, th); Xˆq = PX˜q .th, [razón correlación v.cualit] Ph ← (ph1 , . . . , php , phq1 , . . . , phq), normar Ph P [, h]← Ph end h 2. repetir 2.1. for q = 1, 2, . . . , Q f(tH) = p1q t1 + p2q t2 + . . .+ pHqtH = γ [función cuantificn] Xˆq = PX˜q · γ [cuantificación estandarizada] XC[, p+ q]← Xˆq end q 2.2. for h = 1, 2, . . . ,H [actualizar P, T: función NIPALS] Ph = XC ′ ·T[, h], normar Ph th = X ¯ C · Ph P [, h]← Ph T [, h]← th XCh ← XC , XC ← XCh − th · P ′ h [deflactar] end h hasta convergencia de Ph La fase 1 inicia obteniendo H componentes principales de Xk via NIPALS, luego, básicamente se constituyen las coordenadas phq de los vectores propios Ph mediante la razón de correlación, las cuales permiten formular la función f(tH) para la cuantificación de las variables cualitativas (ver fase 2.1). En el caso que se requiera cuantificación con orden se utiliza la ecuación (4). En la fase 2.2 se recalcula las matrices de vectores propios P y de componentes T, y se iteran están dos ultimas fases hasta la convergencia de los Ph. 3 Aplicación La base de datos cuantitativa (vinos) utilizada como ejemplo de aplicación se encuentra descrita por Escofier y Pagès (1992) [2], fue complementada con las variables cualitativas denominación de origen Appe y tipo de suelo Terr que Rev.Mate.Teor.Aplic. (ISSN 1409-2433) Vol. 21(1): 85–106, January 2014 GNM-NIPALS: ESTIMACIÓN GENERAL NO MÉTRICA Y NO LINEAL 99 contienen la siguiente codificación sin considerar orden: Appe:(1, 1, 2, 3, 1, 2, 2, 1, 3, 1, 2, 1, 1, 1, 1, 2, 3, 2, 3, 1, 1) Terr:(2, 2, 2, 3, 1, 1, 1, 2, 2, 1, 2, 3, 3, 3, 1, 1, 1, 2, 3, 4, 4) . Appe contiene tres categorías con los siguientes significados 1 = saumur, 2 = bourgueil y 3 = chinon; mientras Terr contiene 1 = medio1(referencia), 2 = medio2, 3 = medio3 y 4 = medio4. Se conforma la base de datos mixta denominada vinos.k del tipo k-tablas, que nos permite tomar el grupo gustación para el análisis conteniendo las varia- bles cuantitativas y la base denom.f conteniendo los factores cualitativos. Por comodidad en casi todo el desarrollo del procedimiento GNM- NIPALS bajo R se manejan los dos tipos de datos de forma separada, hasta conformar la matriz cuantificada XCk; así, Xp : gustacion # contiene los datos cuantitativos (n = 21, p = 9) Xq : denom.f # tabla con los factores Appe y Terr. De acuerdo con la ecuación (13), el proceso comienza con la descomposición singular vía NIPALS de la matriz Xp que presenta rango 9 y proporciona las componentes que han de conformar las funciones de cuantificación f(t1), f(t2), . . ., f(t9) con las cuales obtengo las matrices cuantificadas con 1, 2, . . . , y 9 componentes respectivamente. Los resultados inerciales maximales asociados a los planos de dimensión k en cada matriz k-cuantificada son presentados (resaltados) en la Tabla 2 y con ellos se obtiene la Figura 1 de inercia maximal acumulada de la cual se determina la dimensionalidad “optimal” de la función de cuantificación principal. 4 Resultados – datos gustación Los valores propios optimales asociados a las cuantificaciones con t1., t2., . . . , t9. corresponden a la columna denotada como inertia, mientras que ratio es la inercia porcentual acumulada eje por eje. De la Figura 1, de distribución de inercia maximal acumulada se deduce bajo la regla de Cattell, que la función de cuantificación seleccionada es de dimensión 5, es como el punto de inflexión después del cual el aporte de inercia de cada uno de los ejes restantes no es relevante; por tanto f(t5) = t1. + t2. + t3. + t4. + t5.. Los valores propios asociados a la matriz XC5 cuantificada bajo f(t5) se muestran en el extremo derecho de la Tabla 2. Observe que hasta el eje 5 se Rev.Mate.Teor.Aplic. (ISSN 1409-2433) Vol. 21(1): 85–106, January 2014 100 T. ALUJA – V.M. GONZÁLEZ Cuantificación f(t1.) Cuantificación f(t2.) Cuantificación f(t3.) k inertia cum ratio inertia cum ratio inertia cum ratio 1 6.05913 6.059 0.5508 5.67415 5.674 0.5158 5.77589 5.776 0.5251 2 1.80870 7.868 0.7153 2.72696 8.401 0.7637 2.53983 8.316 0.7560 3 1.36104 9.229 0.8390 0.98033 9.381 0.8528 1.32232 9.638 0.8762 4 0.69502 9.924 0.9022 062546 10.007 0.9097 0.49907 10.137 0.9216 5 0.37148 10.295 0.9359 0.35013 10.357 0.9415 0.35206 10.489 0.9536 : : : : : : : 11 0.01737 11.000 1.000 0.01933 11.000 1.0000 0.01726 11.000 1.0000 Cuantificación f(t4.) Cuantificación f(t5.) Cuantificación f(t9.) k inertia cum ratio inertia cum ratio inertia cum ratio 1 5.80041 5.800 0.5273 5.79805 5.798 0.5271 5.95304 5.953 0.5412 2 2.45020 8.251 0.7501 2.45755 8.256 0.7505 1.93660 7.890 0.7172 3 1.36351 9.614 0.8740 1.36062 9.616 0.8742 1.25477 9.144 0.8313 4 0.53656 10.151 0.9228 0.53441 10.151 0.9228 0.83709 9.982 0.9074 5 0.35048 10.501 0.9547 0.35056 10.501 0.9547 0.36754 10.349 0.9408 6 0.20759 10.709 0.9735 0.20646 10.708 0.9734 0.30526 10.654 0.9686 7 0.12476 10.833 0.9849 0.12523 10.833 0.9848 0.15272 10.807 0.9825 8 0.06598 10.899 0.9909 0.06611 10.899 0.9908 0.10836 10.915 0.9923 9 0.05558 10.955 0.9959 0.05577 10.955 0.9959 0.05378 10.969 0.9972 10 0.02902 10.984 0.9986 0.02923 10.984 0.9985 0.01863 10.988 0.9989 11 0.01592 11.000 1.0000 0.01600 11.000 1.0000 0.01222 11.000 1.0000 Tabla 2: Máxima Inercia acumulada (0.5508, 0.7637, 0.8762, . . .) de las matrices cuan- tificadas con f(t1.) = t1., f(t2) = t1. + t2., f t3 = t1. + t2. + t3. . . . respecti- vamente. Rev.Mate.Teor.Aplic. (ISSN 1409-2433) Vol. 21(1): 85–106, January 2014 GNM-NIPALS: ESTIMACIÓN GENERAL NO MÉTRICA Y NO LINEAL 101 Figura 1: Inercia acumulada en los planos de dimensión 1, 2, 3, . . . , 9 base gustación. recoge el 95.47% de la inercia proyectada, y que ésta es máxima respecto a los otros planos de igual dimensión (cinco) de acuerdo con la ecuación (14). Es frecuente encontrar inercia saturada en los análisis, especialmente con funciones de un orden menor. Así, para iniciar el análisis de inercia saturada se recuantifica con una componente menos, es decir se recuantifica con f(t54.) que contiene las primeras cuatro componentes derivadas de la descomposición espectral de XC5 y se obtienen los resultados de la Tabla 3. k 1 . . . 4 5 6 7 8 9 10 11 inert 5.7985 0.5347 0.3505 0.2066 0.1251 0.0660 0.0557 0.0291 0.0159 cum 5.799 10.151 10.501 10.708 10.833 10.899 10.955 10.984 11.000 ratio 0.5271 0.9228 0.9547 0.9734 0.9848 0.9908 0.9959 0.9985 1.0000 Tabla 3: Cuantificación f(t5 4. ). En la fila ratio de la Tabla 3, se nota que existe SIE, es decir, la estructura inercial asociada con la cuantificación f(t5), ya está contenida en la matriz aso- ciada con la recuantificación f(t54.), que toma las cuatro primeras componentes finales. Observe, que antes del quinto eje en el que la inercia es igual, 0.9547, la inercia acumulada eje por eje es prácticamente igual o superior, y esta caracterís- tica se mantiene hasta el último eje; esto sugiere que cuatro componentes serán Rev.Mate.Teor.Aplic. (ISSN 1409-2433) Vol. 21(1): 85–106, January 2014 102 T. ALUJA – V.M. GONZÁLEZ Variable/Categoría 1 2 3 4 Appe -0.654 -0.142 2.011 Terr -0.790 -0.255 0.346 2.791 Tabla 4: Valores de cuantificación asociados a las categorías de Appe y Terr. suficientes en la cuantificación. De hecho, al revisar la inercia obtenida con la cuantificación f(t4.) en la Tabla 2, se tiene que ésta efectivamente ya contiene la inercia derivada de las cuantificaciones f(t5) y f(t54.), con lo cual f(t4.) = t1. + t2. + t3. + t4. es la función de cuantificación definitiva, la cual genera inercia maximal por valor de 0.9228 en el plano de igual dimensión. En la Tabla 4, se puede ver los valores cuantificados bajo f(t4.) de las cate- gorías de las variables Appe y Terr que parecen tener implícito un orden creciente natural. La matriz de correlaciones de las variables incluyendo las cuantificadas con los primeros cuatro ejes (Tabla 5) es muy importante, porque permite identificar con cuales de ellos existe mayor relación lineal y por tanto contribuyen más a su formación. Las variables Terr y Gamer contribuyen en buena medida a la formación del eje 2, mientras que Appe y GAcid prácticamente definen el eje 3. En la misma Tabla 5, se deducen los valores propios como la suma de los cuadrados de estas correlaciones con cada eje. El área sombreada asociada a los cuatro primeros valores propios λ1 = 5.80041, λ2 = 2.45020, λ3 = 1.36351, λ4 = 0.53656 es maximal ya que ha sido generada por la función de cuantificación de igual dimensión f(t4). De la ecuación (9), se evidencia en estos resultados que para cada variable cuantificada xˆq: r2(xˆq, t1234.) = r 2(xˆq, t1) + r 2(xˆq, t2) + r 2(xˆq, t3) + r 2(xˆq, t4), ya que r(Appe, t1234.) = 0.9806 y r(Terr, t12345.) = 0.9773, entonces: 0.98062 = (−0.32222) + (−0.024252) + 0.8491342 + 0.368842 0.95382 = (−0.28772) + 0.867292 + (−0.3113852) + (−0.15213)2 . Del círculo de correlaciones (Figura 2) y del análisis de las contribuciones en el primer plano factorial, las variables comprometidas en la formación de Rev.Mate.Teor.Aplic. (ISSN 1409-2433) Vol. 21(1): 85–106, January 2014 GNM-NIPALS: ESTIMACIÓN GENERAL NO MÉTRICA Y NO LINEAL 103 [t1] [t2] [t3] [t4] GInten 0,9285 0,1273 0,1015 0,1015 GAcid -0,2961 0,4656 0,6732 0,4736 GAstr 0,7471 0,5079 -0,1151 0,1696 GAlcool 0,7368 0,4151 0,2114 -0,2640 GEqui 0,8664 -0,4044 0,0905 -0,0510 GVelou 0,9211 -0,3394 0,0383 -0,0429 Gamer 0,3243 0,8395 -0,0360 -0,1670 GIfin 0,9588 0,1420 0,1142 0,1084 GHarmo 0,9691 -0,1747 0,0081 -0,0152 Appe -0,3222 -0,0243 0,8491 -0,3688 Terr -0,2877 0,8673 -0,3114 -0,1521 sum(r2(,)) λ1 λ2 λ3 λ4 Tabla 5: Correlación entre las variables y los cuatro primeros ejes. la inercia recogida por el primer eje son GInten (14.86%), GEqui (12.94% ), GVelou (14.63%), GIfin (15.85%) y GHarmo (16.19%) asociando altos cosenos cuadrados que oscilan entre 0.751 y 0.939. Este eje 1 representa la “calidad de los vinos”. Análogamente, el segundo eje está caracterizado por las variables Terr y GAmer con contribuciones del 30.70% y 28.76% respectivamente. El origen de los vinos Appe no esta bien representada en el primer plano principal, aunque si contribuye altamente en la formación del eje 3 junto con GAcid. Las variables GAstr y GAlcool se pueden considerar medianamente in- fluyentes en el primer eje, con contribuciones de 9.62 y 9.36 respectivamente, igualmente asocian cosenos cuadrados de aproximadamente 0.55. El tipo de suelo parece no tener relación con la intensidad de alcohol debido a la así “orto- gonalidad” de las variables Terr y GAlcool en el círculo de correlaciones. La representación simultánea, Figura 3, de individuos y variables como vec- tores directores, permite el análisis de las interrelaciones entre individuos y va- riables. Los vinos más amargos Smi4a, Smi4b son de tipo de suelo medio4; mientras que el vino Cmi3 presenta los más bajos índices de suavidad y armonía y Bmi2b el de menor intensidad. Aunque los vinos de referencia Smi1c y Smi1b contribuyen medianamente en la formación del eje 1, presentan el mayor índice de suavidad (textura), armonía e intensidad, catalogándolos como los de mayor calidad. En este biplot los vinos Bmi2b y Cmi3 claramente se diferencian por ser los de peor calidad. Rev.Mate.Teor.Aplic. (ISSN 1409-2433) Vol. 21(1): 85–106, January 2014 104 T. ALUJA – V.M. GONZÁLEZ Figura 2: Círculo de correlaciones gustación; horizontal = eje1, vertical = eje2. Figura 3: Representación simultánea en primer plano factorial de la matriz Gustacion. En general, los vinos asociados a las categorías (cuantificadas) de suelo medio1, medio2, y medio3 también presentan índices medianos en las carac- terísticas que califican los ejes, ver su posicionamiento cerca al origen en la Figura 3. Rev.Mate.Teor.Aplic. (ISSN 1409-2433) Vol. 21(1): 85–106, January 2014 GNM-NIPALS: ESTIMACIÓN GENERAL NO MÉTRICA Y NO LINEAL 105 5 Conclusiones a) Se desarrolla el método GNM-NIPALS para cuantificar óptimamente cada una de las variables cualitativas mediante una función lineal de k com- ponentes, tal que formen parte activa del ACP en un conjunto de datos mixtos. b) La función de cuantificación f(t) = p 1q t1 + p2qt2 + . . . + pkqtk se basa en el concepto de reconstitución del ACP, e induce máxima inercia en el plano k-dimensional asociado a la matriz así cuantificada. c) Si existe saturación de inercia, el análisis SIE permite cuantificar con una función de menor dimensión, es decir con f(t) = p 1q t1 + p2q t2 + . . . + p k∗q tk∗ , k ∗ < k. La base gustación presenta SIE con lo cual solo se requieren cuatro y no cinco componentes, y la función de cuantificación definitiva es de la forma, f(t) = t1. + t2. + t3. + t4.. d) El ACP de la base gustación, permite identificar el primer eje de calidad independientemente de las variables cuantificadas Terr y Appe asociadas a los ejes 2 y 3 ortogonales con el eje 1. Referencias [1] Aluja, T.; Morineau, A. (1999) Aprender de los Datos: El Análisis de Com- ponentes Principales. EUB S.L, Barcelona. [2] Escofier, B.; Pàges, J. (1992) Análisis Factoriales Simples y Múltiples: Ob- jetivos, Métodos e Interpretación. Servicio Editorial Universidad del País Vasco, Bilbao. [3] Lebart, L.; Morineau, A.; Piron, M. (2006) Statistique Exploratoire Multi- dimensionnelle. Dunod, Paris. [4] Russolillo, G. (2012) “Non-metric partial least squares”, Electronic Jour- nal of Statistics 6: 1648–1655. [5] Saporta, G. (2011) Probabilités, Analyse des Données et Statistique. Edi- tions Technip, Paris. [6] Tenenhaus, M. (1998) La Régression PLS. Théorie et Pratique. Editions Technip, Paris. Rev.Mate.Teor.Aplic. (ISSN 1409-2433) Vol. 21(1): 85–106, January 2014 106 T. ALUJA – V.M. GONZÁLEZ [7] Wold, H. (1975) “Path models with latent variables: The non-linear itera- tive partial least squares (NIPALS) approach”, Academic Press, New York: 307–357. [8] Young, F. (1981) “Quantitative analysis of qualitative data”, Psychometrika 44(4): 357–388. Rev.Mate.Teor.Aplic. (ISSN 1409-2433) Vol. 21(1): 85–106, January 2014