Portada 
UNIVERSIDAD DE COSTA RICA 
SISTEMA DE ESTUDIOS DE POSGRADO 
 
 
 
COMPARACIÓN ENTRE MODELOS DE DATOS MULTINIVEL A 
TRAVÉS DE ECUACIONES ESTRUCTURALES CON 
ESTIMACIÓN BAYESIANA Y PEQUEÑAS VARIANZAS A 
PRIORI EN LAS CARGAS FACTORIALES CRUZADAS 
 
 
 
Tesis sometida a la consideración de la Comisión del Programa de Estudios de Posgrado en 
Estadística para optar al grado y título de Maestría Académica en Estadística 
 
 
ANDRÉS FELIPE FERNÁNDEZ ARAUZ 
 
 
Ciudad Universitaria Rodrigo Facio, Costa Rica 
 
 
2020 
 i 
 
 
 
Agradecimientos 
 
El camino para la construcción y finalización de este documento estuvo acompañado de varias 
personas que, con sus aportes, ayudaron a moldear el trabajo presentado en esta tesis: 
A Eiliana Montero Rojas, que como tutora de esta tesis me orientó en todas las áreas de 
investigación requeridas para desarrollar este documento, incluyendo los avances realizados en los 
cursos de modelos mixtos y modelos de ecuaciones estructurales. 
A Ricardo Alvarado Barrantes, que como lector de tesis y primer profesor con el que tuve contacto 
en los cursos nivelatorios, me orientó en todos los aspectos relacionados a la implementación de la 
estimación Bayesiana. 
A Guaner Rojas Rojas, que en su  función de lector brindó valiosos aportes para mejorar los aspectos 
relacionados a las simulaciones presentadas en este documento. 
A Johnny Madrigal Pana, que me introdujo en el área del análisis de factores latentes, 
particularmente por su colaboración para comprender el análisis factorial confirmatorio. 
A Eiliana Montero Rojas por su motivación, y al Sistema de Estudios de Posgrado por el apoyo 
brindado, para asistir en la conferencia Modern Modeling Methods que se llevó a cabo en la 
Universidad de Connecticut, Estados Unidos, en mayo de 2015. 
A James Clifton, de la Universidad de California, Merced, por sus valiosas contribuciones para el 
diseño de las simulaciones Montecarlo mediante el uso de MPlus, y a Sarah Depaoli, profesora 
asociada de Psicología Cuantitativa en la Universidad de California, Merced, por compartir algunos 
de los resultados de su trabajo en el área de modelación de factores latentes. 
A Bengt Muthen, creador del software MPlus y autor de la propuesta de modelo BSEM sobre el cual 
se basa el desarrollo de esta tesis, y a Michael Hallquist, desarrollador de la librería 
MplusAutomation. A ambos por su disposición para discutir aspectos técnicos del uso de MPlus. 
 
Finalmente, y no menos importante, a mi esposa Lucrecia, y mis dos hijos Felipe y Sara, por ser la 
inspiración para continuar avanzando en mi crecimiento personal y profesional. 
ii 
 
Hoja de aprobación 
 
 
iii 
 
Tabla de Contenidos 
Portada ................................................................................................................................................. i 
Agradecimientos ................................................................................................................................. ii 
Hoja de aprobación .............................................................................................................................iii 
Resumen .............................................................................................................................................. vi 
Abstract .............................................................................................................................................. vii 
Lista de figuras .................................................................................................................................. viii 
Lista de tablas ...................................................................................................................................... ix 
Lista de gráficos ................................................................................................................................... xi 
Licencia de publicación ..................................................................................................................... xvi 
1. Introducción ................................................................................................................................ 1 
1.1. Problema ............................................................................................................................. 1 
1.2. Objetivo General ................................................................................................................. 2 
1.3. Objetivos específicos ........................................................................................................... 3 
2. Estado de la cuestión sobre los modelos de ecuaciones estructurales multinivel ..................... 4 
2.1. Análisis de factores.............................................................................................................. 4 
2.2. Ecuaciones estructurales ..................................................................................................... 7 
2.3. Ecuaciones estructurales multinivel .................................................................................. 11 
2.3.1. Análisis de factores multinivel................................................................................... 11 
2.4. Métodos de estimación ..................................................................................................... 16 
2.4.1. Estimación frecuentista ............................................................................................. 16 
2.4.2. Estimación Bayesiana ................................................................................................ 18 
2.4.3. Enfoque Bayesiano en la estimación de modelos de ecuaciones estructurales ....... 21 
2.4.4. Integración de los modelos de ecuaciones estructurales multinivel con estimación 
Bayesiana .................................................................................................................................. 25 
2.5. La discusión en el uso de las distribuciones a priori con varianzas pequeñas en el 
contexto de modelos de ecuaciones estructurales con estimación Bayesiana ............................ 29 
3. Estado de la cuestión sobre el caso aplicado ............................................................................ 35 
3.1. Breve descripción de los factores asociados al rendimiento educativo ........................... 35 
3.1.1. Factores del Estudiante ............................................................................................. 36 
3.1.2. Factores Escolares ..................................................................................................... 36 
3.1.3. Factores institucionales y de política educativa ........................................................ 37 
3.2. Estudios sobre factores asociados al rendimiento educativo ........................................... 38 
3.2.1. Diseños experimentales ............................................................................................ 39 
 iv 
 
3.2.2. Otros estudios internacionales ................................................................................. 41 
3.2.3. Revisión de literatura de Costa Rica .......................................................................... 42 
3.2.4. Estudios que utilizan datos de PISA para Costa Rica ................................................. 44 
3.2.5. Síntesis del capítulo ................................................................................................... 47 
4. Abordaje metodológico ............................................................................................................. 49 
4.1. Evaluación simulada de la robustez del modelo ML-BSEM .............................................. 49 
4.1.1. Descripción del modelo ............................................................................................. 49 
4.1.2. Especificación de las distribuciones a priori .............................................................. 51 
4.1.3. Diseño de las simulaciones ........................................................................................ 53 
4.1.4. Evaluación del ajuste del modelo .............................................................................. 56 
4.2. Análisis de los datos de la avaluación PISA ....................................................................... 58 
4.2.1. El Programa Internacional de Evaluación de Estudiantes (PISA) .............................. 58 
4.2.2. Marco muestral ......................................................................................................... 63 
4.2.3. Diseño muestral ........................................................................................................ 64 
4.2.4. Imputación de datos faltantes .................................................................................. 66 
4.2.5. Estimación del modelo .............................................................................................. 67 
4.2.5.1. Constructos definidos para el nivel dentro de grupos .......................................... 67 
4.2.5.2. Constructos definidos para el nivel entre grupos ................................................. 71 
5. Resultados ................................................................................................................................. 73 
5.1. Resultados del estudio de simulación ............................................................................... 73 
5.1.1 Estabilidad de las estimaciones de los parámetros ......................................................... 73 
5.1.1.1 Las distribuciones de las estimaciones de los parámetros ....................................... 74 
5.1.1.2 Raíz cuadrada del error cuadrático medio en los parámetros .................................. 77 
5.1.2 Sesgos en las estimaciones de los parámetros ................................................................ 84 
5.1.3 Bondad de ajuste de los modelos .................................................................................... 91 
5.2 Caso aplicado..................................................................................................................... 94 
6 Conclusiones.............................................................................................................................. 99 
7 Referencias .............................................................................................................................. 102 
8 Anexos ..................................................................................................................................... 110 
Anexo 1 Distribuciones condicionales ......................................................................................... 110 
Anexo 2: Gráficos de dispersión del nivel dentro de grupos ...................................................... 112 
Anexo 3: Gráficos de dispersión del nivel entre grupos.............................................................. 127 
 v 
 
Resumen 
 
Debido a las bondades del enfoque Bayesiano para la estimación de modelos de ecuaciones 
estructurales, en la última década se ha desarrollado un nuevo enfoque con la intención de producir 
un análisis que refleje de una mejor manera las teorías del investigador y sus creencias a priori. Esto 
se hace al utilizar sistemáticamente distribuciones a priori informativas para los parámetros que no 
deberían ser estimados libremente de acuerdo con la teoría del investigador. En el análisis 
frecuentista tales parámetros son fijados como iguales a cero, pero fueran liberados y debieran ser 
estimados el modelo presentaría problemas de identificación y de estimación. Mediante el enfoque 
Bayesiano, por el contrario, se logra la identificación del modelo al impulsar el uso de varianzas a 
priori muy pequeñas para estos parámetros. 
Si bien es reciente la discusión sobre el uso de varianzas pequeñas en las distribuciones a priori de 
parámetros que usualmente son fijados a ser cero, nada ha sido discutido acerca de las 
implicaciones de su aplicación en el contexto de ecuaciones estructurales para datos jerárquicos o 
multinivel. Por tales motivos, la presente investigación aborda esta discusión en el contexto de 
modelos de ecuaciones estructurales para datos multinivel con estimación Bayesiana al plantear 
modelos en los que fue liberada la estimación de parámetros en las cargas factoriales cruzadas. Para 
hacer esto, fueron establecidos tres niveles de información a introducir en la varianza de las cargas 
factoriales cruzadas: poco informativa, débilmente informativa e informativa. 
El estudio de simulación permitió mostrar que, en el nivel inferior (o dentro de grupos) el uso de 
distribuciones a priori informativas en las cargas factoriales cruzadas mejora la precisión con la que 
son estimados los parámetros principales. En el nivel superior jerárquico (o entre grupos), a nivel 
general la estimación Bayesiana con varianzas a priori informativas en las cargas factoriales cruzadas 
presenta resultados muy superiores a los de las demás condiciones de estimación. 
El ajuste global del modelo al comparar el uso de distribuciones a priori débilmente informativas y 
difusas tiende a ser similar; sin embargo, se refuerza el hecho de que cuando se tienen pocos datos, 
un pequeño número de grupos y valores bajos del ICC, el uso de distribuciones a priori muy 
informativas en las cargas factoriales cruzadas sí produce mejores ajustes del modelo global. 
Se puede afirmar que, de forma consistente, el uso de distribuciones a priori con varianza pequeña 
o muy informativa en las cargas factoriales cruzadas produce mejores resultados bajo distintas 
condiciones de estimación de los modelos de ecuaciones estructurales multinivel, por lo que esta 
investigación aporta evidencia para que este enfoque pueda ser replicado en otras investigaciones 
que busquen obtener ganancias en la estimación de modelos de ecuaciones estructurales para datos 
multinivel con enfoque Bayesiano. 
 vi 
 
Abstract 
 
In the last decade, the use of very small variance prior of cross-factor loadings has been discussed 
in the context of estimating confirmatory factor analysis models or structural equations with a 
Bayesian approach (Muthén, B., & Asparouhov, T , 2012, 2013) 
Traditionally, researches that relies on confirmatory factor analysis establish cross-factor loadings 
as equal to zero, meaning that the particular indicator has no relation to the latent factor or 
construct for which the factor load has been established as exactly equal to zero. 
However, the indicator variables are rarely perfectly pure construction indicators, especially in the 
study of social sciences, which implies that significant levels of association with multiple constructs 
can occur. 
In fact, in the reflexive logic of factor analysis, latent factors are those that have an influence on the 
indicators, rather than the other way around. This means that establishing small cross-loads reflects 
the influence of the factor on the relevant part of the construction of the indicators, rather than the 
indicators having an impact on the nature of the factor itself. 
For this reason, this research addresses this discussion in the context of Multilevel Bayesian 
Structural Equation Models (ML-BSEM) by proposing models in which the estimation of parameters 
in cross factor loadings will be released. Therefore, it is necessary to examine whether for this type 
of models the discussion described in the literature is maintained and if there are gains in the 
goodness of fit of the models by allowing that condition. 
This will be done by evaluating the possible effects on the parameter estimates, the hypothesis tests 
associated with them, as well as the tests of goodness of fit of models, which may vary according to 
the definition of the prior distributions of the cross loadings, from little informative or diffuse to 
very informative, in the context of estimating Multilevel Bayesian Structural Equation Models. For 
this, in addition, robustness will be analyzed for different scenarios in which hierarchical models can 
operate, such as different group sizes at the high level, different sample sizes in the low level groups 
and different intensities of the intraclass correlation. 
In general terms, the results show that the goodness of fit when comparing weakly informative 
priors and diffuse priors distributions for the cross-loadings tends to be similar, especially for large 
samples and ICC values; However, when there is little data, a small number of groups and low ICC 
values, the use of very informative prior distributions with small variance priors for the cross 
loadings does produce better fit. 
 
 vii 
 
Lista de figuras 
 
Figura 1 Representación de un modelo confirmatorio de tres factores sin errores correlacionados 6 
Figura 2 Modelo de ecuaciones estructurales con un factor latente endógeno ................................ 8 
Figura 3 Representación de los dos enfoques para la estimación de análisis de factores multinivel
 ........................................................................................................................................................... 15 
Figura 4 Modelo de generación de datos con coeficiente de correlación intra-clase de 0.05 ......... 49 
Figura 5 Relación entre factores del modelo de ecuaciones estructurales a ser estimado con datos 
de la evaluación PISA 2012................................................................................................................ 71 
 viii 
 
Lista de tablas 
 
Tabla 1 Descripción de las escalas de competencia en la evaluación matemática de PISA 2012 .................... 63 
Tabla 2 Estadísticas descriptivas de la muestra de datos de PISA para Costa Rica según categoría. 2012 ...... 65 
Tabla 3 Error cuadrático medio de las estimaciones del parámetro, según Información en la varianza de la 
distribución a priori de las cargas factoriales cruzadas, Tamaño de Muestra y Coeficiente de Correlación 
Intraclase. (Nivel dentro de grupos, escenario 1) ............................................................................................ 77 
Tabla 4 Error cuadrático medio de las estimaciones del parámetro, según Información en la varianza de la 
distribución a priori de las cargas factoriales cruzadas, Tamaño de Muestra y Coeficiente de Correlación 
Intraclase. (Nivel dentro de grupos, escenario 2) ............................................................................................ 78 
Tabla 5 Error cuadrático medio de las estimaciones del parámetro, según Información en la varianza de la 
distribución a priori de las cargas factoriales cruzadas, Tamaño de Muestra y Coeficiente de Correlación 
Intraclase. (Nivel dentro de grupos, escenario 3) ............................................................................................ 78 
Tabla 6 Error cuadrático medio de las estimaciones del parámetro, según Información en la varianza de la 
distribución a priori de las cargas factoriales cruzadas, Tamaño de Muestra y Coeficiente de Correlación 
Intraclase. (Nivel dentro de grupos, escenario 4) ............................................................................................ 79 
Tabla 7 Error cuadrático medio de las estimaciones del parámetro, según Información en la varianza de la 
distribución a priori de las cargas factoriales cruzadas, Tamaño de Muestra y Coeficiente de Correlación 
Intraclase. (Nivel dentro de grupos, escenario 5) ............................................................................................ 79 
Tabla 8 Error cuadrático medio de las estimaciones del parámetro, según Información en la varianza de la 
distribución a priori de las cargas factoriales cruzadas, Tamaño de Muestra y Coeficiente de Correlación 
Intraclase. (Nivel dentro de grupos, escenario 6) ............................................................................................ 80 
Tabla 9 Error cuadrático medio de las estimaciones del parámetro, según Información en la varianza de la 
distribución a priori de las cargas factoriales cruzadas, Tamaño de Muestra y Coeficiente de Correlación 
Intraclase. (Nivel entre grupos, escenario 1) .................................................................................................... 81 
Tabla 10 Error cuadrático medio de las estimaciones del parámetro, según Información en la varianza de la 
distribución a priori de las cargas factoriales cruzadas, Tamaño de Muestra y Coeficiente de Correlación 
Intraclase. (Nivel entre grupos, escenario 2) .................................................................................................... 81 
Tabla 11 Error cuadrático medio de las estimaciones del parámetro, según Información en la varianza de la 
distribución a priori de las cargas factoriales cruzadas, Tamaño de Muestra y Coeficiente de Correlación 
Intraclase. (Nivel entre grupos, escenario 3) .................................................................................................... 82 
Tabla 12 Error cuadrático medio de las estimaciones del parámetro, según Información en la varianza de la 
distribución a priori de las cargas factoriales cruzadas, Tamaño de Muestra y Coeficiente de Correlación 
Intraclase. (Nivel entre grupos, escenario 4) .................................................................................................... 82 
Tabla 13 Error cuadrático medio de las estimaciones del parámetro, según Información en la varianza de la 
distribución a priori de las cargas factoriales cruzadas, Tamaño de Muestra y Coeficiente de Correlación 
Intraclase. (Nivel entre grupos, escenario 5) .................................................................................................... 83 
Tabla 14 Error cuadrático medio de las estimaciones del parámetro, según Información en la varianza de la 
distribución a priori de las cargas factoriales cruzadas, Tamaño de Muestra y Coeficiente de Correlación 
Intraclase. (Nivel entre grupos, escenario 6) .................................................................................................... 83 
Tabla 15 Porcentaje de recuperación de las estimaciones del parámetro, según Información en la varianza de 
la distribución a priori de las cargas factoriales cruzadas, Tamaño de Muestra y Coeficiente de Correlación 
Intraclase. (Nivel dentro de grupos, escenario 1) ............................................................................................ 84 
 ix 
 
Tabla 16 Porcentaje de recuperación de las estimaciones del parámetro, según Información en la varianza de 
la distribución a priori de las cargas factoriales cruzadas, Tamaño de Muestra y Coeficiente de Correlación 
Intraclase. (Nivel dentro de grupos, escenario 2) ............................................................................................ 85 
Tabla 17 Porcentaje de recuperación de las estimaciones del parámetro, según Información en la varianza de 
la distribución a priori de las cargas factoriales cruzadas, Tamaño de Muestra y Coeficiente de Correlación 
Intraclase. (Nivel dentro de grupos, escenario 3) ............................................................................................ 85 
Tabla 18 Porcentaje de recuperación de las estimaciones del parámetro, según Información en la varianza de 
la distribución a priori de las cargas factoriales cruzadas, Tamaño de Muestra y Coeficiente de Correlación 
Intraclase. (Nivel dentro de grupos, escenario 4) ............................................................................................ 86 
Tabla 19 Porcentaje de recuperación de las estimaciones del parámetro, según Información en la varianza de 
la distribución a priori de las cargas factoriales cruzadas, Tamaño de Muestra y Coeficiente de Correlación 
Intraclase. (Nivel dentro de grupos, escenario 5) ............................................................................................ 86 
Tabla 20 Porcentaje de recuperación de las estimaciones del parámetro, según Información en la varianza de 
la distribución a priori de las cargas factoriales cruzadas, Tamaño de Muestra y Coeficiente de Correlación 
Intraclase. (Nivel dentro de grupos, escenario 6) ............................................................................................ 87 
Tabla 21 Porcentaje de recuperación de las estimaciones del parámetro, según Información en la varianza de 
la distribución a priori de las cargas factoriales cruzadas, Tamaño de Muestra y Coeficiente de Correlación 
Intraclase. (Nivel entre grupos, escenario 1) .................................................................................................... 87 
Tabla 22 Porcentaje de recuperación de las estimaciones del parámetro, según Información en la varianza de 
la distribución a priori de las cargas factoriales cruzadas, Tamaño de Muestra y Coeficiente de Correlación 
Intraclase. (Nivel entre grupos, escenario 2) .................................................................................................... 88 
Tabla 23 Porcentaje de recuperación de las estimaciones del parámetro, según Información en la varianza de 
la distribución a priori de las cargas factoriales cruzadas, Tamaño de Muestra y Coeficiente de Correlación 
Intraclase. (Nivel entre grupos, escenario 3) .................................................................................................... 88 
Tabla 24 Porcentaje de recuperación de las estimaciones del parámetro, según Información en la varianza de 
la distribución a priori de las cargas factoriales cruzadas, Tamaño de Muestra y Coeficiente de Correlación 
Intraclase. (Nivel entre  grupos, escenario 4) ................................................................................................... 89 
Tabla 25 Porcentaje de recuperación de las estimaciones del parámetro, según Información en la varianza de 
la distribución a priori de las cargas factoriales cruzadas, Tamaño de Muestra y Coeficiente de Correlación 
Intraclase. (Nivel entre grupos, escenario 5) .................................................................................................... 89 
Tabla 26 Porcentaje de recuperación de las estimaciones del parámetro, según Información en la varianza de 
la distribución a priori de las cargas factoriales cruzadas, Tamaño de Muestra y Coeficiente de Correlación 
Intraclase. (Nivel dentro entre grupos, escenario 6) ........................................................................................ 90 
Tabla 27 Comparación de las estimaciones de las cargas factoriales de los factores latentes del modelo 
dentro de grupos .............................................................................................................................................. 95 
Tabla 28 Cargas factoriales cruzadas con estimaciones distintas del parámetro cero (Escenario 2) ............... 96 
Tabla 29 Estimación de los parámetros estructurales del nivel dentro de grupos .......................................... 97 
Tabla 30 Comparación de las estimaciones de las cargas factoriales de los constructos del modelo entre 
grupos ............................................................................................................................................................... 98 
 
 x 
 
Lista de gráficos 
 
Gráfico 1 PPP-Value, escenario 1: Intervalo de credibilidad del P-value Predictivo a Posteriori, según 
información en la varianza de la distribución a priori de las Cargas Factoriales Cruzadas, Tamaño de la 
Muestra y Coeficiente de Correlación Intralclase ............................................................................................ 92 
Gráfico 2 PPP-Value, escenario 3: Intervalo de credibilidad del P-value Predictivo a Posteriori, según 
información en la varianza de la distribución a priori de las Cargas Factoriales Cruzadas, Tamaño de la 
Muestra y Coeficiente de Correlación Intralclase ............................................................................................ 92 
Gráfico 3 PPP-Value, escenario 6: Intervalo de credibilidad del P-value Predictivo a Posteriori, según 
información en la varianza de la distribución a priori de las Cargas Factoriales Cruzadas, Tamaño de la 
Muestra y Coeficiente de Correlación Intralclase ............................................................................................ 93 
Gráfico 4 Cargas factoriales directas, escenario 1: Intervalo de credibilidad de las estimaciones del 
parámetro, según Información en la varianza de la distribución a priori de las cargas factoriales cruzadas, 
Tamaño de Muestra y Coeficiente de Correlación Intraclase. (Nivel dentro de grupos) ............................... 112 
Gráfico 5 Cargas factoriales directas, escenario 2: Intervalo de credibilidad de las estimaciones del 
parámetro, según Información en la varianza de la distribución a priori de las cargas factoriales cruzadas, 
Tamaño de Muestra y Coeficiente de Correlación Intraclase. (Nivel dentro de grupos) ............................... 112 
Gráfico 6 Cargas factoriales directas, escenario 3: Intervalo de credibilidad de las estimaciones del 
parámetro, según Información en la varianza de la distribución a priori de las cargas factoriales cruzadas, 
Tamaño de Muestra y Coeficiente de Correlación Intraclase. (Nivel dentro de grupos) ............................... 113 
Gráfico 7 Cargas factoriales directas, escenario 4: Intervalo de credibilidad de las estimaciones del 
parámetro, según Información en la varianza de la distribución a priori de las cargas factoriales cruzadas, 
Tamaño de Muestra y Coeficiente de Correlación Intraclase. (Nivel dentro de grupos) ............................... 113 
Gráfico 8 Cargas factoriales directas, escenario 5: Intervalo de credibilidad de las estimaciones del 
parámetro, según Información en la varianza de la distribución a priori de las cargas factoriales cruzadas, 
Tamaño de Muestra y Coeficiente de Correlación Intraclase. (Nivel dentro de grupos) ............................... 114 
Gráfico 9 Cargas factoriales directas, escenario 6: Intervalo de credibilidad de las estimaciones del 
parámetro, según Información en la varianza de la distribución a priori de las cargas factoriales cruzadas, 
Tamaño de Muestra y Coeficiente de Correlación Intraclase. (Nivel dentro de grupos) ............................... 114 
Gráfico 10 Cargas factoriales cruzadas, escenario 1: Intervalo de credibilidad de las estimaciones del 
parámetro, según Información en la varianza de la distribución a priori de las cargas factoriales cruzadas, 
Tamaño de Muestra y Coeficiente de Correlación Intraclase. (Nivel dentro de grupos) ............................... 115 
Gráfico 11 Cargas factoriales cruzadas, escenario 2: Intervalo de credibilidad de las estimaciones del 
parámetro, según Información en la varianza de la distribución a priori de las cargas factoriales cruzadas, 
Tamaño de Muestra y Coeficiente de Correlación Intraclase. (Nivel dentro de grupos) ............................... 115 
Gráfico 12 Cargas factoriales cruzadas, escenario 3: Intervalo de credibilidad de las estimaciones del 
parámetro, según Información en la varianza de la distribución a priori de las cargas factoriales cruzadas, 
Tamaño de Muestra y Coeficiente de Correlación Intraclase. (Nivel dentro de grupos) ............................... 116 
Gráfico 13 Cargas factoriales cruzadas, escenario 4: Intervalo de credibilidad de las estimaciones del 
parámetro, según Información en la varianza de la distribución a priori de las cargas factoriales cruzadas, 
Tamaño de Muestra y Coeficiente de Correlación Intraclase. (Nivel dentro de grupos) ............................... 116 
Gráfico 14 Cargas factoriales cruzadas, escenario 5: Intervalo de credibilidad de las estimaciones del 
parámetro, según Información en la varianza de la distribución a priori de las cargas factoriales cruzadas, 
Tamaño de Muestra y Coeficiente de Correlación Intraclase. (Nivel dentro de grupos) ............................... 117 
 xi 
 
Gráfico 15 Cargas factoriales cruzadas, escenario 6: Intervalo de credibilidad de las estimaciones del 
parámetro, según Información en la varianza de la distribución a priori de las cargas factoriales cruzadas, 
Tamaño de Muestra y Coeficiente de Correlación Intraclase. (Nivel dentro de grupos) ............................... 117 
Gráfico 16 Parámetro estructural, escenario 1: Intervalo de credibilidad de las estimaciones del parámetro, 
según Información en la varianza de la distribución a priori de las cargas factoriales cruzadas, Tamaño de 
Muestra y Coeficiente de Correlación Intraclase. (Nivel dentro de grupos) .................................................. 118 
Gráfico 17 Parámetro estructural, escenario 2: Intervalo de credibilidad de las estimaciones del parámetro, 
según Información en la varianza de la distribución a priori de las cargas factoriales cruzadas, Tamaño de 
Muestra y Coeficiente de Correlación Intraclase. (Nivel dentro de grupos) .................................................. 118 
Gráfico 18 Parámetro estructural, escenario 3: Intervalo de credibilidad de las estimaciones del parámetro, 
según Información en la varianza de la distribución a priori de las cargas factoriales cruzadas, Tamaño de 
Muestra y Coeficiente de Correlación Intraclase. (Nivel dentro de grupos) .................................................. 119 
Gráfico 19 Parámetro estructural, escenario 4: Intervalo de credibilidad de las estimaciones del parámetro, 
según Información en la varianza de la distribución a priori de las cargas factoriales cruzadas, Tamaño de 
Muestra y Coeficiente de Correlación Intraclase. (Nivel dentro de grupos) .................................................. 119 
Gráfico 20 Parámetro estructural, escenario 5: Intervalo de credibilidad de las estimaciones del parámetro, 
según Información en la varianza de la distribución a priori de las cargas factoriales cruzadas, Tamaño de 
Muestra y Coeficiente de Correlación Intraclase. (Nivel dentro de grupos) .................................................. 120 
Gráfico 21 Parámetro estructural, escenario 6: Intervalo de credibilidad de las estimaciones del parámetro, 
según Información en la varianza de la distribución a priori de las cargas factoriales cruzadas, Tamaño de 
Muestra y Coeficiente de Correlación Intraclase. (Nivel dentro de grupos) .................................................. 120 
Gráfico 22 Varianzas residuales, escenario 1: Intervalo de credibilidad de las estimaciones del parámetro, 
según Información en la varianza de la distribución a priori de las cargas factoriales cruzadas, Tamaño de 
Muestra y Coeficiente de Correlación Intraclase. (Nivel dentro de grupos) .................................................. 121 
Gráfico 23 Varianzas residuales, escenario 2: Intervalo de credibilidad de las estimaciones del parámetro, 
según Información en la varianza de la distribución a priori de las cargas factoriales cruzadas, Tamaño de 
Muestra y Coeficiente de Correlación Intraclase. (Nivel dentro de grupos) .................................................. 121 
Gráfico 24 Varianzas residuales, escenario 3: Intervalo de credibilidad de las estimaciones del parámetro, 
según Información en la varianza de la distribución a priori de las cargas factoriales cruzadas, Tamaño de 
Muestra y Coeficiente de Correlación Intraclase. (Nivel dentro de grupos) .................................................. 122 
Gráfico 25 Varianzas residuales, escenario 4: Intervalo de credibilidad de las estimaciones del parámetro, 
según Información en la varianza de la distribución a priori de las cargas factoriales cruzadas, Tamaño de 
Muestra y Coeficiente de Correlación Intraclase. (Nivel dentro de grupos) .................................................. 122 
Gráfico 26 Varianzas residuales, escenario 5: Intervalo de credibilidad de las estimaciones del parámetro, 
según Información en la varianza de la distribución a priori de las cargas factoriales cruzadas, Tamaño de 
Muestra y Coeficiente de Correlación Intraclase. (Nivel dentro de grupos) .................................................. 123 
Gráfico 27 Varianzas residuales, escenario 6: Intervalo de credibilidad de las estimaciones del parámetro, 
según Información en la varianza de la distribución a priori de las cargas factoriales cruzadas, Tamaño de 
Muestra y Coeficiente de Correlación Intraclase. (Nivel dentro de grupos) .................................................. 123 
Gráfico 28 Varianza factorial, escenario 1: Intervalo de credibilidad de las estimaciones del parámetro, según 
Información en la varianza de la distribución a priori de las cargas factoriales cruzadas, Tamaño de Muestra y 
Coeficiente de Correlación Intraclase. (Nivel dentro de grupos) ................................................................... 124 
Gráfico 29 Varianza factorial, escenario 2: Intervalo de credibilidad de las estimaciones del parámetro, según 
Información en la varianza de la distribución a priori de las cargas factoriales cruzadas, Tamaño de Muestra y 
Coeficiente de Correlación Intraclase. (Nivel dentro de grupos) ................................................................... 124 
 xii 
 
Gráfico 30 Varianza factorial, escenario 3: Intervalo de credibilidad de las estimaciones del parámetro, según 
Información en la varianza de la distribución a priori de las cargas factoriales cruzadas, Tamaño de Muestra y 
Coeficiente de Correlación Intraclase. (Nivel dentro de grupos) ................................................................... 125 
Gráfico 31 Varianza factorial, escenario 4: Intervalo de credibilidad de las estimaciones del parámetro, según 
Información en la varianza de la distribución a priori de las cargas factoriales cruzadas, Tamaño de Muestra y 
Coeficiente de Correlación Intraclase. (Nivel dentro de grupos) ................................................................... 125 
Gráfico 32 Varianza factorial, escenario 5: Intervalo de credibilidad de las estimaciones del parámetro, según 
Información en la varianza de la distribución a priori de las cargas factoriales cruzadas, Tamaño de Muestra y 
Coeficiente de Correlación Intraclase. (Nivel dentro de grupos) ................................................................... 126 
Gráfico 33 Varianza factorial, escenario 6: Intervalo de credibilidad de las estimaciones del parámetro, según 
Información en la varianza de la distribución a priori de las cargas factoriales cruzadas, Tamaño de Muestra y 
Coeficiente de Correlación Intraclase. (Nivel dentro de grupos) ................................................................... 126 
Gráfico 34 Cargas factoriales directas, escenario 1: Intervalo de credibilidad de las estimaciones del 
parámetro, según Información en la varianza de la distribución a priori de las cargas factoriales cruzadas, 
Tamaño de Muestra y Coeficiente de Correlación Intraclase. (Nivel entre grupos) ...................................... 127 
Gráfico 35 Cargas factoriales directas, escenario 2: Intervalo de credibilidad de las estimaciones del 
parámetro, según Información en la varianza de la distribución a priori de las cargas factoriales cruzadas, 
Tamaño de Muestra y Coeficiente de Correlación Intraclase. (Nivel entre grupos) ...................................... 127 
Gráfico 36 Cargas factoriales directas, escenario 3: Intervalo de credibilidad de las estimaciones del 
parámetro, según Información en la varianza de la distribución a priori de las cargas factoriales cruzadas, 
Tamaño de Muestra y Coeficiente de Correlación Intraclase. (Nivel entre grupos) ...................................... 128 
Gráfico 37 Cargas factoriales directas, escenario 4: Intervalo de credibilidad de las estimaciones del 
parámetro, según Información en la varianza de la distribución a priori de las cargas factoriales cruzadas, 
Tamaño de Muestra y Coeficiente de Correlación Intraclase. (Nivel entre grupos) ...................................... 128 
Gráfico 38 Cargas factoriales directas, escenario 5: Intervalo de credibilidad de las estimaciones del 
parámetro, según Información en la varianza de la distribución a priori de las cargas factoriales cruzadas, 
Tamaño de Muestra y Coeficiente de Correlación Intraclase. (Nivel entre grupos) ...................................... 129 
Gráfico 39 Cargas factoriales directas, escenario 6: Intervalo de credibilidad de las estimaciones del 
parámetro, según Información en la varianza de la distribución a priori de las cargas factoriales cruzadas, 
Tamaño de Muestra y Coeficiente de Correlación Intraclase. (Nivel entre grupos) ...................................... 129 
Gráfico 40 Cargas factoriales cruzadas, escenario 1: Intervalo de credibilidad de las estimaciones del 
parámetro, según Información en la varianza de la distribución a priori de las cargas factoriales cruzadas, 
Tamaño de Muestra y Coeficiente de Correlación Intraclase. (Nivel entre grupos) ...................................... 130 
Gráfico 41 Cargas factoriales cruzadas, escenario 2: Intervalo de credibilidad de las estimaciones del 
parámetro, según Información en la varianza de la distribución a priori de las cargas factoriales cruzadas, 
Tamaño de Muestra y Coeficiente de Correlación Intraclase. (Nivel entre grupos) ...................................... 130 
Gráfico 42 Cargas factoriales cruzadas, escenario 3: Intervalo de credibilidad de las estimaciones del 
parámetro, según Información en la varianza de la distribución a priori de las cargas factoriales cruzadas, 
Tamaño de Muestra y Coeficiente de Correlación Intraclase. (Nivel entre grupos) ...................................... 131 
Gráfico 43 Cargas factoriales cruzadas, escenario 4: Intervalo de credibilidad de las estimaciones del 
parámetro, según Información en la varianza de la distribución a priori de las cargas factoriales cruzadas, 
Tamaño de Muestra y Coeficiente de Correlación Intraclase. (Nivel entre grupos) ...................................... 131 
Gráfico 44 Cargas factoriales cruzadas, escenario 5: Intervalo de credibilidad de las estimaciones del 
parámetro, según Información en la varianza de la distribución a priori de las cargas factoriales cruzadas, 
Tamaño de Muestra y Coeficiente de Correlación Intraclase. (Nivel entre grupos) ...................................... 132 
 xiii 
 
Gráfico 45 Cargas factoriales cruzadas, escenario 6: Intervalo de credibilidad de las estimaciones del 
parámetro, según Información en la varianza de la distribución a priori de las cargas factoriales cruzadas, 
Tamaño de Muestra y Coeficiente de Correlación Intraclase. (Nivel entre grupos) ...................................... 132 
Gráfico 46 Parámetro estructural, escenario 1: Intervalo de credibilidad de las estimaciones del parámetro, 
según Información en la varianza de la distribución a priori de las cargas factoriales cruzadas, Tamaño de 
Muestra y Coeficiente de Correlación Intraclase. (Nivel entre grupos) ......................................................... 133 
Gráfico 47 Parámetro estructural, escenario 2: Intervalo de credibilidad de las estimaciones del parámetro, 
según Información en la varianza de la distribución a priori de las cargas factoriales cruzadas, Tamaño de 
Muestra y Coeficiente de Correlación Intraclase. (Nivel entre grupos) ......................................................... 133 
Gráfico 48 Parámetro estructural, escenario 3: Intervalo de credibilidad de las estimaciones del parámetro, 
según Información en la varianza de la distribución a priori de las cargas factoriales cruzadas, Tamaño de 
Muestra y Coeficiente de Correlación Intraclase. (Nivel entre grupos) ......................................................... 134 
Gráfico 49 Parámetro estructural, escenario 4: Intervalo de credibilidad de las estimaciones del parámetro, 
según Información en la varianza de la distribución a priori de las cargas factoriales cruzadas, Tamaño de 
Muestra y Coeficiente de Correlación Intraclase. (Nivel entre grupos) ......................................................... 134 
Gráfico 50 Parámetro estructural, escenario 5: Intervalo de credibilidad de las estimaciones del parámetro, 
según Información en la varianza de la distribución a priori de las cargas factoriales cruzadas, Tamaño de 
Muestra y Coeficiente de Correlación Intraclase. (Nivel entre grupos) ......................................................... 135 
Gráfico 51 Parámetro estructural, escenario 6: Intervalo de credibilidad de las estimaciones del parámetro, 
según Información en la varianza de la distribución a priori de las cargas factoriales cruzadas, Tamaño de 
Muestra y Coeficiente de Correlación Intraclase. (Nivel entre grupos) ......................................................... 135 
Gráfico 52 Varianzas residuales, escenario 1: Intervalo de credibilidad de las estimaciones del parámetro, 
según Información en la varianza de la distribución a priori de las cargas factoriales cruzadas, Tamaño de 
Muestra y Coeficiente de Correlación Intraclase. (Nivel entre grupos) ......................................................... 136 
Gráfico 53 Varianzas residuales, escenario 2: Intervalo de credibilidad de las estimaciones del parámetro, 
según Información en la varianza de la distribución a priori de las cargas factoriales cruzadas, Tamaño de 
Muestra y Coeficiente de Correlación Intraclase. (Nivel entre grupos) ......................................................... 136 
Gráfico 54 Varianzas residuales, escenario 3: Intervalo de credibilidad de las estimaciones del parámetro, 
según Información en la varianza de la distribución a priori de las cargas factoriales cruzadas, Tamaño de 
Muestra y Coeficiente de Correlación Intraclase. (Nivel entre grupos) ......................................................... 137 
Gráfico 55 Varianzas residuales, escenario 4: Intervalo de credibilidad de las estimaciones del parámetro, 
según Información en la varianza de la distribución a priori de las cargas factoriales cruzadas, Tamaño de 
Muestra y Coeficiente de Correlación Intraclase. (Nivel entre grupos) ......................................................... 137 
Gráfico 56 Varianzas residuales, escenario 5: Intervalo de credibilidad de las estimaciones del parámetro, 
según Información en la varianza de la distribución a priori de las cargas factoriales cruzadas, Tamaño de 
Muestra y Coeficiente de Correlación Intraclase. (Nivel entre grupos) ......................................................... 138 
Gráfico 57 Varianzas residuales, escenario 6: Intervalo de credibilidad de las estimaciones del parámetro, 
según Información en la varianza de la distribución a priori de las cargas factoriales cruzadas, Tamaño de 
Muestra y Coeficiente de Correlación Intraclase. (Nivel entre grupos) ......................................................... 138 
Gráfico 58 Varianza factorial, escenario 1: Intervalo de credibilidad de las estimaciones del parámetro, según 
Información en la varianza de la distribución a priori de las cargas factoriales cruzadas, Tamaño de Muestra y 
Coeficiente de Correlación Intraclase. (Nivel entre grupos) .......................................................................... 139 
Gráfico 59 Varianza factorial, escenario 2: Intervalo de credibilidad de las estimaciones del parámetro, según 
Información en la varianza de la distribución a priori de las cargas factoriales cruzadas, Tamaño de Muestra y 
Coeficiente de Correlación Intraclase. (Nivel entre grupos) .......................................................................... 139 
 xiv 
 
Gráfico 60 Varianza factorial, escenario 3: Intervalo de credibilidad de las estimaciones del parámetro, según 
Información en la varianza de la distribución a priori de las cargas factoriales cruzadas, Tamaño de Muestra y 
Coeficiente de Correlación Intraclase. (Nivel entre grupos) .......................................................................... 140 
Gráfico 61 Varianza factorial, escenario 4: Intervalo de credibilidad de las estimaciones del parámetro, según 
Información en la varianza de la distribución a priori de las cargas factoriales cruzadas, Tamaño de Muestra y 
Coeficiente de Correlación Intraclase. (Nivel entre grupos) .......................................................................... 140 
Gráfico 62 Varianza factorial, escenario 5: Intervalo de credibilidad de las estimaciones del parámetro, según 
Información en la varianza de la distribución a priori de las cargas factoriales cruzadas, Tamaño de Muestra y 
Coeficiente de Correlación Intraclase. (Nivel entre grupos) .......................................................................... 141 
Gráfico 63 Varianza factorial, escenario 6: Intervalo de credibilidad de las estimaciones del parámetro, según 
Información en la varianza de la distribución a priori de las cargas factoriales cruzadas, Tamaño de Muestra y 
Coeficiente de Correlación Intraclase. (Nivel entre grupos) .......................................................................... 141 
 
 
 xv 
 
Licencia de publicación 
 
 xvi 
 
1 
 
1. Introducción 
 
1.1. Problema 
Los modelos de ecuaciones estructurales con datos multinivel han ganado popularidad en los 
últimos años debido a la aparición de software estadísticos que permiten realizar estimaciones para 
datos que presentan estructuras jerárquicas. Si bien algunas de las principales limitaciones para su 
estimación han sido evaluadas y corregidas con el paso del tiempo y las mejoras en los algoritmos 
de estimación de diversos software, su reciente aparición aún plantea algunos retos pendientes. 
La estimación Bayesiana vía Cadenas de Markov Monte Carlo da cuenta de una buena parte de la 
mejora en la estimación de los modelos de ecuaciones estructurales multinivel (donde la estimación 
Bayesiana produce estimaciones al menos tan buenas como las estimaciones frecuentistas, y en 
muchos casos superiores), pero su aplicación en el contexto de modelos de factores aún se ha visto 
restringida a muchos de los supuestos que usualmente eran establecidos en este tipo de modelos 
debido, precisamente, a los problemas de convergencia que se presentaban con los métodos de 
estimación frecuentista. 
Particularmente, garantizar que el modelo esté sobre-identificado es una de las recomendaciones 
prácticas que por décadas se han aplicado en el análisis factorial (Brown, 2006). Un modelo está 
sobre-identificado si el número de parámetros desconocidos es menor al número de elementos 
conocidos. La diferencia entre ambos números de parámetros es por ende positiva y son los grados 
de libertad. Usualmente, para evitar problemas de convergencia del modelo, un mínimo de tres 
indicadores por cada variable latente es sugerido, además de establecer las cargas cruzadas como 
exactamente iguales a cero, todo con el objetivo de disminuir las posibilidades de no convergencia 
del modelo desde un enfoque frecuentista. 
Pero en la última década se ha discutido el uso de varianzas muy pequeñas en las distribuciones a 
priori de las cargas factoriales cruzadas en el contexto de la estimación de modelos de análisis 
factorial confirmatorio o de ecuaciones estructurales con enfoque Bayesiano. 
Tradicionalmente, las investigaciones que incursionan en el uso del análisis factorial confirmatorio 
establecen las cargas factoriales cruzadas como iguales a cero, queriendo indicar con esto que el 
indicador particular no tiene ninguna relación con el factor latente o constructo para el cual la carga 
factorial ha sido establecida como exactamente igual a cero. 
Sin embargo, las variables indicadoras rara vez son indicadores de construcción perfectamente 
puros, especialmente en el estudio de las ciencias sociales, lo que implica que se pueden presentar 
niveles significativos de asociación con múltiples constructos. 
De hecho, en la lógica reflexiva de los análisis factoriales, los factores latentes son los que tienen 
una influencia en los indicadores, en lugar de a la inversa. Esto quiere decir que establecer pequeñas 
  
 
2 
 
cargas cruzadas refleja la influencia del factor en la parte relevante de la construcción de los 
indicadores, en lugar de que los indicadores tengan un impacto en la naturaleza del factor en sí. 
Por tales motivos, la presente investigación aborda esta discusión en el contexto de modelos de 
ecuaciones estructurales para datos multinivel con estimación Bayesiana al plantear modelos en los 
que fue liberada la estimación de parámetros en las cargas factoriales cruzadas. Por lo tanto, fue 
necesario examinar si para este tipo de modelos se mantiene la discusión descrita en la literatura y 
si existen ganancias en la bondad de ajuste de los modelos al permitir esa condición. 
Esto fue realizado al evaluar los posibles efectos sobre las estimaciones de los parámetros, las 
pruebas de hipótesis asociadas a los mismos, así como las pruebas de bondad de ajuste de modelos, 
que pueden variar según la definición de las distribuciones a priori de las cargas factoriales cruzadas, 
desde poco informativas o difusas hasta muy informativas, en el contexto de estimación de modelos 
de ecuaciones estructurales para datos multinivel con estimación Bayesiana. Para esto, además, fue 
analizada la robustez para distintos escenarios en los cuales pueden operar los modelos jerárquicos, 
como distintos tamaños de grupos en el nivel alto, distintos tamaños de muestra en los grupos del 
nivel bajo y diferentes intensidades de la correlación intraclase. 
La información resultante de este análisis fue la base para una segunda etapa de la investigación en 
la que se modelan variables provenientes de un test estandarizado de alfabetización matemática: 
la evaluación internacional PISA aplicada a estudiantes costarricenses en el año 2012. El estudio 
pretende generar una base para la toma de decisión sobre la manera de modelar los datos 
provenientes de la evaluación y la encuesta aplicada a estudiantes, que genera una base de datos 
con estructura jerárquica, tomando en cuenta sus características específicas. 
Por lo tanto, este estudio pretende responder a la pregunta: ¿existen mejoras en la evaluación del 
ajuste de un modelo de ecuaciones estructurales para datos multinivel con estimación Bayesiana 
cuando se permite la definición de distribuciones a priori con varianzas pequeñas en las cargas 
factoriales cruzadas? 
 
 
1.2. Objetivo General 
Comparar el desempeño de modelos de ecuaciones estructurales para datos multinivel con 
estimación Bayesiana, según distintos escenarios de estimación de las cargas factoriales cruzadas, 
para distinto números de grupos, tamaños de grupos, y ante distintos grados de correlación 
intraclase. 
 
 
 
  
 
3 
 
 
1.3. Objetivos específicos 
 Evaluar la estabilidad de los parámetros en la estimación de modelos de ecuaciones 
estructurales Bayesianos multinivel para distintas especificaciones de las distribuciones a 
priori de las cargas factoriales cruzadas. 
 Evaluar los posibles sesgos en la estabilidad de los parámetros ante distintos escenarios de 
la estructura jerárquica de los datos. 
 Determinar si el ajuste del modelo mejora al liberar la estimación de las cargas factoriales 
cruzadas. 
 Determinar el modelo más adecuado para medir la asociación de distintas variables de los 
estudiantes y de sus centros educativos sobre el nivel de competencias en alfabetización 
matemática de los individuos, con base en los resultados obtenidos de los objetivos 
anteriores y de acuerdo a las características particulares de los datos de PISA. 
 
  
 
4 
 
2. Estado de la cuestión sobre los modelos de ecuaciones estructurales 
multinivel 
Para poder comprender la escogencia del problema de investigación que se planteó en la pregunta 
de investigación enunciada en la introducción, resulta necesario brindar un marco detallado que 
permita contextualizar cómo se ha llegado hasta este momento en el debate de los modelos de 
ecuaciones estructurales Bayesianos multinivel. Por esto, se hará una introducción no exhaustiva a 
la teoría de análisis de factores (sección 2.1), los modelos de ecuaciones estructurales (sección 2.2), 
el análisis multinivel (sección 2.3) y la estimación Bayesiana (sección 2.4). 
 
De esta forma, será hasta la sección 2.5 en la que se abordará por completo el estado actual de la 
discusión en torno al uso de distribuciones a priori con varianzas pequeñas en la estimación de 
parámetros que usualmente han sido pre fijados a un valor particular (usualmente media cero y 
varianza cero), como las cargas factoriales cruzadas, la covariación entre variables indicadoras, entre 
otras. 
 
 
2.1. Análisis de factores 
 
Desde su aparición hace más de un siglo, el análisis factorial se ha convertido en uno de los 
procedimientos estadísticos multivariantes más utilizados en la investigación aplicada, en una gran 
variedad de campos de aplicación (por ejemplo, la psicología, la educación, la sociología, la salud 
pública, entre otros). La intención fundamental del análisis factorial es determinar el número y la 
naturaleza de las variables latentes o factores que explican la variación y covariación entre un 
conjunto de medidas observadas, comúnmente conocidas como indicadores. 
 
En concreto, un factor (también llamado variable latente o constructo) es una variable no 
observable que influye en más de una medida observada y que da cuenta de las correlaciones entre 
estas medidas observadas. En otras palabras, las medidas o variables observadas están 
interrelacionadas porque comparten un factor causal común (es decir, se encuentran influenciadas 
por el mismo constructo subyacente). Por lo tanto, el análisis factorial intenta una comprensión más 
parsimoniosa de la covariación entre un conjunto de indicadores debido a que el número de factores 
o constructos es menor que el número de variables observadas (Brown, 2006). 
 
Las concepciones iniciales sobre análisis factorial provienen del modelo de factor común (Thurstone, 
1947), que postula que cada indicador en un conjunto de medidas observadas es una función lineal 
de uno o más factores comunes y un factor único. Por lo tanto, el análisis factorial segmenta o parte 
la varianza de cada indicador en dos partes: 
(1) la varianza común o varianza explicada por el factor latente, que es estimada sobre la 
base de la varianza compartida con otros indicadores en el análisis; y 
(2) la varianza única, que es una combinación de la varianza que es específica para el 
indicador y la varianza del error aleatorio (es decir, error de medición en el indicador). 
 
Hay dos tipos principales de análisis de factores: el análisis factorial exploratorio (EFA, por sus siglas 
en inglés) y el análisis factorial confirmatorio (CFA, por sus siglas en inglés; véase Joreskog 1969). 
Tanto el EFA como el CFA pretenden reproducir las relaciones observadas entre un grupo de 
indicadores con un conjunto más pequeño de variables latentes, pero se diferencian 
  
 
5 
 
fundamentalmente por el número y la naturaleza de las especificaciones a priori y restricciones 
hechas en el modelo de factores. 
 
El análisis factorial exploratorio es un enfoque impulsado por los datos, de tal manera que no se 
hacen especificaciones en relación con el número de factores latentes o al patrón de las relaciones 
entre los factores comunes y los indicadores. Más bien, el investigador emplea el EFA como técnica 
exploratoria o descriptiva para determinar el número adecuado de factores comunes y de descubrir 
cuáles variables de medición son indicadores razonables de las diversas dimensiones latentes. 
 
En el análisis factorial confirmatorio, el investigador especifica el número de factores y el patrón de 
relación entre el indicador y las cargas factoriales de antemano, así como otros parámetros. El factor 
de solución pre-especificado se evalúa en términos de lo bien que este reproduce la matriz de 
varianzas y covarianzas de la muestra en las variables medidas1. Por lo tanto, a diferencia del EFA, 
el CFA requiere una sólida base empírica o conceptual para guiar la especificación y evaluación del 
modelo de factores. 
 
La forma básica de un modelo CFA que expresa la relación entre las variables observadas (𝑥), los 
factores latentes (𝜉) y las varianzas únicas (𝜀 ) es la siguiente: 
 
𝑥 = Λ𝜉 + 𝜀 
 
Done Λ (𝑝 × 𝑞) es una matriz de cargas factoriales (cuyos elementos se expresan con 𝜆), 𝜉(𝑞 × 1)  
es un vector aleatorio de factores latentes comunes y 𝜀(𝑝 × 1) es un vector aleatorio de errores de 
medición. Se asume que 𝜉~𝑁(0,Φ)  con una matriz simétrica definida positiva  Φ (𝑞 × 𝑞) que 
contiene las covariaciones entre los factores latentes;   𝜀~𝑁(0,Ψ𝜀) donde Ψ𝜖(𝑝 × 𝑝)  es una matriz 
diagonal de varianzas únicas, y  𝜉  no se encuentra correlacionada con  𝜀. 
 
El vector manifiesto  𝑥  se distribuye como 𝑁(0, Σ), donde la covarianza matricial de  𝑥  es: 
 
Σ = ΛΦΛ𝑇 +Ψ𝜀 
 
Donde  Σ (𝑝 × 𝑝) es la matriz simétrica de varianzas y covarianzas de las  𝑝  variables indicadoras o 
manifiestas. En este modelo, tradicionalmente los elementos de  Λ,  Φ  y  Ψ𝜀   pueden ser fijados de 
acuerdo con valores predeterminados. 
 
Por ejemplo, en un modelo de tres factores (𝜉1, 𝜉2 𝑦 𝜉3 ) con tres variables indicadoras o manifiestas 
midiendo a cada factor ( 𝑥1, 𝑥2, … , 𝑥9), estas ecuaciones tendrían la siguiente forma: 
 
                                                          
1 Este es el enfoque tradicional de análisis de factores, pero según fue explicado en el marco teórico, existen 
nuevos enfoques que no se basan en el ajuste de los datos a partir de la matriz de varianzas y covarianzas 
sino de las puntuaciones individuales de cada sujeto en la muestra. 
  
 
6 
 
𝜆11 0 0
𝜆
 21
0 0
 
𝜆
 31 0 0  𝜀11 0 … 0
 0 𝜆42 0  𝜙11 0 𝜀
Λ(9×3) =  0 𝜆52 0        Φ
22
(3×3) = (𝜙21 𝜙22 )    Ψ𝜀(9×9) = ( ) 
 ⋮ ⋱ 00 𝜆  
 62
0
 𝜙31 𝜙32 𝜙33 0 … 0 𝜀99
 0 0 𝜆73 
0 0 𝜆83
( 0 0 𝜆93)
 
Gráficamente, estas matrices se representan de la siguiente manera: 
 
 
Figura 1 Representación de un modelo confirmatorio de tres factores sin errores correlacionados 
Modelo de Tres factores sin errores correlacionados
 11  22  33  44  55  66  77  88  99
 1  2  3  4  5  6  7  8  9
𝜆21 𝜆52 𝜆83
𝜆11 𝜆31 𝜆42 𝜆62 𝜆73 𝜆93
𝜉1 𝜉2 𝜉3
𝜙
𝜙 2221 𝜙 𝜙
𝜙 32 3311
𝜙31
 
 
Frecuentemente, el análisis factorial confirmatorio es utilizado como precursor para los modelos de 
ecuaciones estructurales (SEM) que especifican  relaciones estructurales (por ejemplo, regresiones) 
entre las variables latentes. Los SEM se pueden separar en dos grandes componentes: 
 
 El modelo de medición, que especifica el número de factores, cómo se relacionan los 
indicadores con las variables latentes, y las relaciones entre los errores de los indicadores 
(es decir, el análisis factorial confirmatorio) y,  
 El modelo estructural, que especifica cómo se relacionan unas con otras las distintas 
variables latentes (efectos directos o indirectos, ninguna relación, relaciones espurias). 
 
De esta manera, un modelo de ecuaciones estructurales basa la relación estructural de las variables 
latentes en los resultados obtenidos del modelo de medición del análisis factorial confirmatorio, por 
lo que se encuentran estrechamente relacionados, y es claro por qué una solución de un CFA es una 
antesala muy útil a un modelo de ecuaciones estructurales, que intenta reproducir las relaciones 
  
 
7 
 
entre variables latentes con un set de parámetros estructurales más parsimonioso (es decir, menos 
parámetros) que el mismo CFA. 
 
 
2.2. Ecuaciones estructurales 
 
Los modelos de ecuaciones estructurales o SEM, por sus siglas en inglés (Structural Equations 
Models) se han hecho populares en las últimas décadas, en virtud de que representan una 
alternativa para explorar posibles planteamientos teóricos causales con datos que provienen de 
estudios observacionales o correlaciónales (Montero, 2012). 
 
Las raíces de los SEM se pueden trazar a partir de otras tres técnicas multivariadas más antiguas: el 
análisis de factores confirmatorio que proviene de la psicología, el análisis de trayectoria o de 
senderos (path analysis) que proviene de la biología y la genética, y los sistemas de ecuaciones 
simultáneas que se desarrollaron en economía. Un modelo SEM completo integra estas tres técnicas 
(Kaplan, 2009; Mulaik, 2009). 
 
Los modelos de ecuaciones estructurales son una clase flexible de modelos que permiten la 
modelación compleja de datos multivariados correlacionados para evaluar las inter relaciones entre 
variables observadas y latentes. Esta clase de modelos subsume varios modelos estadísticos muy 
utilizados, como los modelos de regresión, análisis factorial, correlaciones canónicas y análisis de 
varianzas y covarianzas (Song & Lee, 2012). 
 
Hoy día, debido a la fuerte demanda en varias disciplinas, hay más de una docena de paquetes de 
programas para estimar modelos SEM, como AMOS (un módulo del SPSS), EQS6, LISREL, Stata 
(gllamm), R (xxm), Bugs y Mplus. Cada software tiene distintas formas de especificar los SEM, pero 
la más ampliamente utilizada es la del modelo LISREL, que especifica un modelo de medición y un 
modelo estructural (Jöreskog & Sörbom, 1993). 
 
A diferencia de los análisis estadísticos exploratorios, los modelos de ecuaciones estructurales se 
centran en probar hipótesis en modelos con ciertas restricciones sobre los parámetros previamente 
identificadas. El objetivo es probar si el modelo con estas restricciones ajusta bien a los datos con 
los cuáles se buscará realizar la prueba. 
 
Una prueba clásica de modelos consiste en comparar la matriz de varianzas y covarianzas 
reproducida por las variables observadas contra la matriz de varianzas y covarianzas observada de 
los datos. Antes de presentar formalmente las ecuaciones involucradas en este proceso, resulta 
importante explicar los SEM desde una perspectiva gráfica. Esto se hará continuando con el modelo 
de tres factores de la sección anterior, sólo que en este caso los dos primeros factores latentes, 
llamados 𝜉1 y  𝜉2, son factores determinantes del tercer factor, llamado 𝜂3, es decir, en este modelo 
hay dos factores latentes exógenos que tienen una relación directa sobre un factor latente 
endógeno, según se muestra en la siguiente figura: 
 
 
 
 
 
 
  
 
8 
 
 
Figura 2 Modelo de ecuaciones estructurales con un factor latente endógeno 
_______________________________________________________________ 
 
_______________________________________________________________ 
 
 
Asociado a cada trayectoria causal directa hay un coeficiente estructural, que representa el efecto 
causal directo en la variable efecto. Este efecto representa en cuanto afecta una unidad de cambio 
de la variable causal sobre la variable efecto. En este caso, hay dos coeficientes estructurales que 
van desde los factores latentes exógenos hasta el factor latente endógeno,  𝛾1  y   𝛾2. 
 
Hay además nueve coeficientes de cargas factoriales, que modelan la relación entre cada variable 
indicadora (𝑦𝑝) con su factor causal común
2. Las flechas para estas relaciones salen desde el factor 
latente exógeno y llegan hasta su variable indicadora, por lo que estas son también variables 
endógenas en el modelo. Estos coeficientes se representan con el símbolo 𝜆, donde el primer 
número del subíndice que acompaña a 𝜆 se refiere a la variable y el segundo al factor en el que carga 
dicha variable. 
 
Con el símbolo   𝜙   se representan los elementos de la matriz de varianzas y covarianzas de los 
factores latentes exógenos, mientras que el símbolo 𝜓  representa la variable de error de cada 
variable endógena, sea latente o no. 
 
Por último, con el símbolo 𝜀  se representa a los elementos de la diagonal de la matriz de varianzas 
y covarianzas de error entre las variables observadas, a lo cual es importante mencionar que todas 
las covarianzas son usualmente fijadas como cero. 
 
                                                          
2 Al menos desde los enfoque clásicos, se trata de los 9 parámetros de cargas factoriales que son estimados 
libremente, ya que los restantes 18 parámetros de cargas factoriales cruzadas son fijados a ser cero. 
  
 
9 
 
El sistema de ecuaciones completo de este modelo está compuesto por diez ecuaciones (una para 
la variable latente endógena y nueve para las variables indicadoras endógenas), y es el siguiente: 
 
𝜂3 = 𝛾1𝜉1 + 𝛾2𝜉2 + 𝜓33𝜀3 
𝑦4 = 𝜆41𝜉1 + 𝜓44𝜀4 
𝑦5 = 𝜆51𝜉1 + 𝜓55𝜀5 
𝑦6 = 𝜆61𝜉1 + 𝜓66𝜀6 
𝑦7 = 𝜆72𝜉2 + 𝜓77𝜀7 
𝑦8 = 𝜆82𝜉2 + 𝜓88𝜀8 
𝑦9 = 𝜆92𝜉2 + 𝜓99𝜀9 
𝑦10 = 𝜆10,3𝜂3 + 𝜓10,10𝜀10 
𝑦11 = 𝜆11,3𝜂3 + 𝜓11,11𝜀11 
𝑦12 = 𝜆12,3𝜂3 + 𝜓12,12𝜀12 
 
Este modelo puede ser reescrito de forma matricial de la siguiente manera: 
 
𝜂 𝜂 𝜉 Δ
| | = 𝐴 1𝑥1
0 𝜁
𝑦 10𝑥10 |𝑦| + Γ10𝑥2 | | + | | | |  10𝑥1 10𝑥1 𝑥 2𝑥1 0 𝜓9𝑥9 10𝑥2 𝜖 2𝑥1
 
Si bien la nomenclatura presentada en la ecuación anterior aplica únicamente para el caso del 
modelo de tres factores, sirve de base para una introducción a los principales conceptos de los SEM. 
En los siguientes párrafos se explica con mayor detalle la forma matricial que adquieren estos 
modelos. 
De acuerdo con Mulaik (2009) existen dos formas en las que puede ser expresado el modelo de 
ecuaciones que subyace a un modelo de ecuaciones estructurales con variables latentes. La primera 
de estas es las más usada para presentar ejemplos empíricos, por su facilidad de interpretación. Esta 
consiste en tratar a las perturbaciones de una manera separada que a las variables exógenas: 
𝜼 𝜼 𝝃 𝚫 𝟎 𝜻
|𝒚| = 𝑨 |𝒚| + 𝚪 | | + | | | | 𝒙 𝟎 𝝍 𝝐
Ó 
𝜼∗ = 𝑨𝜼∗ + 𝚪∗𝝃∗ + 𝚫∗𝝐∗ 
 
𝜼
Donde   𝜼∗ = |𝒚|    es el vector aleatorio de variables endógenas de tamaño (𝑚 + 𝑝) ×  1, con 𝜼  
siendo el vector de tamaño (𝑚 ×  1) de variables latentes endógenas y  𝒚  el vector de tamaño 
(𝑝 ×  1) de variables manifiestas endógenas. 
𝑨   es la matriz de coeficientes estructurales de tamaño  (𝑚 + 𝑝) × (𝑚 + 𝑝)   que relaciona las 
variables endógenas a otras variables endógenas 
𝚪∗   es la matriz de coeficientes estructurales de tamaño (𝑚 + 𝑝)  × (𝑛 + 𝑞)  que relaciona las 
variables endógenas con las variables exógenas. 
  
 
10 
 
∗ 𝝃𝝃 = | |   es el vector aleatorio de variables endógenas de tamaño (𝑛 + 𝑞) × 1, con  𝝃 siendo el 
𝒙
vector de variables latentes exógenas de tamaño (𝑛 × 1)    y  𝒙   el vector de tamaño  (𝑞 × 1)  de 
variables manifiestas exógenas. 
𝝍   es una matriz diagonal de coeficientes estructurales, de tamaño (𝑝 × 𝑝), que relaciona las 
variables manifiestas endógenas a las perturbaciones exógenas. 
𝝐   es un vector de tamaño (𝑝 × 1)   de variables aleatorias de perturbación en las variables 
manifiestas. 
𝚫   es una matriz diagonal de coeficientes estructurales, de tamaño (𝑚 × 𝑚), que relaciona las 𝑚 
variables latentes endógenas ( 𝜂 )a las 𝑚 perturbaciones( ζ ). 
𝝐   es un vector de tamaño (𝑝 × 1)   de variables aleatorias de perturbación en las variables 
manifiestas. 
𝝐∗   es el vector de tamaño (𝑚 + 𝑝) × 1   de perturbaciones en las variables endógenas, tanto 
latentes como manifiestas. 
 
La segunda forma de expresar en forma matricial los modelos de ecuaciones estructurales es 
tratando como variables exógenas tanto a las perturbaciones como a las variables manifiestas 
exógenas. Esto lleva a la siguiente representación matricial: 
𝜼 𝜼 𝝃
|𝒚| = 𝑨 |𝒚| + [
𝚪𝝃 𝚪𝒙 𝚪𝜺] [𝒙] 
𝜺
Ó 
𝜼∗ = 𝑨𝜼∗ + 𝚪∗𝝃∗ 
 
Donde   𝝃∗   es un vector de variables exógenas y de perturbaciones de tamaño (𝑛 + 𝑞) × 1. No se 
hace ninguna distinción entre las perturbaciones sobre las variables latentes o sobre las variables 
manifiestas. 
Esta forma es utilizada para introducir los diferentes métodos de estimación de los SEM, debido a 
que permite tratar a los 𝛾′𝑠  y  a los 𝛿′𝑠   de una manera similar cuando se busca obtener las derivadas 
de las funciones de ajuste con respecto a sus elementos (James, Mulaik y Brett, 1982; Mulaik, 2009). 
Es importante aclarar que aunque parezca que 𝜼∗  aparece en ambos lados de la ecuación anterior, 
en realidad ninguna variable ocurre simultáneamente a ambos lados de la ecuación (aunque así 
parezca en la notación matricial), ya que los elementos de la diagonal de la matriz 𝑨  son ceros 
(porque ninguna variable endógena puede ser causal de sí misma), lo que significa que ninguna 
variable endógena puede ocurrir a ambos lados de la ecuación. 
  
 
11 
 
Siguiendo a Mulaik (2009), la ecuación anterior puede expresar en su forma reducida al aplicar una 
serie de operaciones algebraicas, como sigue: 
𝜼∗ − 𝑨𝜼∗ = 𝚪∗𝝃∗ 
(𝑰 − 𝑨)𝜼∗ = 𝚪∗𝝃∗  
Haciendo 𝐵 = (I − A), se tiene que: 
𝑩𝜼∗ = 𝚪∗𝝃∗ 
𝜼∗ = 𝑩−𝟏𝚪∗𝝃∗  
 
En esta última ecuación del modelo de ecuaciones expresado en su forma reducida, las variables 
endógenas son funciones matriciales únicamente de las variables exógenas. 
 
2.3. Ecuaciones estructurales multinivel 
 
Los enfoques de inferencia basados en la regresión por lo general requieren que los datos se 
recopilen de una muestra aleatoria simple en la que las observaciones son independientes. Sin 
embargo, muchos problemas de investigación en las ciencias sociales involucran el análisis de 
estructuras de datos jerárquicos, donde los sujetos se encuentran agrupados en uno o más niveles 
jerárquicos, como estudiantes agrupados dentro de escuelas o pacientes agrupados en hospitales. 
En el contexto de datos jerárquicos, el término nivel denota diferentes componentes anidados. En 
el caso de los datos del caso práctico que fueron utilizados en esta Tesis posterior a las simulaciones, 
los sujetos son los estudiantes en edad de 15 años, y estos se encuentran agrupados o anidados en 
sus respectivos centros educativos. Esta es una estructura jerárquica en dos niveles: un primer nivel 
donde se encuentran los estudiantes y un segundo nivel donde están los centros educativos que 
contienen a estos estudiantes. 
Utilizar enfoques de estimación basados en regresión que ignoren la naturaleza jerárquica de los 
datos (sea vía la desagregación al nivel de individuo o mediante la agregación al nivel de cluster o 
grupo) puede conducir a una variedad de problemas. La mayoría de estos problemas provienen de 
una posible violación al supuesto de observaciones independientes. La modelación multinivel es una 
técnica estadística que fue desarrollada para tomar en cuenta las dependencias que surgen en las 
estructuras de datos jerárquicos al modelar la variación entre las unidades de niveles altos y bajos 
(Raudenbush & Bryk, 2002). 
2.3.1. Análisis de factores multinivel 
Los modelos multinivel (MLM, siglas en inglés) y los modelos de ecuaciones estructurales (SEM, 
siglas en inglés) han evolucionado desde raíces conceptuales y metodológicas distintas. Los MLM 
tratan con el análisis de datos agrupados (por ejemplo, estudiantes dentro de centros educativos) y 
tienen como objetivo el descomponer la varianza observada entre los componentes dentro de los 
grupos y entre los grupos. Los SEM por su parte tratan con la modelación de medias y de las 
covarianzas en datos multivariados. 
  
 
12 
 
Aunque ambos se han desarrollado separadamente y para diferentes propósitos, los SEM y los MLM 
tienen importantes áreas en común ya que ambos enfoques incluyen variables latentes y efectos 
aleatorios para explicar las correlaciones entre las variables respuesta. 
Estas dos clases de modelos se enfocan en preguntas diferentes y tienen distintas fortalezas y 
debilidades, y aunque algunos autores ya han estudiado la integración de ambos para aprovechar 
sus ventajas, la modelación estructural de datos con estructura multinivel es un área relativamente 
nueva de investigación metodológica (Metha & Neale, 2005; Bauer, 2003; Bentler & Liang, 2003; 
Curran, 2003; du Toit & du Toit, 2003; Rovine & Molennar, 2000; Depaoli & Clifton, 2015). 
Los MLM se utilizan cuando la estructura de los datos es jerárquica con unidades elementales en el 
nivel 1 anidadas en el nivel 2 que a su vez podrían estar anidadas en el nivel 3, y así sucesivamente 
para N niveles. Las variables latentes, o efectos aleatorios, se interpretan como la heterogeneidad 
inobservada en los diferentes niveles que induce a la dependencia entre todas las unidades del nivel 
más bajo que pertenecen a una unidad de un nivel más alto. Las pendientes aleatorias representan 
la heterogeneidad entre grupos en la respuesta global y los coeficientes aleatorios representan la 
heterogeneidad en la relación entre la variable respuesta y las variables predictoras (Rabe-Hesketh 
y otros, 2004). 
Los SEM se utilizan cuando las variables de interés no pueden ser medidas perfectamente. En su 
lugar, existe un set de ítems o variables indicadoras que reflejan un constructo hipotético. Las 
variables latentes o factores se interpretan como constructos que subyacen a las variables 
manifiestas y que induce dependencia entre estas. 
La combinación de MLM y SEM ofrece a los investigadores la capacidad de responder una variedad 
de preguntas de investigación sofisticadas. Específicamente, los Modelos de Ecuaciones 
Estructurales Multinivel (ML-SEM, siglas en inglés) son útiles para testear las relaciones causales y 
tomar en cuenta el error de la medición de constructos con datos jerárquicos. Los ML-SEM pueden 
generalizarse a modelos con más de dos niveles de agrupamiento así como a datos longitudinales 
en los que los puntos temporales son un primer nivel agrupados en el segundo nivel de individuos. 
De esta forma, el enfoque  ML-SEM es un marco muy general que proporciona la flexibilidad para 
estimar una gran variedad de modelos. 
Un área común de aplicación de los ML-SEM son los modelos de medición multinivel, o análisis 
factorial confirmatorio multinivel, que brinda la posibilidad de especificar una estructura factorial 
distinta en cada nivel del modelo (Little, 2013; Kaplan, Kim and Kim, 2009; Diya, Li, Heede, Sermeus 
y Lesaffre, 2013). 
ML-SEM se aplica también al contexto de análisis de trayectorias o modelos de mediación, siendo 
este último una trayectoria casual entre tres o más variables (Muthén B. , 1989); recientes avances 
en ML-SEM permiten la especificación de modelos de análisis de trayectorias con mediadores de 
nivel superior, un tipo de modelo que no puede ser estimado utilizando los enfoques tradicionales 
de modelación multinivel (Preacher, Zyphur, & Zhang, 2010). 
  
 
13 
 
Adicional al análisis de trayectoria multinivel, los ML-SEM pueden ser utilizados para combinar 
modelos de medición y modelos de trayectoria con datos multinivel, como los modelos multinivel 
de múltiples indicadores y múltiples causas (Finch y French, 2011; Morselli, Spine y Devos, 2012), y 
el modelo de covariación latente multinivel (Lüdtke, y otros, 2008) 
Los ML-SEM pueden ser especificados de distintas maneras, es decir, no hay una única forma de 
lidiar con ML-SEM, así como tampoco hay una única forma de estimarlos. Los dos marcos más 
comunes para especificar ML-SEM son los modelos lineales generalizados latentes y mixtos (Rabe-
Hesketh, Skrondal, & Pickles, 2004) y el enfoque en dos etapas (Muthén B. , 1994). El procedimiento 
más utilizado es el enfoque en dos etapas. En este caso, son especificados dos modelos de 
ecuaciones estructurales separadamente, uno para las matrices de covarianzas dentro de los grupos 
y otro para las matrices de covarianzas entre los grupos (Lee & Shi, 2001). 
De acuerdo con este enfoque, para un modelo de factores en dos niveles para los sujetos 𝑗  anidados 
en grupos 𝑘, el modelo se formula en términos de las matrices de covarianzas tanto dentro de los 
grupos ( Σ𝑊) como entre los grupos ( Σ𝐵).Para comprender esto, primero es necesario recordar la 
estructura factorial en un nivel. El modelo factorial convencional puede ser especificado como: 
𝑣𝑗 = 𝛽Λ𝜂𝑗  con    𝜂𝑗~𝑁(0,𝚿) 
Para variables observadas o latentes continuas, se tiene que: 
𝑦 ∗𝑗 = 𝛽Λ𝜂𝑗 + 𝜀𝑗  con    𝜀𝑗~𝑁(0,𝚿𝜺) 
Donde  𝑣𝑗   y   𝑦
∗
𝑗     son vectores que contienen los elementos de las variables indicadoras, 𝛽  es un 
vector de interceptos, Λ   es una matriz de cargas factoriales y 𝜂𝑗   es la matriz de factores comunes. 
La estructura de covarianza de las respuestas latentes es: 
Σ = 𝐶𝑜𝑣(𝑦 ∗𝑗 ) = Λ𝚽Λ
′ +𝚿𝜺 
Para la estructura multinivel, en el enfoque en dos etapas el modelo factorial es especificado de la 
siguiente manera: 
𝑦 ∗𝑗𝑘 ~𝑁(𝜇𝑘 , Σ𝑊) 
𝜇𝑘~𝑁(𝜇, Σ𝐵) 
Donde  𝜇  es el intercepto global y  𝜇𝑘   son interceptos específicos de cada grupo. La estructura de 
covarianzas de las respuestas latentes es ahora especificada con dos matrices de varianzas y 
covarianzas: 
Σ (1) (1)
(1)
𝑊 = Λ 𝚽 Λ
𝑇 +𝚿 (1)𝜺  
y 
Σ = Λ(2)𝚽(2)Λ𝑇
(2)
𝐵 +𝚿
(2)
𝜺  
  
 
14 
 
donde el superíndice (1) se utiliza para denotar a las variables y parámetros del nivel más bajo y (2) 
para denotar a sus contrapartes en el nivel de grupos. 
El modelo factorial de dos factores puede ser expresado de una forma explícita usando una 
formulación en dos etapas con un modelo-dentro y un modelo-entre: 
𝑦 ∗ = 𝜇 + Λ(1)𝜂 (1)𝑗𝑘 𝑘 𝑗𝑘 + 𝜀
(1)
𝑗𝑘  
Y 
𝜇𝑘 = 𝜇 + Λ
(2)𝜂 (2)𝑗𝑘 + 𝜀
(2)
𝑗𝑘  
La primer ecuación para la variable respuesta  𝑦 ∗𝑗𝑘   representa un modelo de factores comunes que 
incluye interceptos aleatorios (𝜇𝑘)  que varían entre grupos (𝑘). La segunda ecuación representa un 
modelo de factores comunes para los interceptos aleatorios (𝜇𝑘). 
Para Rabe-Hesketh y otros (2004), este método presenta algunas imitaciones. Por esta razón, 
proponen un marco conceptual distinto para modelar ecuaciones estructurales con multinivel, 
desarrollando los modelos lineales generalizados latentes y mixtos (GLLAMM, siglas en inglés) que 
consisten de un modelo respuesta y un modelo estructural. 
El modelo respuesta es el mismo que el explicado en esta sección, pero generalizado para 𝐿 niveles 
de agrupación. Condicional a las variables latentes, este modelo respuesta es un modelo lineal 
generalizado especificado vía un predictor lineal, una función de enlace y una distribución de la 
familia exponencial. Para un modelo con 𝐿 niveles de agrupación y 𝑀𝑙  variables latentes en el nivel 
𝑙 > 1, el predictor lineal tiene la siguiente forma: 
𝐿 𝑀𝑙
𝑣 = 𝑥𝛽 +∑ ∑ 𝜂 (𝑙) 𝑍 (𝑙)𝜆 (𝑙)𝑚 𝑚 𝑚  
𝑙=2 𝑚=1
En la ecuación se omiten los subíndices del nivel de sujetos por simplicidad de presentación. 
Usualmente, el primer elemento de 𝜆𝑚  es restringido al valor de uno (1). Los elementos de 𝑥  son 
covariables asociadas con los efectos fijos o coeficientes de regresión 𝛽. 
La m-ésima variable latente  𝑀  en el nivel 𝑙 , 𝜂 (𝑙)𝑚 , es multiplicada por una combinación lineal 
𝑍 (𝑙)𝜆 (𝑙)𝑚 𝑚    de covariables (𝑍
(𝑙)
𝑚 ), donde 𝜆
(𝑙)
𝑚   son los parámetros (usualmente cargas factoriales). 
Definiendo a  𝜼(𝑙) = (𝜼 (𝑙), 𝜼 (𝑙), … , 𝜼 (𝑙)1 2 𝑀 )   como el vector de variables latentes en el nivel 𝑙   para 𝑙
una unidad dada del nivel 𝑙  con un vector correspondiente  de covariables  𝒛(𝑙) =
(𝒛 (𝑙), 𝒛 (𝑙)1 2 , … , 𝒛
(𝑙)
𝑀 ); y definiendo  al vector de variables latentes de todos los niveles para una 𝑙
unidad del nivel 2 como 𝜼 = (𝜼(2), … , 𝜼(𝐿))  con un vector de covariables  𝒛 = (𝒛(2), … , 𝒛(𝐿)), la 
esperanza condicional de la respuesta  𝑦   dados 𝒙,  z  y  𝜼  es “enlazada” al predictor lineal  𝑣  
mediante una función de enlace  𝑔(∙): 
𝑔(𝐸[𝑦|𝒙, 𝒛, 𝜼]) = 𝑣 
  
 
15 
 
La especificación se completa al escoger una familia para la distribución condicional de la variable 
respuesta dados las variables latentes y las covariables. No hay variables latentes en el nivel 1, este 
nivel se reserva para el “error” de las distribuciones condicionales seleccionadas. En Rabe-Hesketh 
y otros (2004) se muestran algunas de estas distribuciones para diferentes tipos de variable 
respuesta3. 
Este modelo permite la especificación de modelos de coeficientes aleatorios, modelos de medición, 
o ambos. El modelo estructural para 𝐿 niveles  tiene la forma tradicional para modelos de un nivel, 
pero es especificado para el vector 𝜂𝑗  de todas las variables latentes para el sujeto 𝑗. Esto permite 
que variables latentes del primer nivel puedan ser regresadas en variables observadas o latentes de 
niveles superiores o del mismo nivel4. Este enfoque permite la especificación de modelos de 
coeficientes aleatorios con respuestas latentes en diferentes niveles. 
El siguiente gráfico ilustra la diferencia entre el enfoque en dos etapas y el GLLAMM: 
 
Figura 3 Representación de los dos enfoques para la estimación de análisis de factores multinivel 
(a) (b)
Modelo de dos factores general Modelo de ecuación estructural multinivel con variable latente 
dependiente y covariable latente en el nivel 2
Grupo k Grupo k 𝜁 (3)2
𝜂(3)
𝜁 (3)
𝜀 (3)
1
𝜀 (3)1 2 𝜀 (3)3
𝑦1 𝑦
𝛾
2 𝑦3 𝜂 (3)
12
𝜂 (2)1 1
𝜁 (1)1
𝜂(2)
Unidad j Unidad j
 
Una diferencia importante entre ambos enfoques es que en GLLAMM las ecuaciones para la 
estructura factorial terminan formando una única estructura que es estimada puntualmente para 
                                                          
3 Respuestas continuas, respuestas ordinales o dicotómicas, tiempos discretos, datos de conteo y duración 
en tiempo continuo, respuestas politómicas, y respuestas mixtas. 
4 Sin embargo, GLLAMM no permite que las variables latentes sean regresadas en otras variables latentes u 
observadas que son aleatorias en el primer nivel, dado que esa especificación no tendría sentido 
interpretativo.  
  
 
16 
 
cada individuo, mientras que el enfoque general así como los SEM en un único nivel basan sus 
estimaciones en la estructura de la matriz de varianzas y covarianzas. 
Si bien cada autor resalta las ventajas de su enfoque sobre el otro, en esencia, las diferencias entre 
el GLLAMM y el enfoque en dos etapas pueden ser consideradas en términos del formato de los 
datos. El marco GLLAMM requiere que los datos sean estructurados en un formato largo, de forma 
tal que todas las respuestas a los ítems estén contenidas en una única columna. Debido a que las 
respuestas de los individuos a cada item están apiladas, los items representan el nivel más bajo del 
modelo cuando se utiliza el marco GLLAMM. En contraste, el enfoque en dos etapas requiere que 
los datos se encuentren en formato amplio (multivariado) de forma tal que las respuestas a cada 
ítem estén contenidas en columnas separadas (el formato más usual). Consecuentemente, son las 
observaciones (y no los ítems) los que representan el nivel más bajo del modelo cuando se utiliza 
este enfoque. Debido a que el software que fue utilizado en esta investigación es Mplus, el enfoque 
de aplicación para la estimación de modelos multinivel es el de dos etapas. 
 
 
 
2.4. Métodos de estimación 
 
2.4.1. Estimación frecuentista 
 
Para la estimación de los modelos de ecuaciones estructurales existen varios métodos como los 
mínimos cuadrados en dos etapas, mínimos cuadrados no ponderados, mínimos cuadrados 
generalizados, máxima verosimilitud, máxima verosimilitud robusta, mínimos cuadrados 
ponderados, entre otros (Joreskog y otros, 2000). 
El primer método es no-iterativo y sirve para proporcionar las soluciones iniciales de los métodos 
iterativos, aunque sus soluciones pueden ser tomadas como la estimación final. 
Los métodos iterativos proporcionan estimaciones basadas en la minimización de una función de 
ajuste, la cual modela las discrepancias entre las matrices de variancias y covariancias observadas y 
estimadas. La función de ajuste del método de máxima verosimilitud es la más utilizada, y se expresa 
de la siguiente manera: 
𝐹𝑀𝐿 = 𝑙𝑛|𝑆| − 𝑙𝑛|Σ| + 𝑡𝑟|(𝑆)(Σ
−1)| − 𝑝 
Donde |𝑆| es el determinante de la matriz de varianzas y covarianzas observada, |Σ|  es el 
determinante de la matriz de varianzas y covarianzas estimada o predicha, 𝑝  es el orden de la matriz 
“input” (el número de indicadores o variables manifiestas) y 𝑡𝑟  es una expresión para representar 
al operador de la traza una matriz. 
  
 
17 
 
El principio subyacente de la estimación vía máxima verosimilitud es encontrar las estimaciones de 
los parámetros del modelo que maximizan la probabilidad de observar los datos disponibles si los 
datos hubieran sido recolectados de la misma población otra vez. En otras palabras, la estimación 
por máxima verosimilitud tiene como propósito encontrar los valores de los parámetros que hacen 
que los datos observados sean más probables. 
Los programas computacionales como LISREL (Jöreskog & Sörbom, 1993), Mplus (Muthén & 
Muthén, 1998-2015) y otros comienzan con un set inicial de parámetros conocidos como los valores 
iniciales (que pueden ser generados automáticamente por el software) y repetidamente refina esta 
estimación en un esfuerzo por reducir el valor de 𝐹𝑀𝐿 de la ecuación anterior (Brown, 2006). La 
convergencia del modelo se alcanza cuando el programa llega a un set de parámetros estimados 
que no pueden ser mejorados (es decir, que no pueden reducir 𝐹𝑀𝐿  más allá de lo ya alcanzado)
5. 
Una razón por la que la estimación vía máxima verosimilitud ha sido la más utilizada es porque posee 
propiedades estadísticas deseadas, como la habilidad de proveer errores estándar para cada uno de 
los parámetros estimados del modelo, que pueden ser utilizados para realizar pruebas de 
significancia estadística de los parámetros estimados y para determinar la precisión de estas 
estimaciones. Además, 𝐹𝑀𝐿   es utilizado en el cálculo de una gran cantidad de índices de bondad 
de ajuste (Brown, 2006). 
Sin embargo, la estimación máximo verosímil tiene varios requerimientos que en algunos casos 
puede producir estimadores inadecuados, como varianzas negativas y coeficientes estandarizados 
menores a uno, y en el caso de modelos de ecuaciones estructurales multinivel puede enfrentar 
problemas de no convergencia, estimaciones sesgadas cuando el índice de correlación intraclase es 
bajo, cuando se dispone de un reducido número de observaciones o cuando se cuenta con un 
pequeño número de grupos en el nivel superior de la estructura multinivel (Depaoli y Clifton, 2015). 
Además, algunos de los supuestos de la estimación máximo verosímil son: 
 Tamaño de muestra grande (asintóticamente) 
 Indicadores o variables manifiestas medidas en escalas continuas. 
 La distribución de los indicadores es normal multivariada. 
Aunque los parámetros efectivamente estimados mediante máxima verosimilitud pueden no verse 
afectados, la no normalidad podría resultar en errores estándar sesgados, con implicaciones en los 
las pruebas de significancia y en la prueba bondad de ajuste chi cuadrado6. En este caso, se 
recomienda la utilización del método de máxima verosimilitud robusta (Brown, 2006). Si algunas de 
las variables manifiestas o indicadoras no son continuas, es recomendable utilizar mínimos 
                                                          
5 Los algoritmos de estimación más utilizados son el Algoritmo Newton-Raphson y los Métodos Cuasi-
Newton (Mulaik, 2009). 
6 Sin embargo, si la no normalidad es extrema la estimación máximo verosímil producirá estimaciones de los 
parámetros incorrectas debido a que el supuesto de linealidad en el modelo es inválido. 
  
 
18 
 
cuadrados ponderados, mínimos cuadrados ponderados robustos y mínimos cuadrados no 
ponderados. 
La estimación multinivel mediante GLLAMM, el enfoque general y algunos otros enfoques basan sus 
estimaciones en máxima verosimilitud, aunque el GLLAMM puede adaptarse a métodos Monte 
Carlo (MCMC). De hecho, debido a la complejidad de los modelos SEM multinivel, frecuentemente 
se presentan problemas como estimaciones negativas para componentes de la matriz de varianzas 
y covarianzas estimadas (Hox & Maas, 2001; Lüdtke y otros., 2011) y estimaciones sesgadas de los 
parámetros (Li & Beretvas, 2013; Lüdtke y otros., 2008). 
Dados los problemas que pueden presentarse con la estimación frecuentista, actualmente está 
ganando popularidad el uso de la estimación Bayesiana aplicados a una gran cantidad de modelos, 
dentro de los cuales se encuentran los modelos de ecuaciones estructurales. 
Song & Lee (2012) definen claramente las ventajas de la estimación Bayesiana, basada en las 
observaciones aleatorias individuales brutas, sobre la estimación frecuentista, basada en la matriz 
de covarianza muestral: 
a) Primero, el desarrollo de métodos estadísticos está basado en las propiedades del primer 
momento de las observaciones individuales brutas que son más simples que las propiedades 
de segundo momento de la matriz de covarianza muestral. 
b) Segundo, se producen estimaciones directas de las variables latentes que no pueden ser 
obtenidas con los métodos clásicos. 
c) Tercero, directamente se modelan variables observadas con sus variables latentes a través 
de ecuaciones de regresión. De esta forma produce una interpretación más directa y se 
pueden utilizar las técnicas comunes de regresión para el análisis de datos 
d) Cuarto, además de la información que proporcionan los datos observados, el enfoque 
Bayesiano permite el uso de genuina información previa para producir mejores resultados. 
e) Quinto, el enfoque Bayesiano proporciona estadísticas más sencillas de evaluar para la 
bondad del ajuste y la comparación de modelos, así como otras estadísticas útiles como la 
media y los percentiles de la distribución posterior. 
f) Sexto, brinda resultados más confiables para muestras pequeñas. 
 
Con el objetivo de evitar resultados no deseados o la no convergencia del modelo, en esta Tesis 
también fue utilizada la estimación Bayesiana, siguiendo el marco de referencia que se describe a 
continuación. 
2.4.2. Estimación Bayesiana 
 
El enfoque tradicional para analizar los modelos SEM es el del análisis de la estructura de 
covarianzas. Bajo este enfoque, la teoría estadística así como los algoritmos computacionales son 
desarrollados sobre la base de la matriz de covarianza muestral y su distribución asintótica.  Este 
  
 
19 
 
enfoque funciona bien bajo algunos supuestos estándar, como por ejemplo que las observaciones 
aleatorias son normales, idéntica e independientemente distribuidas (Bentler & Liang, 2003). Como 
resultado, casi todos los desarrollos comerciales para modelar SEM fueron diseñados sobre la base 
de este enfoque. Sin embargo, en situaciones un poco más complejas que son comunes en la 
investigación aplicada -especialmente en las ciencias sociales- el enfoque de análisis de estructura 
de covarianza no es eficaz y puede tener problemas teóricos y computacionales (Song & Lee, 2012). 
 
La estimación Bayesiana representa gran giro con respecto a los métodos frecuentistas de 
estimación de parámetros que han sido por varias décadas los más utilizados, particularmente por 
el uso de Cadenas de Markov Monte Carlo (MCMC, siglas en inglés) y el uso de una distribución a 
priori que aporta información al proceso de estimación y que no está presente en los métodos 
frecuentistas7. 
 
Una de las diferencias fundamentales entre ambos métodos, además de los metodológicos, 
es la forma en que es vista la naturaleza de los parámetros poblacionales. La estimación clásica vía 
máxima verosimilitud asume que el vector de parámetros desconocidos no es aleatorio, lo que 
produce la estimación del parámetro poblacional en un único valor utilizando únicamente datos 
muestrales. Por el contrario, en el enfoque Bayesiano el vector de parámetros desconocidos se 
considera aleatorio con una distribución a priori y una distribución de densidad; es decir, en el 
paradigma Bayesiano el parámetro poblacional es estimado como una distribución de valores en 
lugar de un único número utilizando tanto datos muestrales como información de la distribución a 
priori que establece el investigador (Prees, 2003). De esta forma, los métodos Bayesianos combinan 
esta información a priori sobre la naturaleza del parámetro con la información que proveen los datos 
muestrales para estimar una distribución a posteriori. 
 
Como la estimación Bayesiana no produce un único valor del parámetro sino una 
distribución aleatoria del mismo, en la práctica se calcula la media, la mediana o la moda de esta 
distribución a posteriori cuando es requerido el reporte de un valor. Adicionalmente, las 
desviaciones estándar y los intervalos de densidad para los parámetros del modelo pueden ser 
calculados a partir de esta distribución a posteriori. 
 
Un elemento clave en la estadística Bayesiana es la especificación de la distribución a priori 
para cada parámetro del modelo. Estos valores a priori pueden ser de dos tipos: las distribuciones a 
priori informativas son usualmente tomadas de la investigación y el conocimiento previo y pueden 
especificar de una manera precisa el rango en el que podría ubicarse el parámetro buscado, 
mediante el establecimiento de pequeñas varianzas Por el contrario, las distribuciones a priori no 
informativas o difusas no se basan en investigación previa, sino que son seleccionadas 
deliberadamente con el objetivo de no imponer grandes restricciones a la distribución a posteriori 
del parámetro, debido a que no se cuenta con información útil para limitarlo en cierta medida, y por 
lo tanto son caracterizadas por el uso de grandes varianzas. 
 
Al utilizar varianzas de gran tamaño, el investigador reconoce la falta de información 
referente a su conocimiento sobre la distribución a posteriori, y permite que la estimación del 
                                                          
7 Es importante aclarar que aunque MCMC se utiliza frecuentemente en el contexto Bayesiano, no es un 
método inherentemente Bayesiano, sino que es un enfoque algorítmico para remuestreo que es utilizado 
también, aunque en menor medida, en la estimación máximo verosímil (ML) y máxima verosimilitud 
restringida (REML). 
  
 
20 
 
parámetro sea más influenciada por la información que proveen los datos muestrales (la 
verosimilitud) que por la información a priori (Finch y otros, 2014). 
 
Una de las ventajas de los Métodos Bayesianos es que, a diferencia de la Máxima 
Verosimilitud, no impone ningún supuesto acerca de la distribución de los datos. Así, la 
determinación del intervalo de credibilidad se puede escoger sin preocuparse incluso de si los datos 
provienen de distribuciones sesgadas o muy alejadas de la típica distribución normal. 
 
Otra ventaja de la estadística Bayesiana es que provee estimaciones de los parámetros más 
precisas en los casos de muestras pequeñas con respecto a lo obtenido por Máxima Verosimilitud, 
y que no presenta los problemas de convergencia en modelos complejos que sí ocurren con los 
métodos frecuentistas, además de que puede ser igualmente utilizado en casos en los que la 
estimación frecuentista también funciona. 
 
Para ilustrar la estadística Bayesiana aplicada a los modelos de ecuaciones estructurales, se 
asume que M es un modelo SEM con un vector de parámetros desconocidos  𝜽,  y que el set de 
datos observados se denota por  𝒀 = (𝑦1, … , 𝑦𝑛) con tamaño de muestra   𝑛. 
 
En el enfoque Bayesiano, 𝜽  es considerado aleatorio con una distribución (llamada 
distribución a priori) y una función de densidad asociada, 𝑝(𝜽|𝑴). 
 
Sea 𝑝(𝒀, 𝜽|𝑴) la función de densidad probabilística de la distribución conjunta de 𝒀  y 𝜽  
dado M. El comportamiento de 𝜽  dados los datos es descrito completamente por la distribución 
condicional de 𝜽  dado 𝒀. A esta distribución condicional se le llama distribución a posteriori de 𝜽. 
 
Sea 𝑝(𝜽|𝒀,𝑀)  la función de densidad de la distribución a posteriori. De acuerdo con el 
Teorema de Bayes, e introduciendo el modelo SEM (M), la siguiente identidad es cierta: 
 
𝑝(𝒀, 𝜽|𝑴) = 𝑝(𝒀|𝜽,𝑴)𝑝(𝜽|𝑴) = 𝑝(𝜽|𝒀,𝑴)𝑝(𝒀|𝑴) 
 
Como 𝑝(𝒀|𝑴)   no depende de 𝜽  se puede tratar como una constante para un Y fijo, y 
entonces se tiene: 
 
log 𝑝(𝜽|𝒀,𝑴) ∝ 𝑙𝑜𝑔𝑝(𝒀|𝜽,𝑴) + 𝑙𝑜𝑔𝑝(𝜽|𝑴) 
 
Donde 𝑝(𝒀|𝜽,𝑴) es la función de verosimilitud y   𝑝(𝜽|𝑴) es la función de densidad a priori.  
La función de densidad a posteriori, 𝑝(𝜽|𝒀,𝑴), depende de ambas funciones. 
 
Como la función de verosimilitud depende de los datos y la función de densidad a priori no, 
entre más grande sea el tamaño de la muestra de los datos más se va a acercar la estimación 
Bayesiana a la estimación frecuentista, dado que la función a priori juega un rol menos importante. 
Por el contrario, entre más pequeño sea el tamaño de muestra la función a priori juega un rol más 
importante que la función de verosimilitud de los datos. Esta es de hecho una de las ventajas de la 
estimación Bayesiana sobre la frecuentista, y por lo tanto, la escogencia de la distribución a priori 
es un tema fundamental en la teoría Bayesiana. 
 
 
  
 
21 
 
2.4.3. Enfoque Bayesiano en la estimación de modelos de ecuaciones estructurales 
 
En esta sección se explica la teoría básica de estimación de un modelo de ecuaciones 
estructurales general desde un enfoque Bayesiano, siguiendo lo expuesto por Lee (2007). Un 
modelo de ecuaciones estructurales se compone de un modelo de medición y una ecuación 
estructural. El modelo de medición se define de la siguiente manera: 
 
𝑦𝑖 = 𝚲𝜔𝑖 + 𝜖𝑖 
 
Donde 𝑦𝑖    es un vector aleatorio de los valores observados, 𝚲  es una matriz de cargas 
factoriales  y 𝜖𝑖   es un vector aleatorio de errores de medición independiente de 𝜔𝑖. Se asume que 
𝜖𝑖 se distribuye 𝑁[0,𝚿𝜖]  donde Ψ𝜖  es una matriz diagonal. 
 
Sea 𝜔 𝑇 𝑇 𝑇𝑖 = (𝜂𝑖 , 𝜉𝑖 )   una partición de 𝜔𝑖   en   𝑞1𝑥1   vectores latentes dependientes de 𝜂𝑖    
y en   𝑞2𝑥1   vectores latentes independientes de 𝜉𝑖. La ecuación estructural para evaluar la relación 
entre 𝜂𝑖   y   𝜉𝑖    está dada por: 
𝜂𝑖 = 𝑨𝜂𝑖 + 𝚪𝜉𝑖 + 𝛿𝑖  
 
Donde A y 𝚪  son matrices de parámetros desconocidos de los coeficientes de regresión y 
𝛿𝑖   es un vector aleatorio de errores de medición. Al igual que en el análisis factorial, se asume que 
𝜉𝑖  se distribuye como 𝑁[0,𝚽]    y que    𝛿𝑖    se distribuye como 𝑁[0,Ψ𝛿], donde Ψ𝛿    es una matriz 
diagonal  y,  𝜉𝑖   y   𝛿𝑖     son independientes. 
 
Ahora, haciendo 𝒀 = (𝑦1, … , 𝑦𝑛)  y   𝛀 = (𝜔1, … , 𝜔𝑛), y definiendo a 𝜽 como  el vector de 
parámetros desconocidos en 𝚲, 𝚿𝜖, 𝑨, 𝚪, 𝚽  y  𝜳𝛿, para la estimación Bayesiana, se replican los 
datos observados  𝒀 con la matriz de variables latentes 𝛀 considerando la distribución posterior 
conjunta [𝜽, 𝛀|𝒀]. Un número suficientemente grande de observaciones de esta distribución a 
posteriori es obtenido mediante  muestreo de Gibbs8, que en la iteración (j+1) realiza lo siguiente: 
 
a) Generar 𝛀(𝑗+1)  de  𝑝(𝛀|𝜽(𝑗), 𝒀), 
b) Generar 𝛉(𝒋+𝟏)  de  𝑝(𝛉|𝛀(𝑗+1), 𝒀) 
 
La derivación de la distribución condicional 𝑝(𝛀|𝜽, 𝒀) (punto “a” del proceso anterior) está basado 
en la definición del modelo y de las propiedades de distribución de los vectores aleatorios 𝑦𝑖   y  𝜔𝑖. 
Para 𝑖 = 1,… , 𝑛 , los 𝜔𝑖 son mutuamente independientes y los 𝑦𝑖  también son mutuamente 
independientes dados (𝜔𝑖, 𝜽). Entonces, se tiene la siguiente ecuación para la distribución 
condicional 𝑝(𝛀|𝜽, 𝒀): 
𝑛 𝑛
𝑝(𝛀|𝜽, 𝒀) =∏𝑝(𝜔𝑖|𝑦𝑖 , 𝜽) ∝∏𝑝(𝜔𝑖|𝜽) 𝑝(𝑦𝑖|𝜔𝑖, 𝜽) 
𝑖=1 𝑖=1
                                                          
8 Es un caso especial del algoritmo de Metropolis-Hastings con un componente donde se usa como densidad 
propuesta la distribución a posteriori condicional completa. 
  
 
22 
 
Lee Sik-Yum (2007) muestra que la distribución condicional de 𝜔𝑖 dados (𝑦𝑖 , 𝜽) se distribuye como 
una Normal con los siguientes parámetros: 
−1 −1
(𝜔 −1𝑖|𝑦𝑖 , 𝜽) ∼ 𝑁 [(𝚺𝜔 + 𝚲
𝑇𝚿 −1𝚲) 𝚲𝑇𝚿 −1 −1 𝑇 −1𝜖 𝜖 𝑦𝑖  ,  (𝚺𝜔 + 𝚲 𝚿𝜖 ) ] 
Con  
𝑨 −1(𝚪𝚽𝚪𝑇 +𝚿 )𝑨 −𝑇 𝑨 −1
𝚺 = [ 0 𝛿 0 𝟎
𝚪𝚽
𝜔 −1 ] 𝚽𝚪𝑻𝑨0 𝚽
Por otra parte, la distribución condicional de 𝛉 dados (𝛀 , 𝒀) para la iteración señalada en el punto 
b), es proporcional a 𝑝(𝜽)𝑝(𝒀,𝛀|𝜽), por lo que resulta necesario establecer la distribución a priori 
𝑝(𝜽) de los parámetros desconocidos incluidos en 𝜽 (𝚲, 𝚿𝝐, 𝑨, 𝚪, 𝚽  y  𝚿𝜹). 
Definiendo 𝜽𝑦  como los parámetros desconocidos en   𝚲  y en   𝚿𝜖  que se asocian con el modelo 
de medición, y definiendo 𝜽𝜔  como los parámetros desconocidos en   𝑨, 𝚪, 𝚽  y  𝚿𝛿     asociados 
con el modelo estructural que relaciona las variables latentes, es normal asumir que las 
distribuciones a priori de cada vector de parámetros es independiente, es decir, 𝑝(𝜽) =
𝑝(𝜽𝒚)𝑝(𝜽𝜔). Combinando esta información con otros resultados (Lee, 2007), se tiene que: 
𝑝(𝜽𝒚, 𝜽𝒘|𝒀, 𝛀) ∝ [𝑝(𝒀|𝛀, 𝜽𝒚)𝑝(𝜽𝑦)][𝑝(𝛀|𝜽𝝎)𝑝(𝜽𝜔)] 
Donde ambos términos multiplicativos pueden ser tratados separadamente como las distribuciones 
marginales condicionales de 𝜽𝑦  y   𝜽𝜔. 
La distribución marginal condicionada de 𝜽𝑦  es 𝑝(𝚲,𝚿𝜖|𝒀,𝛀)  a la cual se le asigna las siguientes 
distribuciones a priori: sean  𝜓𝜖𝑘   y  Λ𝑘  el elemento de la diagonal “k” de 𝚿𝝐  y la k-ésima fila de 𝚲 
respectivamente: 
𝜓 −1𝜖𝑘 ∼ 𝐺𝑎𝑚𝑚𝑎(𝛼0𝜖𝑘, 𝛽0𝜖𝑘) 
[Λ𝑘|𝜓𝜖𝑘] ∼ 𝑁[Λ0𝑘, 𝜓𝜖𝑘𝐻0𝑦𝑘] 
Con  𝐻0𝑦𝑘 siendo una matriz definida positiva. Más adelante en la especificación del modelo que 
fue ajustado con los datos se explicará la escogencia de los hiperparámetros para todas las 
distribuciones a priori9. 
Por otra parte, la distribución marginal condicionada de 𝜽𝜔 es proporcional a 𝑝(𝛀|𝜽𝝎)𝑝(𝜽𝜔), para 
el cuál se puede demostrar (Lee, 2007) que la distribución marginal condicional es: 
𝑝(𝛀|𝜽𝝎)𝑝(𝜽𝜔) = [𝑝(𝛀𝟏|𝛀𝟐, 𝑨, 𝚪,𝚿𝜹)𝑝(𝑨, 𝚪,𝚿𝜹)][𝑝(𝛀𝟐|𝚽)𝑝(𝚽)] 
Donde las distribuciones condicionales de (𝑨, 𝚪,𝚿𝜹)  y de  𝚽  pueden ser tratadas separadamente. 
                                                          
9 Para claridad, las distribuciones gamma, gamma invertida, Wishart y Wishart invertida, así como sus 
características se presentan en el anexo 1. 
  
 
23 
 
La distribución a priori para 𝚽 es  
𝚽−1 ∼ 𝑊𝑖𝑠ℎ𝑎𝑟𝑡[𝑅0, 𝜌0] 
Con 𝑅0  siendo una matriz definida positiva. 
Por último, siguiendo una lógica similar para la escogencia de las distribuciones a priori para 
Λ𝑘   𝑦   𝜓𝜖𝑘, y haciendo 𝚲𝜔 = (𝑨, 𝚪), se tiene lo siguiente: 
𝜓 −1𝛿𝑘 ∼ 𝐺𝑎𝑚𝑚𝑎(𝛼0𝛿𝑘 , 𝛽0𝛿𝑘) 
[Λ𝜔𝑘|𝜓𝛿𝑘] ∼ 𝑁[Λ0𝜔𝑘, 𝜓𝛿𝑘𝐻0𝛿𝑘] 
 
2.4.3.1. Tratamiento de variables categóricas en el modelo 
El modelo recién expuesto muestra la forma básica en la que puede estimarse un modelo de 
ecuaciones estructurales mediante el enfoque Bayesiano, cuando todas las variables observadas o 
manifiestas que son utilizadas para la conformación de las variables latentes del modelo de 
medición pueden ser tratadas como continuas. 
Sin embargo, debido al diseño de los cuestionarios y dada la naturaleza de las ciencias sociales, los 
datos a menudo provienen de variables ordenadas categóricas que incluyen observaciones de una 
forma discreta. El cuestionario que fue analizado en esta investigación no escapa a este diseño. 
Un método comúnmente utilizado para analizar este tipo de datos es tratar los valores asignadas 
dentro de la variable categórica como continuos, y provenientes de una distribución normal. Este 
enfoque podría no conducir a problemas serios si los histogramas de las observaciones son 
simétricos y con la frecuencia más alta en el centro, en cuyo caso se puede asumir normalidad 
multivariada. 
Sin embargo, en algunos casos los sujetos que toman el cuestionario seleccionan categorías en las 
colas del ordenamiento de la variable, por lo que los histogramas correspondientes son asimétricos 
o bimodales, y tratar estas variables como normales puede llevar a conclusiones erróneas (ver 
Olsson 1979 y Lee 1990). 
Según  (Song & Lee, 2012) un mejor enfoque para analizar este tipo de datos discretos es tratarlos 
como observaciones que provienen de una distribución normal latente continua con una 
especificación de umbral. En el enfoque Bayesiano, la idea básica al utilizar las variables categóricas 
es tratar las mediciones continuas latentes subyacentes como datos faltantes aleatorios, y 
aumentarlos con los datos observados en el análisis a posteriori. Utilizando esta estrategia de 
aumento de datos, el modelo que se basa en el set de datos completo se convierte en uno con 
variables continuas. En la estimación, secuencias de las observaciones de los parámetros 
estructurales, de las variables latentes y de los umbrales son simuladas de la distribución posterior 
conjunta vía algoritmos Monte Carlo (MCMC). Siguiendo a Lee (2007) y Song & Lee (2012) la 
especificación opera de la siguiente manera: 
  
 
24 
 
La ecuación de medición para un vector aleatorio observado 𝑣𝑖, de tamaño 𝑝 × 1, es la siguiente: 
𝑣𝑖 = 𝜇 + Λ𝜔𝑖 + 𝜖𝑖,         𝑖 = 1,… , 𝑛 
Sea 𝜂𝑖(𝑞1 × 1)  y  𝜉𝑖(𝑞2 × 1)  los subvectores latentes de  𝜔𝑖  con la siguiente ecuación estructural 
asociada: 
𝜂𝑖 = Π𝜂𝑖 + Γ𝜉𝑖 + 𝛿𝑖  
Haciendo   Λ𝜔 = (Π, Γ), la educación anterior puede ser reescrita como: 
𝜂𝑖 = Λ𝜔𝜔𝑖 + 𝛿𝑖  
Sea 𝑣 = (𝑥𝑇 , 𝑦𝑇)𝑇, donde 𝑥 = (𝑥1, … , 𝑥
𝑇
𝑟)    es un subconjunto de variables cuyas mediciones 
continuas exactas son observables, mientras que 𝑦 = (𝑦 𝑇1, … , 𝑦𝑠)    es el restante subconjunto de 
variables tal que las mediciones continuas correspondientes son inobservables. 
La información asociada con  𝑦  es dada por un vector categórico observable  𝑧 = (𝑧1, … , 𝑧𝑠)
𝑇. 
Cualquier variable latente en 𝜂  o  𝜉  puede ser relacionada con variables observadas ya sea en  𝑥  o 
en  𝑧. Esto significa que cualquier variable latente puede tener variables observadas continuas o 
categóricas en sus indicadores. 
La relación entre  𝑦  y 𝑧  es definida por un set de umbrales, de la siguiente manera: 
𝑧1 𝛼1,𝑧 ≤ 𝑦1 1 < 𝛼1,𝑧 + 1,1
𝑧 = | ⋮ |  𝑠𝑖  ⋮  
𝑧𝑠 𝛼𝑠,𝑧 ≤ 𝑦 < 𝛼 + 1𝑠 𝑠 𝑠,𝑧𝑠
Donde para 𝑘 = 1,… , 𝑠,   𝑧𝑘  es un valor entero en {0,1,… , 𝑏𝑘},  y 𝛼𝑘,0 < 𝛼𝑘,1 < ⋯ < 𝛼𝑘,𝑏 <𝑘
𝛼𝑘,𝑏  𝑘+1
Para la k-ésima variable, hay   𝑏𝑘 + 1   categorías definidas por los umbrales desconocidos 𝛼𝑘,𝑗. Los 
valores enteros   {0,1,… , 𝑏𝑘}   de 𝑧𝑘   son utilizados para especificar las categorías que contienen los 
elementos correspondientes en  𝑦𝑘. Además, para evitar problemas de identificación Song & Lee 
(2012) sugieren fijar los umbrales en las colas, 𝛼𝑘,1  y  𝛼𝑘,𝑏 , con valores pre asignados, lo que implica 𝑘
seleccionar medidas de locación y dispersión para 𝑦𝑘. La forma más común de hacerlo es utilizando 
las frecuencias observadas y la distribución normal estándar,  𝑁[0,1]: para todo  𝑘   se puede fijar  
𝛼 ∗−1 ∗𝑘,1 = Φ 𝑓𝑘,1.  y  𝛼
∗−1 ∗ ∗ ∗
𝑘,𝑏 = Φ 𝑓𝑘 𝑘,𝑏 , donde  Φ ( ∙ )  es la función de distribución 𝑁[0,1],  𝑓𝑘 𝑘,1  es 
la frecuencia de la primer categoría y  𝑓∗𝑘,𝑏   es la frecuencia acumulada de la categoría con  𝑧𝑘 𝑘 < 𝑏𝑘. 
Para SEM lineales esta restricción implica que la media y la varianza de la variable continua 
subyacente 𝑦𝑘   son 0 y 1, respectivamente. 
 
Tomando en consideración tanto las variables continuas como las categóricas para la estimación del 
modelo SEM Bayesiano, se utiliza la estrategia de aumento de datos descrita anteriormente. Sea 
  
 
25 
 
𝑋 = (𝑥1,… , 𝑥𝑛) la matriz de datos de variables continuas  y  𝑍 = (𝑧1, … , 𝑧𝑛)  la matriz de datos con 
variables categóricas. Sea  = (𝑦1, … , 𝑦𝑛)  la matriz de mediciones continuas  y  Ω = (𝜔1, … , 𝜔𝑛)  
la matriz de variables latentes. Los datos observados  [𝑋, 𝑍]  son aumentados con las variables 
latentes  [ , Ω] en el análisis posterior. 
En la estimación bayesiana se obtienen muestras de la distribución a posteriori  [𝛼, 𝜃, Ω,  |𝑋, 𝑍] a 
través del muestreo de Gibbs, que iterativamente simula 𝛼, 𝜃, Ω  y     desde las distribuciones 
condicionales completas. Para implementar el muestreo de Gibbs, se comienza con los valores 
iniciales (𝛼0, 𝜃0, Ω0,  0), luego se simula (𝛼1, 𝜃1, Ω1,  1) y las subsiguientes mediante el mismo 
procedimiento descrito en la sección anterior. En la iteración j-ésima, con los valores 
(𝛼𝑗, 𝜃𝑗, Ω𝑗 ,  𝑗): 
 Generar Ω𝑗+1 de 𝑝(Ω|𝜃(𝑗), 𝛼(𝑗),  (𝑗), 𝑋, 𝑍) 
 Generar θ𝑗+1 de 𝑝(θ|Ω(𝑗+1), 𝛼(𝑗),  (𝑗), 𝑋, 𝑍) 
 Generar (α𝑗+1,  (𝑗+1))  de  𝑝(𝛼,  |θ𝑗+1, Ω𝑗+1, 𝑋, 𝑍) 
Ha sido demostrado por Geman & Geman (1984) y Geyer (1992) que para un número 
suficientemente grande de iteraciones  𝑗, la distribución conjunta de (𝛼𝑗, 𝜃𝑗, Ω𝑗 ,  𝑗)  converge a 
una tasa exponencial a la distribución posterior conjunta deseada [𝛼, 𝜃, Ω,  |𝑋, 𝑍]. 
 
2.4.4. Integración de los modelos de ecuaciones estructurales multinivel con 
estimación Bayesiana 
 
En la investigación empírica, y particularmente en las ciencias sociales, es poco frecuente encontrar 
datos que provengan de una muestra aleatoria y de una única población. Por el contrario, los datos 
usualmente exhiben al menos dos posibles fuentes de heterogeneidad. 
La primera son los datos de mezcla, que involucra observaciones independientes que provienen de 
una de las  𝐾  poblaciones con distintas distribuciones, donde no hay información acerca de a cuál 
de las 𝐾  poblaciones pertenece una observación particular. 
El segundo tipo de datos heterogéneos proviene de la extracción de observaciones de distintos 
grupos (también llamados conglomerados o clústeres) con una estructura jerárquica conocida. Los 
datos analizados en esta investigación son de este tipo, donde se tienen estudiantes agrupados en 
centros educativos. 
Como los individuos dentro de un grupo comparten ciertos factores comunes, las observaciones 
aleatorias están correlacionadas. Así, el supuesto de independencia entre datos observados es 
violado, e ignorar la estructura correlacionada de los datos y analizarlos como observaciones de una 
muestra aleatoria simple llevará a resultados erróneos. Además, es deseable establecer un modelo 
significativo para los niveles altos y estudiar los efectos de las variables latentes entre grupos sobre 
las variables latentes dentro de los grupos. 
  
 
26 
 
Sea 𝑢𝑔𝑖, para 𝑖 = 1,… ,𝑁𝐺 , un conjunto de vectores aleatorios  p-variados, anidados dentro de  
grupos   𝑔 = 1,… , 𝐺. Los tamaños de muestra  𝑁𝐺   pueden ser distintos entre grupos por lo que el 
set de datos se le llama “no balanceado”. En el primer nivel, y condicional a la media grupal 𝑣𝑔, se 
asume que las observaciones aleatorias en cada grupo satisfacen la siguiente ecuación de medición 
(Song & Lee 2012; Lee 2007): 
𝑢𝑔𝑖 = 𝑣𝑔 + Λ𝑖𝑔𝜔1𝑔𝑖 + 𝜖1𝑔𝑖 
Donde Λ𝑖𝑔 es una matriz de cargas factoriales, 𝜔1𝑔𝑖  es un vector aleatorio de factores latentes y 
𝜖1𝑔𝑖  es un vector aleatorio de errores de medición que es independiente de 𝜔1𝑔𝑖  y se distribuye 
como 𝑁[0,Ψ1𝑔]  donde Ψ1𝑔  es una matriz diagonal. Además, 𝑢𝑔𝑖  y  𝑢𝑔𝑗  no son independientes 
debido a la existencia de 𝑣𝑔. 
Para tomar en cuenta la estructura multinivel se asume que la media grupal 𝑣𝑔  satisface el siguiente 
modelo de análisis factorial: 
𝑣𝑔 = 𝜇 + Λ2𝜔2𝑔 + 𝜖2𝑔 
Donde 𝜇  es el vector de interceptos, Λ2  es una matriz de cargas factoriales, 𝜔2  es un vector de 
variables latentes y 𝜖2  es un vector aleatorio de errores de medición que es independiente de 𝜔2 y 
se distribuye como 𝑁[0,Ψ2]  donde Ψ2  es una matriz diagonal. Además, se asume que los errores 
de medición en el primer y segundo nivel son independientes. 
Combinando las ecuaciones anteriores, se tiene que: 
𝑢𝑔𝑖 = 𝜇 + Λ2𝜔2𝑔 + 𝜖2𝑔 + Λ𝑖𝑔𝜔1𝑔𝑖 + 𝜖1𝑔𝑖 
Con el fin de evaluar las interrelaciones entre las variables latentes, los vectores latentes  𝜔1𝑔𝑖  y  
𝑇 𝑇
𝜔2𝑔  son subdivididos como 𝜔1𝑔𝑖 = (𝜂
𝑇 𝑇 𝑇 𝑇
1𝑔𝑖, 𝜉1𝑔𝑖)         y  𝜔2𝑔 = (𝜂2𝑔, 𝜉2𝑔)    donde 𝜂1𝑔𝑖,   𝜉1𝑔𝑖, 𝜂2𝑔  
y  𝜉2𝑔   son vectores latentes para los niveles 𝑗 = 1,2.  Los vectores 𝜉1𝑔𝑖 y 𝜉2𝑔 se distribuyen como 
𝑁[0,Φ1𝑔]  y 𝑁[0,Φ2]  respectivamente. 
Las siguientes ecuaciones estructurales son incorporadas en los modelos entre grupos y dentro de 
grupos del modelo de dos niveles que fue estimado en esta investigación: 
𝜂1𝑔𝑖 = Π1𝑔𝜂1𝑔𝑖 + Γ1𝑔𝜉1𝑔𝑖 + 𝛿1𝑔𝑖  
𝜂2𝑔 = Π2𝜂2𝑔 + Γ2𝜉2𝑔 + 𝛿2𝑔 
Donde Π2,  Π1𝑔,  Γ2,  Γ1𝑔  son matrices de parámetros desconocidos, 𝛿1𝑔𝑖  es un vector de errores 
de medición distribuido como 𝑁[0,Ψ1𝑔𝛿], 𝛿2𝑔  es un vector de errores de medición distribuido 
como 𝑁[0,Ψ2𝛿], y Ψ1𝑔𝛿   y  Ψ1𝑔𝛿   son matrices diagonales. 
El modelo anterior puede ser estimado para variables observadas continuas y categóricas según lo 
expuesto en la sección anterior. 
  
 
27 
 
Para la estimación Bayesiana, nuevamente se recurre a la estrategia de aumentar los datos 
observados utilizando herramientas MCMC para simular las observaciones a posteriori. El 
procedimiento es el siguiente (Song & Lee, 2012): 
Sea 𝜽  el vector de parámetros que contiene todos los parámetros estructurales desconocidos en 
𝚲1𝑔, 𝚿1𝑔, 𝚷1𝑔, 𝚪1𝑔, 𝚽1𝑔, 𝚲1𝑔𝛿, 𝝁, 𝚲2, 𝚿2, 𝚷2, 𝚪2, 𝚽2 y  𝚲2𝛿, y sea 𝜶 el vector de parámetros que 
contiene todos los umbrales desconocidos (para las variables categóricas). 
Sea  𝑿𝑔 = (𝒙𝑔1, … , 𝒙𝑔𝑁 )  y 𝑿 = (𝑿1, … , 𝑿𝐺)  los datos continuos observados, y sea  𝒁 =𝐺 𝑔
(𝒛𝑔1, … , 𝒛𝑔𝑁 )  y    𝒁 = (𝒁1, … , 𝒁𝐺)  los datos categóricos observados. Sea  𝒀𝑔 = (𝒚𝑔1, … , 𝒚𝑔𝑁 )  y 𝐺 𝐺
𝒀 = (𝒀1, … , 𝒀𝐺)  las mediciones latentes continuas asociadas con 𝒁𝑔  y  𝒁 respectivamente. Los 
datos observados serán aumentados con 𝒀  en el análisis a posteriori. Una vez que 𝒀  esté dado, 
todos los datos serán continuos. 
Sea 𝑽 = (𝒗1, … , 𝒗𝐺)  la matriz de variables latentes entre grupos. Sea 𝛀𝑔 = (𝝎1𝑔1, … ,𝝎1𝑔𝑁 ), 𝐺
𝛀1 = (𝝎11, … ,𝝎1𝐺)  y  𝛀2 = (𝝎21, … ,𝝎2𝐺)  las matrices de variables latentes en los niveles dentro 
de grupos y entre grupos. 
En el análisis a posteriori, los datos observados (𝑿, 𝒁) serán aumentados con (𝒀, 𝑽, 𝛀1, 𝛀2) y se 
considerará la distribución posterior conjunta [𝜽, 𝜶, 𝒀, 𝑽, 𝛀1, 𝛀2 | 𝑿, 𝒁]. El muestreo de Gibbs será 
utilizado para generar una secuencia de observaciones de esta distribución posterior conjunta. Para 
aplicar el muestreo de Gibbs se re muestrea de las siguientes distribuciones condicionales: 
[𝑽 | 𝜽, 𝜶, 𝒀, 𝛀1, 𝛀2, 𝑿, 𝒁], [𝛀1| 𝜽, 𝜶, 𝒀, 𝑽,𝛀2, 𝑿, 𝒁], [𝛀2| 𝜽, 𝜶, 𝒀, 𝑽,𝛀1, 𝑿, 𝒁],  
[𝜶, 𝒀| 𝜽, 𝑽, 𝛀1, 𝛀2, 𝑿, 𝒁]  y  [𝜽 |  𝜶, 𝒀, 𝛀1, 𝛀2, 𝑿, 𝒁]. 
Un reto adicional de esta investigación dada la revisión de teoría con respecto a los SEM multinivel 
con estimación Bayesiana es la modelación de relaciones estructurales en el segundo nivel, ya que 
hasta el momento, toda la teoría y las aplicaciones de los modelos SEM Multinivel solo toman en 
cuenta la estructura jerárquica, sin prestar atención a las relaciones teórica que se puedan plantear 
en el nivel de grupos mediante un modelo estructural. El anexo 1 muestra el detalle de las 
distribuciones condicionales, siguiendo a (Song & Lee, 2012). 
2.4.4.1. Estimación del SEM para datos multinivel con estimación Bayesiana en 
Mplus 
En la actualidad hay disponible un número considerable de software comerciales o de código abierto 
para estimar modelos de ecuaciones estructurales multinivel. Estos incluyen el módulo gllamm de 
STATA (Rabe-Hesketh, Skrondal, & Pickles, 2004), Mplus (Muthén & Muthén, (1998-2015)), LISREL 
(Jöreskog & Sörbom, 1993), el paquete xxM de R (Metha & Neale, 2005), OpenBUGS (Thomas & 
OHara, 2004), entre otros. 
En general, el uso de alguno de estos paquetes estadísticos depende de la pregunta de investigación 
que deba ser respondida y del diseño del modelo a ser estimado. Por ejemplo, para modelos de 
ecuaciones estructurales multinivel en dos niveles, todos estos software incluyen propiedades que 
  
 
28 
 
les permite realizar estimaciones por diferentes métodos. Si se tratara de tres niveles, la lista se 
reduce a cinco, mientras que para modelos de cuatro o más niveles, únicamente dos software 
ofrecen funcionalidades para estimarlos. 
En cuanto a métodos de estimación, todos ofrecen la estimación por máxima verosimilitud (a 
excepción de los BUGS), y un número más reducido permiten estimaciones de errores estándar 
robustos o mínimos cuadrados ponderados. Únicamente con tres de estos software es posible 
estimar ML-SEM mediante el uso de MCMC, con un buen grado de flexibilidad en la especificación 
de las distribuciones a priori (siendo el lenguaje BUGS menos restrictivo que MPlus o MLwiN). 
Dado lo anterior, y al tomar en cuenta otras características como la imputación de valores faltantes, 
los tipos de variable respuesta que puedan modelarse, los tipos de variables latentes que pueden 
incluirse en el modelo y la variedad de modelos que son susceptibles de estimación, los software 
Mplus y los programas compatibles con el lenguaje Bugs son los que presentan las condiciones 
requeridas para poder estimar modelos de ecuaciones estructurales para datos multinivel con 
estimación Bayesiana. 
Finalmente, las facilidades que ofrece Mplus para el diseño de simulaciones Monte Carlo fue el 
factor considerado como determinante para dirigir las estimaciones involucradas en esta tesis hacia 
este software. El procedimiento para la estimación Bayesiana en Mplus se resume a continuación: 
 
La estimación Bayesiana difiere de la estimación frecuentista en que los parámetros no se 
consideran constantes sino variables. A los parámetros se le puede asignar distribuciones a priori, 
correspondientes a la teoría o a estudios previos. Junto con la verosimilitud de los datos, esto da 
lugar a distribuciones a posteriori para los parámetros. 
La estimación Bayesiana utiliza los algoritmos MCMC para crear aproximaciones a las distribuciones 
a posteriori al realizar de forma iterativa las iteraciones aleatorias en la cadena de MCMC. Las 
iteraciones iniciales en la cadena MCMC se conocen como la fase de “quemado”. En Mplus, la 
primera mitad de cada cadena se descarta como parte de esta fase de descarte (por default), aunque 
esto puede ser modificado por el usuario. 
Mplus ofrece la posibilidad de seleccionar el tipo de estimador puntual Bayesiano a estimar (media, 
mediana o moda) siendo el valor default la mediana. Además, indicar el número de cadenas MCMC 
independientes a utilizar para realizar las estimaciones, con un valor default de dos cadenas. 
Además, es posible seleccionar entre dos opciones para especificar el algoritmo de cadena MCMC 
a utilizar para generar la distribución a posteriori de los parámetros: GIBBS o Metropolis-Hastings. 
Además, las distribuciones que pueden ser utilizadas para establecer distribuciones a priori son: 
Normal, Lognormal, Uniforme, Gamma Inversa, Gamma, Wishart Inversa y Dirichlet. 
Otras especificaciones incluyen semillas para la generación de datos aleatorios para valores iniciales 
de las cadenas, el número de iteraciones para evaluar convergencia, el espaciado entre iteraciones 
  
 
29 
 
a ser utilizadas para realizar las estimaciones y el número de procesadores a ser utilizadas para 
incrementar la velocidad computacional (Muthén & Muthén, (1998-2015)). 
Finalmente, todo el código fue programado desde R y mediante el uso del paquete 
MplusAutomation fue realizada la estimación de los modelos en Mplus desde R (Hallquist & Wiley, 
2018)10. 
 
 
2.5. La discusión en el uso de las distribuciones a priori con varianzas pequeñas en el 
contexto de modelos de ecuaciones estructurales con estimación Bayesiana 
 
Los modelos de ecuaciones estructurales se pueden separar en dos componentes: el modelo de 
medición o análisis factorial confirmatorio y el modelo estructural. En el CFA la rotación factorial no 
es aplicable debido a las restricciones identificadas previamente al fijar la mayor parte de las cargas 
cruzadas como iguales a cero. En otras palabras, la rotación no existe en el CFA porque una 
estructura simple es obtenida al especificar que los indicadores carguen en un solo factor latente y 
que las cargas cruzadas sean exactamente iguales a cero, lo que además beneficia la identificación 
del modelo al no requerir la estimación de parámetros que se considerarán como fijos, es decir, 
parámetros que no serán de libre estimación (Brown, 2006). 
Debido a las bondades de la estimación Bayesiana en los SEM, recientemente se ha desarrollado un 
nuevo enfoque con la intención de producir un análisis que refleje de una mejor manera las teorías 
del investigador y sus creencias a priori. Esto se hace al utilizar sistemáticamente distribuciones a 
priori informativas para los parámetros que no deberían ser estimados libremente de acuerdo con 
la teoría del investigador. 
En el análisis frecuentista tales parámetros son fijados como iguales a cero (o son fijados a ser iguales 
a algún otro parámetro del modelo), pero si estos parámetros fueran liberados y debieran ser 
estimados el modelo presentaría problemas de identificación y muy posiblemente de estimación. 
Mediante el enfoque Bayesiano, por el contrario, se logra la identificación del modelo al impulsar el 
uso de varianzas a priori muy pequeñas para estos parámetros. Muthén y Asparouhov (2012(1)) 
llaman a este enfoque Bayesian Estructural Equation Modeling (BSEM, siglas en inglés), que es 
básicamente una estimación Bayesiana de un modelo SEM sin restringir todos los parámetros que 
debieran ser considerados como fijos a valores predeterminados. 
                                                          
10 Agradezco a los autores de la librería MplusAutomation por haber atendido a mi solicitud de agregar dos 
estadísticos adicionales en la opción “summary” del comando “read.Models” de las simulaciones Monte 
Carlo generadas desde MPlus, en julio del año 2019. 
  
 
30 
 
En la sección 2.1 fue presentado un ejemplo de un CFA de tres variables latentes, cada una medida 
por tres variables indicadoras, según la siguiente matriz: 
𝜆11 0 0
𝜆
 21
0 0
 
𝜆
 31 0 0  
 0 𝜆42 0  
Λ(9×3) =  0 𝜆52 0   
 0 𝜆62 0
 
  
 0 0 𝜆73 
0 0 𝜆83
( 0 0 𝜆93)
 
Cada variable indicadora carga únicamente en un factor latente, y las cargas cruzadas han sido 
fijadas como cero, lo que significa que cada variable indicadora no está influenciada por otros 
factores distintos del principal. 
Una carga factorial fijada exactamente como cero puede ser vista como una distribución a priori que 
tiene media cero y varianza cero. Según los autores del enfoque BSEM, para reflejar de una mejor 
manera las teorías de los investigadores se debe utilizar una distribución a priori con media cero y 
una distribución normal con una varianza muy pequeña. 
Continuando con el ejemplo de la matriz anterior, donde 𝜆12 = 0, se podría utilizar una distribución 
normal como 𝜆12~𝑁(0, 0.1)  con lo que el 95% de la variación de la carga factorial estaría entre 
−0.2  𝑦 + 0.2, lo que es considerado como una muy baja carga factorial, por lo que esta distribución 
a priori esencialmente significa que la carga cruzada es cercana a cero, pero no exactamente igual a 
cero. 
El uso de varianzas a priori muy pequeñas para las cargas cruzadas introduce información en el 
análisis Bayesiano que evita los problemas de identificación que se presentarían si se aplicara en el 
enfoque frecuentista (Muthén & Asparouhov, 2012 (1)). La escogencia de la varianza queda a 
criterio del investigador y la teoría. Además, la varianza a priori se debe determinar en relación con 
la escala de las variables observadas y latentes. 
De acuerdo con los autores (ídem), una ventaja adicional del BSEM es que produce distribuciones a 
posteriori para las cargas cruzadas que pueden ser utilizadas para los índices de modificación 
tradicionalmente estimados por varios software estadísticos. 
En Muthén & Asparouhov (2012(1)), tomando como base el análisis realizado por Holzinger y 
Swineford (1939), de un análisis factorial confirmatorio de cuatro dominios o factores latentes y 19 
variables indicadoras en el contexto de medición de habilidades de estudiantes de sétimo y octavo 
grado de Estados Unidos, donde cada variable indicadora carga en uno y solo un factor latente (entre 
4 y 6 variables por constructo), los autores ejemplifican la aplicación práctica de la propuesta BSEM. 
  
 
31 
 
Muestran que con los criterios de evaluación tradicionales bajo la estimación frecuentista como el 
Chi-cuadrado, el RMSEA y el CFI, el modelo factorial confirmatorio es rechazado según los 
estándares de aceptación de estos índices de evaluación de bondad de ajuste global, y de forma 
inversa, cuando se realizan análisis factoriales exploratorios del mismo modelo (donde todas las 
variables indicadoras pueden cargar libremente en todos los factores latentes), el ajuste del modelo 
mejora, y se mantienen las principales cargas factoriales en las variables hipotetizadas en el CFA; sin 
embargo, con el EFA varias de las cargas cruzadas pasan a tener efectos significativos. 
Al realizar la misma estimación del modelo pero con el enfoque Bayesiano (fijando las cargas 
factoriales cruzadas como iguales a cero), el modelo continúa sin mostrar un buen nivel de ajuste 
medido por la probabilidad asociada a la prueba cociente de verosimilitudes del modelo nulo 
respecto del modelo irrestricto (utilizando el estadístico P-value predictivo a posteriori), lo que está 
en línea con el ajuste observado en la estimación frecuentista. 
Al aplicar la metodología descrita en el enfoque BSEM (estimación Bayesiana con cargas factoriales 
cruzadas siguiendo una distribución a priori normal con media 0 y varianza 0.01), el ajuste del 
modelo se considera aceptable (los límites la probabilidad asociada a la prueba cociente de 
verosimilitudes del modelo nulo respecto del modelo irrestricto entre el 2.5% y el 97.5% incluyen el 
cero)11. 
Adicional a este ejemplo, en el documento los autores muestran la aplicación del enfoque BSEM en 
otros parámetros que son tradicionalmente fijados en cero en el contexto del CFA, como las 
correlaciones residuales y las restricciones en los coeficientes estructurales del modelo estructural. 
Después de su publicación, el documento fue analizado y debatido por otros autores. En el año 2012, 
MacCallum y Edwards publicaron un comentario titulado Esperanzas y precauciones en la 
implementación del enfoque BSEM. En este, los autores concuerdan en los potenciales beneficios 
de este enfoque BSEM, destacando la especificación de modelos más realistas, y plantean algunas 
posibles limitaciones técnicas en la implementación de este enfoque. 
En cuanto a la especificación de un modelo convencional que incluya distribuciones a priori con 
varianzas pequeñas en los parámetros usualmente fijados a cero, plantean que el investigador 
enfrenta dos decisiones que pueden afectar los resultados. La primera, la escogencia de los 
parámetros que serán estimados con el nuevo enfoque, y la segunda, en cuanto a la definición de 
varianza pequeña para la estimación de esos parámetros. 
Sobre esto último, mencionan que la escogencia de distribuciones a priori puede tener implicaciones 
para la especificación del modelo que no son deseables y, a su vez, puede afectar la computación 
del algoritmo MCMC así como sus resultados, por lo cual recomiendan a los investigadores que 
apliquen el enfoque BSEM a realizar análisis de sensibilidad en la especificación de las distribuciones 
a priori para esos parámetros (MacCallum & Edwards, 2012, pág. 3). 
                                                          
11 En la sección del diseño de las simulaciones serán explicados en mayor detalle las propuestas para evaluar 
y comparar ajustes de modelos. 
  
 
32 
 
En materia de los asuntos computacionales del algoritmo MCMC, afirman que el enfoque BSEM 
complica la garantía de la identificación del modelo, ya que la propuesta no sigue la línea tradicional 
de aplicar algunas reglas simples para garantizar la identificación del modelo a ser estimado, lo cual 
dificulta determinar a partir de qué punto el modelo se vuelve no identificado, ya que entre mayor 
sea la varianza de la distribución a priori, más se acerca el modelo al punto de no identificación12 
(MacCallum & Edwards, 2012, pág. 4). 
En otra revisión al enfoque BSEM, Rindskopf (2012) muestra extensiones adicionales y adaptaciones 
de los métodos propuestos por Muthén & Asparouhov (2012(1)) para evidenciar que los 
investigadores no Bayesianos pueden tomar algunas de sus ventajas al utilizar restricciones de 
intervalos en los parámetros, que permitan a los investigadores frecuentistas utilizar software para 
la modelación de ecuaciones estructurales estándar de una forma similar a lo que la estimación 
Bayesiana produce al utilizar distribuciones a priori sobre esos parámetros. 
En respuesta a ambos autores, Muthén & Asparouhov (2012(2)) publican una réplica abordando los 
retos o cuestionamientos presentados anteriormente. Sobre el posible mal uso al enfoque BSEM en 
la escogencia de los parámetros, Muthén & Asparouhov establecen que dicha escogencia 
dependerá del estado de la evidencia que exista en torno a cada investigación particular. En etapas 
tempranas de una investigación poco abordada en la literatura, donde el foco es la exploración, las 
distribuciones a priori debieran ser no informativas o débilmente informativas (grandes varianzas), 
permitiendo a los datos ser el factor que más influirá en la estimación, pero conforme la evidencia 
empírica crezca a través de nuevos estudios, podrían ser introducidas más distribuciones a priori 
informativas en línea con el enfoque BSEM (Muthén & Asparouhov, 2012 (2), pág. 347). 
Con respecto a la ganancia en el ajuste del modelo, Muthén & Asparouhov (2012 (2))) indican que 
el hecho de que el modelo BSEM muestre mejor ajuste cuando dichas estimaciones de parámetros 
se desvíen sustancialmente de cero puede provocar un mal uso del método. Estas desviaciones 
pueden ocultar importantes especificaciones erróneas del modelo, como la necesidad de un 
número diferente de factores o diferentes relaciones estructurales. Muthén & Asparouhov (2012 
(2), pág. 347) enfatizan que si se observan desviaciones significativas y sustancialmente alejadas del 
cero, es importante investigar las razones de ese hallazgo. 
MacCallum et al. (2012) señalaron que cuando la cadena de Markov Monte Carlo se aplica a modelos 
de variables latentes, los signos de carga factorial para un factor dado pueden cambiar durante las 
iteraciones de MCMC (entre positivos y negativos). Muthén & Asparouhov (2012) afirman que con 
la estimación de máxima verosimilitud se sabe que el cambio de signo corresponde a una inversión 
ignorable de la dirección del factor. Sin embargo, en cadenas MCMC, esto puede llevar a obtener 
resultados sin sentido que promedian las cargas positivas y negativas. Para los autores, no está claro 
qué tan común es este fenómeno para los modelos de variables latentes, pero en su propia 
                                                          
12 Un modelo está sub-identificado cuando el número de parámetros desconocidos (estimados libremente) 
excede el número de piezas de información conocida (el número de elementos de la matriz de varianzas y 
covarianzas). Un modelo sub-identificado no puede ser resuelto, porque hay un infinito número de 
parámetros estimados que resultan en ajuste perfecto del modelo. 
  
 
33 
 
experiencia consideran que no es común en modelos con  grandes cargas factoriales y errores 
estándar pequeños (Muthén & Asparouhov, 2012 (2), pág. 347). 
Muthén & Asparouhov adicionan además que aunque los cambios de signo pueden ocurrir, estos 
pueden detectarse en los gráficos producidos en el análisis Bayesiano del software de su autoría, 
Mplus. Además, para evitar el cambio de signo en los modelos factoriales, introdujeron una 
corrección en el algoritmo de reetiquetado que, para cada iteración de MCMC y para cada factor, 
calcula la suma de todas las cargas factoriales y cambia los signos de todas las cargas si esta suma 
es negativa (Asparouhov y Muthén, 2012), lo que induce una inversión de la dirección del factor. 
En años más recientes, la discusión ha girado hacia el uso del enfoque BSEM en el estudio de la 
invariancia factorial entre muchos grupos pertenecientes a una misma población. Muthén y 
Asparouhov (2013(1)) generalizan el uso del BSEM al análisis de la medición de la invariancia a través 
de varios grupos o varios momentos en el tiempo, aplicando la idea de una distribución a priori con 
media cero y varianza pequeña a los parámetros de medición, por lo que se refieren a esto como la 
invariancia de medición aproximada. 
El enfoque BSEM es aumentado con la estimación de las diferencias entre cada parámetro de 
medición y su promedio a través de todos los grupos. Asumiendo que el parámetro es 
aproximadamente invariante para la mayoría de grupos, estas diferencias pueden apuntar a los 
grupos que tienen una no-invariancia significativa. Posterior a este paso, la restricción de igualdad 
de los parámetros que fueron identificados como no-invariantes para los grupos puede relajarse y 
volverse a realizar la estimación Bayesiana únicamente manteniendo iguales entre los grupos los 
parámetros invariantes (Muthén & Asparouhov, 2013(1)). 
Una extensión del estudio de invariancia presenta en Muthén & Asparouhov (2012(2)), donde los 
autores describen dos modelos que se diferencian entre sí en la forma de estimación de la media y 
varianza del factor, y los supuestos que son agregados a la información de los datos. 
Posteriormente a la presentación del estudio de la invariancia, en un número especial del Journal of 
Management dedicado a la estimación Bayesiana (Zyphur & Oswald, 2015), Stromeyer, Miller, 
Sriramachandramurthy y DeMartino (2015) retoman la discusión del enfoque BSEM. Los autores 
realizan una serie de críticas y recomendaciones. Con respecto a la posibilidad de obtener cargas 
factoriales significativas que el investigador planteó como cercanas a cero, argumentan que esto 
puede llevar a la sub estimación de correlaciones entre factores. Sin embargo, en la respuesta a esta 
crítica, Asparouhov, Muthén y Morin (2015) muestran, mediante estudios simulados, como su 
crítica no tiene sustento empírico. 
En la crítica a las covarianzas residuales y su estimación con el enfoque BSEM, Stroyemer y otros 
(2015) recomiendan evitar esa aplicación y concluyen que no debe utilizarse a la ligera hasta que 
hayan publicados más estudios con esta línea de investigación. Asparouhov y otros (2015) muestran 
también, mediante estudios de simulación, que la aplicación puede realizarse siempre y cuando el 
investigador posea evidencia para plantear esos patrones de relaciones, y no sólo como un método 
para mejorar el ajuste global del modelo. 
  
 
34 
 
 
Si bien es reciente la discusión sobre el uso de varianzas pequeñas en las distribuciones a priori de 
parámetros que usualmente son fijados a ser cero en el contexto de las ecuaciones estructurales, 
nada ha sido discutido acerca de las implicaciones de su aplicación en el contexto de ecuaciones 
estructurales multinivel. Es por esta razón que esta investigación pretende aportar a la literatura y 
a esta discusión al evaluar el desempeño de modelos de ecuaciones estructurales para datos 
multinivel con estimación Bayesiana aplicando el enfoque BSEM, lo que en esta tesis será referido 
como ML-BSEM. 
El enfoque BSEM es aplicable a todos los parámetros restringidos de un modelo SEM, como las 
covarianzas residuales o los parámetros estructurales, pero en esta investigación únicamente 
fueron aplicados a las cargas factoriales del modelo de medición, como será explicado en la sección 
4 de esta investigación. 
 
  
 
35 
 
3. Estado de la cuestión sobre el caso aplicado 
El principal aporte que realiza un modelo de ecuaciones estructurales es que permite a los  
investigadores evaluar modelos teóricos e hipótesis de causalidad, siendo una de las  herramientas 
más potentes para el estudio de relaciones causales sobre datos no  experimentales. Aunque 
teóricamente no prueban la causalidad en un sentido estricto, los modelos de ecuaciones 
estructurales son una de las pocas técnicas estadísticas multivariadas que pueden dar evidencia de 
soporte sobre una hipótesis de causalidad13. 
A diferencia de los análisis estadísticos exploratorios, los modelos de ecuaciones estructurales se 
centran en probar hipótesis en modelos con ciertas restricciones sobre los parámetros previamente 
identificadas. El objetivo es probar si el modelo con estas restricciones ajusta bien a los datos con 
los cuáles se buscará realizar la prueba. 
De esta manera, los modelos de ecuaciones estructurales no pueden ser utilizados con fines 
exploratorios, y por el contrario, únicamente son útiles cuando se intenta probar hipótesis 
previamente establecidas. 
Para poder establecer hipótesis es necesaria una justificación teórica de la misma, basada en la 
literatura sobre el tema analizado y de la guía de expertos en la materia analizada. Por tal razón, en 
esta sección se realiza una revisión de la literatura referida a los factores asociados al rendimiento 
educativo, los tipos de análisis estadísticos que se han realizado en relación con esto, y las posibles 
relaciones entre las variables predictoras. 
3.1. Breve descripción de los factores asociados al rendimiento educativo 
Usualmente, las políticas educativas se centran en proveer factores fácilmente cuantificables en los 
sistemas educativos, como dinero, infraestructura, equipo y mobiliario, libros, entre otros. Estas 
políticas son las más usadas porque son fáciles de administrar y son visibles a la sociedad en general, 
por lo que son políticamente viables. Pero mejorar o incrementar la dotación de estos factores no 
se traduce necesariamente en una mejora en el proceso de aprendizaje de los estudiantes. 
Empíricamente, identificar el grado en que diferentes variables contribuyen al aprendizaje de los 
estudiantes es tarea difícil por múltiples razones. Estos factores son numerosos y complejos, y 
pueden afectar a los estudiantes de diferentes maneras dependiendo de su etnia, estrato 
socioeconómico, género u otras características. Además, pueden interactuar con otros factores y 
producir resultados inesperados.  
El impacto de los recursos en el aprendizaje de los estudiantes puede ser limitado porque estos no 
necesariamente son colocados con el propósito de mejorar el aprendizaje del estudiante. Los 
centros educativos y los sistemas escolares son lugares altamente politizados donde las decisiones 
                                                          
13 Algunas otras son las redes bayesianas y las redes neuronales. 
  
 
36 
 
son tomadas por un número de razones, de las cuales el mejoramiento del aprendizaje de los 
estudiantes puede ser solo una. (Vegas & Petrow, 2007) 
Así, los estudios que analizan el rendimiento educativo normalmente clasifican a todos los factores 
que podrían afectar el proceso de aprendizaje de un estudiante dentro de tres categorías generales: 
a) Factores del estudiante, b) Factores escolares y c) Factores institucionales y de política educativa. 
Se procede a enumerar algunos de ellos siguiendo lo recopilado por Vegas & Petrow (2007). 
 
3.1.1. Factores del Estudiante 
Estos son los factores que el estudiante trae consigo antes de ingresar al sistema educativo, tanto 
características propias del estudiante como del entorno familiar. La edad a la que el estudiante 
ingresa a la educación primaria y la preparación recibida antes de ingresar a la primaria son dos de 
los factores que han tomado relevancia en recientes investigaciones (véase Urzúa & Veramendi, 
2011). 
Otros factores, como la salud, la zona de residencia, el lenguaje o la etnia son importantes a la hora 
de analizar las diferencias en rendimiento educativo: niños mal nutridos obtienen peores 
rendimientos o poblaciones indígenas o rurales en general obtienen resultados inferiores a los 
estudiantes de zonas urbanas. 
No obstante, son los factores familiares y el apoyo que el niño recibe en su hogar los que usualmente 
tienen los mayores efectos en la explicación del rendimiento cognitivo. El estatus socioeconómico 
de la familia del estudiante y el ingreso familiar han sido las variables más utilizadas como proxy a 
estos factores. Algunos estudios utilizan otras variables tales como el nivel de escolaridad de la 
madre, el estatus ocupacional del padre y los recursos educativos presentes en el hogar. 
Sin embargo, estas variables por sí solas no pueden dar cuenta de la dinámica no observable del 
hogar, y que a menudo oculta lo que realmente está pasando en el mismo, tales como la 
participación de los padres en las acciones relativas de sus hijos, y la motivación para apoyar la 
educación de sus hijos. Por esto, resulta importante no subestimar la influencia de las acciones de 
los padres en el hogar sobre el rendimiento de sus hijos. (Urzúa & Veramendi, 2011). 
 
3.1.2. Factores Escolares 
Estos son las dotaciones y los recursos que ofrecen los centros educativos y que terminan afectando 
el nivel de rendimiento de un estudiante. Pueden clasificarse en dos categorías: las características 
del centro educativo y las características de los profesores. 
En el caso de las características de los centros educativos, las variables más utilizadas para capturar 
su efecto son la cantidad de libros que ofrecen los centros educativos, las bibliotecas, y otras 
  
 
37 
 
facilidades de la infraestructura propia del centro educativo, como salas de estudio para los 
estudiantes, tamaño y comodidades del aula, entre otros. 
Otra de las variables que ha tomado relevancia en estudios recientes es el acceso y aprendizaje de 
las tecnologías de información y comunicación (TICs), ya que estas están cada vez más presentes en 
la vida cotidiana y en el trabajo. 
Así, muchos países han optado por políticas educativas en la que se destinan una mayor cantidad 
de recursos económicos para instalar o incrementar el equipamiento tecnológico de los centros 
educativos. Invertir en TICs es visto en el plano educativo como un camino primario para preparar 
a las personas a las nuevas demandas del mercado laboral y, a la vez permitir que las poblaciones 
más vulnerables puedan desarrollar las competencias necesarias para tener igualdad de acceso a 
oportunidades de empleo.  (Urzúa & Veramendi, 2011) 
Por otra parte, los profesores pueden tener un impacto significativo en el rendimiento de los 
estudiantes, ya que estos son los que participan directa y continuamente en el proceso de 
aprendizaje de los mismos, y por ende, un profesor poco calificado o con métodos de enseñanza 
inefectivos puede afectar negativamente el rendimiento de los estudiantes, y viceversa. 
De acuerdo con Vegas & Petrow (2007) cada vez más evidencia apoya la noción intuitiva de que los 
profesores juegan un rol clave en qué, cómo y cuánto aprenden los estudiantes. Atraer individuos 
calificados a la profesión de la enseñanza, retener a los profesores calificados, proveerlos de las 
habilidades y conocimientos necesarios y motivarlos para realizar el mejor trabajo posible es uno 
de los principales retos de los sistemas educativos. 
Algunas características del cuerpo docente, como su formación profesional, años de experiencia o 
cursos de capacitación específicos son fáciles de medir y utilizar para el análisis de la influencia de 
los profesores en los estudiantes, sin embargo, algunas otras como el nivel de motivación, sus 
métodos de enseñanza, la actitud hacia la materia y hacia los estudiantes son difíciles de medir, 
especialmente en sistemas educativos donde los profesores no son evaluados rigurosamente para 
medir su desempeño y donde su continuidad en el personal docente de un centro educativo no 
depende de su desempeño. 
 
3.1.3. Factores institucionales y de política educativa 
La estructura organizacional de un sistema educativo juega un papel importante en el aprendizaje 
de los estudiantes. La manera en que estén distribuidas las responsabilidades de los tomadores de 
decisiones en temas como financiamiento, gasto, movilidad del personal (contratar y despedir 
profesores), independencia para establecer las metodologías de enseñanza, entre otros, son 
factores institucionales que pueden afectar el rendimiento de los alumnos. 
 
  
 
38 
 
3.2. Estudios sobre factores asociados al rendimiento educativo 
La literatura sobre factores asociados con el rendimiento educativo o cognitivo es vasta. El Informe 
Coleman (Coleman, 1966) fue uno de los primeros estudios desarrollado sobre este tema y aún tiene 
una influencia significativa en las investigaciones acerca del rendimiento educativo. En él se sugiere 
que las diferencias en los factores escolares tienen poco que ver con las diferencias en rendimiento, 
mientras que los factores familiares son más importantes. 
En esta misma línea, Hanushek (1986) realiza una revisión de todos los estudios que habían sido 
realizados hasta mediados de la década de 1980, encontrando que la evidencia del efecto del nivel 
de gasto por estudiante u otros factores escolares en el rendimiento educativo es extremadamente 
débil y desaparece cuando se toman en cuenta las diferencias en los factores familiares. 
Desde entonces se han realizado una gran cantidad de investigaciones sobre este tema, utilizando 
distintas bases de datos en decenas de países, con distintas metodologías estadísticas, para varios 
niveles educativos y en general, estudiando diversas aristas de los factores que podrían tener 
efectos en la mejora del rendimiento educativo. 
Al ser tantos los estudios no es posible analizarlos todos y cada uno en esta sección. Sin embargo, 
resulta de vital importancia el poder garantizar el análisis de al menos algunos de los más 
representativos, especialmente por la rigurosidad de la metodología estadística aplicada. 
En un artículo titulado School Resources and Educational Outcomes in Developing Countries: A 
Review of the Literature from 1990 to 2010, Glewwe y otros (2011) realizan una revisión de las 
investigaciones sobre factores asociados al rendimiento educativo, pero limitando el periodo de 
análisis desde el año 1990 y hasta el año 2010, justificando el utilizar únicamente este periodo y no 
años anteriores en que, a su criterio, los estudios más antiguos en esta materia se encontraban muy 
limitados en el tipo y calidad de las metodologías estadísticas que podían ser aplicadas, y que por lo 
tanto en los estudios más recientes pudieron aplicarse análisis estadísticos más sofisticados. 
Para esto, Glewwe y otros (2011) realizaron un estudio de meta-análisis de trabajos que analizaran 
los factores asociados al rendimiento educativo. Su revisión de literatura se enfocó en 
investigaciones sobre educación primaria y secundaria, es decir, no incluye educación preescolar, 
vocacional o universitaria, y que utilizaran el aprendizaje escolar como variable respuesta 
(usualmente medido en términos de puntajes en pruebas). 
Además, debido al consenso de que las variables personales y familiares son en general las que 
muestran más relación con resultados académicos, y a la ambigüedad de los efectos de variables de 
los centros educativos y de los profesores, limitan su enfoque al análisis de investigaciones que 
utilizan variables escolares y del cuerpo docente, sin entrar en consideración de los factores 
personales y familiares. 
Para el meta-análisis, la estrategia utilizada fue buscar una gran variedad de fuentes (más de 9 mil 
artículos científicos) y eliminar sistemáticamente los trabajos que no cumplían con una serie de 
criterios definidos por Glewwe y otros (2011) acerca de relevancia y calidad, lo que los lleva a 
  
 
39 
 
analizar 79 artículos científicos, de los cuales 43 son clasificados como de “alta calidad” por las 
metodologías estadísticas aplicadas14. 
Aprovechando esta revisión sistemática de literatura, esta sección se basa en los resultados de los 
43 artículos más relevantes de acuerdo con los criterios de los autores. 
3.2.1. Diseños experimentales 
De los 43 estudios seleccionados, 13 corresponden a diseños experimentales. A diferencia de los 
estudios que utilizan datos observacionales, los diseños experimentales sí permiten probar hipótesis 
de causalidad planteadas previamente por los investigadores, asignando aleatoriamente a los 
individuos en los grupos de control y de tratamiento, y evaluando el efecto de un tratamiento al 
comparar ambos grupos. 
En el área de educación el uso de diseños experimentales no es tan común debido a problemas 
metodológicos propios que surgen de la compleja interacción entre individuos que no permite 
controlar todos los factores dentro del experimento, así como por cuestiones éticas y políticas. 
Sin embargo ha habido esfuerzos por desarrollarlos para analizar factores asociados al rendimiento 
educativo, aunque la mayoría se enfocan en el análisis de programas específicos que podrían tener 
un impacto sobre el desempeño escolar y que pueden ser manipulados fácilmente en un 
experimento (Duflo & Banerjee, 2017), por lo que no fue posible encontrar en la literatura a la que 
se tuvo acceso, ensayos aleatorios controlados que estudiaran las características de los profesores 
o de los directores, debido a que estos son muy difíciles de aleatorizar. 
Las características de infraestructura y de materiales pedagógicos que fueron analizados son los 
libros de texto, las computadoras y las pizarras. Dos de los experimentos examinan los libros de 
texto, uno en Filipinas (Tan, Lane, and Lassibille, 1999) y otro en Kenya (Glewwe, Kremer, and 
Moulin, 2009). Los resultados en ambos sugieren que no hay un impacto positivo de proveer libros 
de texto. 
La variable que ha sido más estudiada (en 5 de los 13 experimentos) es la disponibilidad de 
computadoras y aparatos electrónicos para uso pedagógico. La evidencia a la fecha del impacto de 
                                                          
14 Esta búsqueda inicial llevó a los autores a tener más de 9 mil artículos que abarcaban el tema. Luego, dos 
de los autores revisaron cada uno de los más de 9 mil artículos individualmente, seleccionando aquellos que 
parecían potencialmente relevantes basados en la información encontrada en el resumen (abstact) y en 
algunos casos en la introducción o conclusión de los artículos. Los artículos que no cumplían con los 
requerimientos de enfocarse en países desarrollados o no estimaban el efecto de variables de los centros 
educativos o de los docentes sobre el rendimiento de los estudiantes fueron eliminados. Este proceso redujo 
el número de artículos a 253. Estos 253 fueron efectivamente leídos por completo, y mediante el criterio de 
los autores sobre su relevancia, impacto y sofisticación de la metodología estadística fueron retenidos sólo 79 
artículos. Finalmente, estos 79 fueron separados en dos categorías, donde se analizan por aparte 43 que 
tienen una “alta calidad” de acuerdo con los autores debido a que utilizan técnicas estadísticas más apropiadas 
para controlar el efecto de variables inobservables como diseños experimentales, modelos de diferencias en 
diferencias, diseños de regresiones discontinuas o métodos de emparejamiento (matching) en contraste con 
el uso únicamente de técnicas como regresiones lineales. 
  
 
40 
 
intervenciones que simplemente proveen dispositivos computacionales sugieren impactos nulos o 
negativos en pruebas estandarizadas (Barrera-Osorio and Linden 2009; Cristia et al. 2010; 
Beuermann et al. 2015; Malamud and Pop-Eleches 2011). Por otra parte, las intervenciones que se 
centran en el uso de tecnología para mejorar la práctica pedagógica típicamente encuentran más 
resultados positivos (Duflo & Banerjee, 2017). 
Por ejemplo, en su artículo Banerjee, Cole, Duflo, and Linden (2007) evalúan una intervención en 
escuelas primarias de la Indica en la que los profesores recibieron capacitación en el uso de software 
para la enseñanza de la matemática dentro de la clase. En las escuelas pertenecientes al grupo de 
tratamiento, los estudiantes usan el software de dos a cuatro horas a la semana. Después de dos 
años de tratamiento, se encontró evidencia de que los estudiantes del grupo de tratamiento 
tuvieron puntuaciones significativamente más altas en pruebas matemáticas que el grupo de 
control, pero no se hallaron diferencias significativas en los puntajes en las pruebas de lectura. 
Otro estudio (Barrera-Osorio and Linden, 2009) evaluaron el programa de Computadoras para la 
Educación en Colombia y encontraron resultados menos concluyentes. En este programa, los 
profesores recibieron computadoras y ocho meses de capacitación en su uso en la clase, y al final 
del experimento no se encontraron diferencias en los resultados de las pruebas matemáticas y de 
lectura evaluadas entre el grupo de control y tratamiento al combinar los resultados de los grados 
escolares analizados (de tercero a noveno), e incluso resultados positivos en noveno grado pero 
resultados significativamente negativos en octavo grado. 
En otro estudio, Cristia y otros (2010) evalúan la hipótesis de si el incremento en el acceso a las 
tecnologías de información y comunicación puede aumentar los años de educación completos en 
Perú, ya que en el 2004 se implementó un programa educativo financiado por el Banco 
Interamericano de Desarrollo en el que se distribuyeron 10 computadoras en 350 centros 
educativos públicos de secundaria; concluyen que no hay evidencia de que la política tuviera un 
impacto significativo sobre los rendimientos educativos. 
En un estudio similar realizado también en Perú, Cristia (2012) evalúan en un experimento aleatorio 
otro programa que ha tenido gran auge a nivel mundial llamado Una Computadora por Estudiante 
(One Laptop Per Child Program, OLPC). Este programa busca mejorar el aprendizaje en las regiones 
más pobres del mundo proveyendo computadoras personales a los niños para utilizar tanto en la 
escuela como en el hogar. Perú es el país en el que este programa se ha implementado a mayor 
escala, incluyendo la distribución de 902.000 computadoras en 319 escuelas públicas en 
comunidades pobres y rurales. Llegan a la siguiente conclusión: “Los resultados sugieren efectos 
limitados sobre el rendimiento escolar de los niños, pero impactos positivos en las habilidades 
cognitivas y competencias relacionadas con el uso de las computadoras”. 
Además del uso de computadoras, otros experimentos han analizado la forma en que los centros 
educativos se encuentran organizados. Por ejemplo, Muralidharan y Sundararaman (2008) estudian 
el impacto del tamaño de clase en el rendimiento educativo en la India. 
  
 
41 
 
En el experimento aleatorio controlado, el tamaño de clase fue intencionalmente reducido en el 
grupo de tratamiento mediante la contratación de más docentes para distribuir a los estudiantes. El 
artículo muestra cinco estimaciones del impacto del tamaño de la clase en rendimiento de los 
estudiantes, de las cuales tres son negativas (como es esperado, a mayor tamaño de clase menor 
rendimiento) y estadísticamente significativas mientras que las otras dos estimaciones no resultaron 
significativas. 
Sin embargo, Glewwe y otros (2011) sugieren que este experimento no puede tomarse como válido 
debido a que los autores no lograron separar el efecto el tamaño de clase del efecto de la 
contratación de los nuevos docentes; además, al ser el único experimento que hallaron que analiza 
este tema consideran que es difícil poder generalizar estos resultados. 
Otro de los experimentos consideró el impacto de proveer alimentos en los centros educativos 
(Tan,Lane, and Lassibille, 1999) encontrando en resultado no significativo de este tipo de programas 
en Filipinas. Las clases remediales impartidas por tutores particulares también han sido estudiadas 
en el Programa de tutorías Balsakhi en la India (Banerjee, Cole, Duflo, and Linden, 2007), en el que 
los autores encontraron que el proveer de estos tutores a niños que se encuentran rezagados en el 
currículo académico aumenta significativamente sus puntajes en las pruebas. 
3.2.2. Otros estudios internacionales 
En contraste con los diseños experimentales, hay centenas de estudios que utilizan datos 
observaciones para realizar sus análisis. Al analizar los que aplican metodologías estadísticas más 
avanzadas que la típica regresión lineal, Glewwe y otros (2011) hallan que en 30 estudios, la premisa 
de que los libros de texto y materiales similares mejoren el aprendizaje de los estudiantes es 
bastante débil, por lo que no es posible tener claridad sobre su efecto. 
Por el contrario, en la mayoría de estas investigaciones que utilizaron variables como la calidad y 
cantidad de escritorios, mesas y sillas dentro del aula encuentran una relación positiva entre estos 
y el rendimiento educativo, mientras que los que utilizan variables como computadoras, conexión a 
internet y otras relacionadas encuentran resultados débiles de asociación con la variable respuesta. 
Estos hallazgos en conjunto con los presentados en la subsección de experimentos muestran que 
en el tema de las tecnologías de información y comunicación los resultados aún no son 
concluyentes, y deben tomarse con precaución al momento de establecer políticas educativas. 
Al estudiar las variables relacionadas con los docentes, dos de las variables más utilizadas son el 
nivel educativo de los profesores y su experiencia. En su revisión, Glewwe y otros (2011) encuentran 
resultados ambiguos, ya que en trece de las investigaciones, diez estiman resultados no 
significativos (e incluso divididos entre efectos positivos y efectos negativos), y mientras que dos 
encuentran resultados positivos significativos, un estudio muestra un resultado estadísticamente 
significativo pero negativo, al contrario de lo que la teoría muestra que debería ser la relación entre 
estas variables y el aprendizaje de los estudiantes. 
  
 
42 
 
Otras variables como la competencia de los profesores y su conocimiento de la materia que 
imparten sí muestran efectos positivos muy fuertes. De las 20 estimaciones de este tipo en los 
estudios seleccionados por el meta-análisis (Glewwe y otros, 2011), todas estiman efectos positivos 
y en 13 de estas se reportan efectos estadísticamente significativos. Estos resultados muestran 
bastante evidencia en favor de la hipótesis de que el conocimiento real de los profesores (y no su 
aproximación mediante su titulación académica) juega un rol sumamente importante en el 
aprendizaje de los estudiantes. 
En el caso de las variables relacionadas con el centro educativo, una de las más utilizadas es la 
proporción de estudiantes por profesor. En la mayoría de los estudios que incorporan esta variable 
en sus modelos el efecto estimado es negativo, como lo explica la teoría, pero no en todos la 
estimación es significativa, lo que nuevamente sugiere que si bien disminuir el tamaño de una clase 
tiene un impacto positivo en el aprendizaje de los estudiantes, su efecto podría no ser tan 
contundente como se esperaría. 
Al estudiar el abstencionismo de los profesores, los seis estudios que lo hicieron encontraron todos 
efectos negativos y en cuatro de estos el efecto es significativo. Otras variables son el número de 
horas de clases diarias y las tutorías, con resultados ambiguos, ya que algunos estudios encuentran 
efectos positivos, otros negativos, y la mayor parte de estos con poca significancia estadística. 
3.2.3. Revisión de literatura de Costa Rica 
De la revisión de literatura anterior, es evidente que no hay un claro consenso sobre el rol de los 
factores escolares y del personal docente sobre el rendimiento educativo de los estudiantes y, en 
general, tampoco hay evidencia para afirmar que lo que funciona para un país pueda funcionar para 
otro. 
Por esta razón, además del estado de la cuestión que se puede obtener de la literatura internacional, 
resulta importante conocer lo que se ha estudiado en Costa Rica en este tema, con la finalidad de 
tener un mejor panorama del efecto de algunas variables en el caso del país. 
La primera estimación del efecto de diversos factores en el rendimiento educativo en Costa Rica 
data de 1980 (Díaz y Jiménez, 1980). Mediante la estimación de una función de producción 
educativa con datos a nivel cantonal, los autores concluyen que en el rendimiento educativo 
influyen tanto los insumos escolares como los factores socioeconómicos. Si bien el estudio presenta 
una serie de limitaciones especialmente en la limitación de los datos disponibles, es una primera 
aproximación a la relación entre insumos escolares y socioeconómicos en el rendimiento educativo. 
Moreira (2009) analiza la influencia de diversos factores en las puntuaciones obtenidas por 
estudiantes de undécimo año de colegios académicos diurnos en la prueba nacional de bachillerato 
de matemáticas del año 2004; a través del análisis multinivel, el autor deduce que los factores 
endógenos como el historial académico del estudiante, y específicamente la condición de repitencia 
y el nivel educativo de los padres, se relacionan con diferencias en las puntuaciones obtenidas. Los 
resultados se refieren a una muestra probabilística, estratificada y proporcional de estudiantes 
  
 
43 
 
provenientes de colegios públicos académicos diurnos de Costa Rica. Se utilizó un modelo de 
regresión múltiple. 
Rojas (2004) estudia mediante un modelo jerárquico los factores asociados a la repitencia de los 
alumnos en sétimo año de colegios académicos, diurnos y públicos, con una muestra de 1442 
estudiantes y 115 docentes que impartían clases de las asignaturas de Inglés, Español, Estudios 
Sociales, Ciencias y Matemáticas. Encuentra que variables como una mala relación de los padres con 
el estudiante así como una mala interacción entre profesor y estudiante tienen una relación directa 
con la repitencia 
Además. Muestra que factores como una mayor autoestima, una más alta motivación, realizar 
mayor cantidad de tareas, recibir ayuda para realizar esas tareas, respeto percibido por los 
estudiantes de sus iguales, residir con ambos padres durante el tiempo lectivo, indicadores de 
condición socioeconómica del estudiante y su familia, e indicadores de la infraestructura e 
instalaciones del centro educativo, incluyendo el acceso a internet son factores que tienen una 
relación inversa con la condición de repitencia. 
Por otra parte, desde el año 2009 el Ministerio de Educación Pública (MEP), específicamente el 
Departamento de Evaluación Académica y Certificación, de la Dirección de Gestión y Evaluación de 
la Calidad, ha venido realizando estudios de factores asociados al rendimiento para sus pruebas de 
diagnóstico de sexto y noveno grados con modelos de regresión múltiple y multinivel. Se utilizan 
muestras estratificadas aleatorias de conglomerados completos, donde el conglomerado es el 
centro educativo. Se definen tres niveles de agregación: estudiante, docente y director. Los 
participantes de cada nivel deben completar un cuestionario de contexto para luego relacionar esas 
variables con el rendimiento de los estudiantes en las pruebas. El primer estudio de este tipo se 
realizó para identificar predictores en las pruebas diagnósticas de sexto grado aplicadas en el año 
2008 (MEP, 2010). 
Más recientemente el MEP ha publicado el estudio de factores asociados al rendimiento en las 
pruebas diagnósticas de noveno (MEP, 2012). Uno de los méritos que poseen estos estudios y que 
también representan una diferencia con PISA, es que se conceptualizan y miden variables a nivel de 
aula y de profesor, pudiéndose identificar dimensiones explicativas asociadas a la mediación 
pedagógica y a la dinámica de la clase. Otra ventaja de estos estudios es que permiten medir factores 
idiosincráticos del contexto del país que pueden no ser relevantes a nivel internacional y no aparecer 
en los cuestionarios de PISA. 
Además, estas pruebas se realizan en las cinco asignaturas principales (Matemática, Español, 
Estudios Sociales, Ciencias e Inglés) a diferencia de las pruebas internacionales que tienden a 
concentrarse solo en Lenguaje, Matemática y Ciencias. 
Finalmente, los constructos objeto de medición en las pruebas diagnósticas del MEP son 
conocimientos y destrezas específicos que se esperan como resultados directos del proceso de 
aprendizaje y que se derivan del currículo de cada materia, por tanto son más apropiadas como 
  
 
44 
 
termómetro del logro de aprendizajes académicos formales establecidos en los programas de 
estudios, a diferencia de las pruebas PISA que no se ajustan a ningún currículo en particular. 
Entre algunas de las variables que más consistentemente generan evidencia de asociación directa 
con los rendimientos en estas pruebas se pueden mencionar las siguientes: el ser alumno de un 
colegio privado, poseer un mayor nivel socioeconómico, nivel de atención y participación en el aula, 
motivación de la familia y satisfacción del director con el clima escolar. Los estudiantes varones 
presentan diferencias estadísticamente significativas a su favor al compararlos con las mujeres en 
Matemática, Estudios Sociales e Inglés. El grado académico del docente se asocia significativamente 
a mayores rendimientos en Matemática e Inglés. (MEP, 2012). 
El índice socioeconómico se relacionó significativamente con el rendimiento académico del 
estudiantado de noveno año en Matemática. Cabe destacar que este resultado coincide con 
estudios internacionales realizados por la UNESCO en América Latina (Oviedo Y., 2012). Asimismo 
la comparación de medias por zona indicó con un 95% de confianza que sí existen diferencias entre 
las medias de los puntajes de los examinados de colegios ubicados en la zona urbana y aquellos que 
se localizan en la zona rural, siendo la diferencia a favor de los urbanos. Este estudio también 
encontró que la variable sector (público-privado) está relacionada significativamente con el 
rendimiento académico en Matemática, presentando una magnitud bastante alta en el coeficiente 
beta, indicador de la importancia práctica del resultado (Oviedo, 2012). 
3.2.4. Estudios que utilizan datos de PISA para Costa Rica 
La prueba PISA se aplica desde el año 2000, y aunque Costa Rica sólo ha participado en cuatro de 
las siete evaluaciones realizadas hasta la fecha, existen algunos trabajos que estudian los factores 
asociados al rendimiento educativo utilizando las bases de datos de PISA y que involucran a nuestro 
país. 
Los dos primeros estudios publicados que se enfocan en la participación de Costa Rica en la prueba 
PISA 2009 fueron los de Fernández y Del Valle (2013) y Montero y Otros (2013). En el primero de 
estos, los autores intentan responder a la pregunta de si la desigualdad en los resultados de los 
puntajes en la prueba PISA se deben en gran medida a las diferencias entre los estudiantes que 
asisten a colegios públicos o a colegios privados. 
Para intentar responder a esta pregunta, los autores plantean un modelo de regresión lineal sin 
corrección multinivel, con el objetivo de poder aplicar una técnica de descomposición de la varianza 
que permita identificar si la proporción de varianza explicada por la variable del sector del colegio 
(controlando por otros factores que describe la teoría como importantes) es significativa en la 
explicación de las diferencias en los resultados educativos. 
Sus resultados muestran que, en general, los factores escolares (incluyendo el sector del colegio) no 
tienen un gran peso en la variabilidad de los resultados, y más bien son los factores familiares, pero 
particularmente la condición de repitencia de los estudiantes costarricenses, los que más explican 
la variabilidad en la varianza de las puntuaciones. 
  
 
45 
 
En un estudio similar, Giménez y otros (2014) plantean la pregunta de ¿por qué los estudiantes de 
colegios públicos y privados de Costa Rica obtienen distintos resultados académicos? Para dar 
respuesta, llevan a cabo un análisis econométrico que, mediante la utilización de funciones de 
producción educativa y estimaciones por mínimos cuadrados ordinarios con errores estándar 
corregidos utilizando clústeres por centros educativos, permite cuantificar las diferencias en 
resultados en pruebas de Matemáticas, Comprensión Lectora y Ciencias entre centros públicos y 
privados. Aunque las diferencias halladas son importantes, se reducen en más de la mitad cuando 
se controla por las características de los alumnos (sexo, haber cursado preescolar, confianza en sus 
capacidades, ser repetidor) y sus hogares (nivel de estudio de los padres, riqueza y posesiones 
culturales). 
Además, mediante el método de descomposición de Oaxaca-Blinder (Oaxaca, 1973), en ese estudio 
se profundiza en cuáles son las posibles razones de estas diferencias en resultados. Concluyen que 
la mayor parte de las diferencias en resultados entre centros públicos y privados es explicada por la 
diferencia en dotaciones. En concreto, el principal factor de la divergencia en rendimiento son las 
características del hogar, seguida de las diferencias en recursos de los centros educativos, las 
características del estudiante y el ambiente de trabajo de los centros educativos. 
Montero y otros (2013) utilizan modelos de regresión con corrección multinivel con la base de datos 
de PISA 2009. logran demostrar que las variables relacionadas con dimensiones de lectura, tienen, 
conjuntamente, un peso altísimo en la predicción de las notas, tanto en Competencia Lectora como 
en Alfabetización Matemática. De acuerdo con los resultados de este estudio, aproximadamente un 
43% de la varianza de los puntajes se explica por factores asociados al estudiante y un 12% por 
factores asociados a la institución. 
De hecho, el estudio va más allá y elabora un perfil de un típico estudiante de alto rendimiento, que 
incluye lo siguiente: cursa un grado mayor al que debería estar de acuerdo con su edad, mejor 
actitud hacia la lectura, usa mejores estrategias para comprender y resumir textos escolares, no es 
repitente, valora su colegio, lee por gusto o por iniciativa propia, su hogar tiene un alto índice de 
posesión de bienes, entre otros. El único factor relacionado con la institución que aparece en este 
perfil es asistir a un centro educativo ubicado en un distrito con altos valores del índice de desarrollo 
social. 
Montero y otros (2014) vuelven a analizar los resultados de la prueba PISA con un modelo de 
regresión con corrección multinivel y de la misma manera fueron identificadas variables que son 
importantes en la predicción de los puntajes de las tres pruebas de PISA y que, a su vez, se considera 
que pueden ser objeto de intervenciones pedagógicas o de políticas educativas, con el objetivo de 
lograr mejores rendimientos en dichas pruebas. Encuentran que el número de libros en el hogar es 
una de las variables predictoras importantes para la Alfabetización Matemática, puesto que se 
puede considerar un indicador proxy de dimensiones de lectura, las cuales fueron, conjuntamente, 
el factor predictivo más importante para el puntaje en las pruebas PISA del año 2009. 
Además, otros factores con gran importancia predictiva son el número de horas semanales que se 
dedica a la realización de tareas, un alto valor en la escala de familiaridad con conceptos 
  
 
46 
 
matemáticos, un alto valor en la escala de autoeficacia en matemáticas, un alto valor en la escala 
de actitud hacia lo aprendido en el colegio, el haber asistido a educación preescolar y un alto valor 
en la cantidad de docentes de matemáticas con bachillerato o licenciatura en pedagogía. 
Por su parte, en un primer intento por plantear un modelo de ecuaciones estructurales con datos 
de la prueba PISA 2009 para Costa Rica, Montero (2012) realiza un ejercicio ilustrativo para 
ejemplificar el potencial de este enfoque de análisis de datos en investigación educativa, utilizando 
algunas de las variables del estudiante y del centro educativo que resultan más relevantes para su 
predicción. Con ellas se desarrollaron diversos ensayos para la estimación de modelos estructurales 
que tuvieran sentido teórico, que pudieran estimarse de manera técnicamente correcta y que 
además arrojaran niveles relativamente aceptables de ajuste estadístico. 
Dentro de los resultados más destacables (Montero, 2012) están los siguientes: el constructo 
extracción social tiene una relación causal importante con el  capital cultural y con el rendimiento 
en la prueba, mientras que encuentra una relación inversa a la esperada entre extracción social y 
actitudes y hábitos hacia la lectura. 
Según la autora, la magnitud de la relación entre antecedentes educativos y la nota en la prueba 
PISA de competencia lectora parece razonable, mientras que la relación entre el constructo 
estrategias de lectura (comprender y resumir un texto) y actitudes y hábitos hacia la Lectura 
también resulta significativa, al igual que la relación estimada entre estas estrategias y la nota en la 
prueba. 
Montero (2012) encuentra eivdencia una fuerte relación entre capital cultural y las actitudes y 
hábitos hacia la lectura. El capital cultural tiene así un efecto indirecto de importancia sobre el 
rendimiento en la prueba de PISA de competencia lectora, a través de actitudes y hábitos de lectura, 
per encuentra que el efecto directo no parece tener importancia práctica. 
Fernández (2013) analiza a los estudiantes costarricenses identificados como “resilientes” en la 
evaluación PISA 2009; y los compara con sus pares que, a pesar de tener un nivel socioeconómico 
similar, obtuvieron malos resultados en esta prueba. La resiliencia educativa refiere a los 
estudiantes que, a pesar de vivir bajo condiciones socioeconómicas que les son adversas, lograron 
obtener excelentes resultados en la evaluación internacional PISA 2009 y así romper el círculo 
vicioso que hay entre un pobre entorno socioeconómico y un bajo rendimiento educativo. Mediante 
el uso de una regresión logística, el modelo fue estimado utilizando tres variables de control: el 
género, el grado que cursa el estudiante y el promedio del índice estatus económico social y cultural 
a nivel de centro educativo (efecto de pares). En Montero (2012) se identifican cuatro factores 
principales que podrían estar relacionados con el mejor desempeño en lectura de los estudiantes 
resilientes: 1) la habilidad para resumir textos, 2) la habilidad para entender y recordar, 3) el gusto 
por la lectura y 4) la actitud hacia el colegio. 
Los dos primeros factores se relacionan con el tipo de estrategias que utilizan los estudiantes para 
comprender un texto y para transmitir la información aprendida mientras que los dos últimos 
  
 
47 
 
factores se relacionan más el con valor que los estudiantes le confieren a la lectura y a los deberes 
académicos. 
Finalmente, Fernández (2015) evalúa la hipótesis causal de que el estatus socioeconómico de los 
estudiantes y la actitud de los estudiantes hacia la matemática son factores que determinan en gran 
medida los resultados académicos de los estudiantes costarricenses, medido a través del resultado 
en la prueba de alfabetización matemática de PISA 2012. Para esto, define un modelo de medición 
de los constructos latentes y estima un modelo de ecuaciones estructurales. 
El estatus socioeconómico de los estudiantes es medido mediante tres variables indicadoras: el 
índice posesiones del hogar, el índice de estatus ocupacional más alto de los padres,  y el índice del 
nivel educativo más alto de los padres. 
La actitud de los estudiantes hacia las matemáticas es una variable latente que intenta capturar la 
actitud propia de los estudiantes hacia el aprendizaje y la utilización de las matemáticas. Este factor 
es medido mediante la utilización de tres variables indicadoras: la confianza en la realización de 
problemas matemáticos, la ansiedad a la hora de enfrentarse a problemas que involucren la 
utilización de matemáticas y el auto concepto, que mide qué tan bueno o malo se considera el 
estudiante a sí mismo para las matemáticas. 
Fernández (2015) concluye que el modelo estructural brinda bastante evidencia a favor de la 
hipótesis de causalidad de que el estatus socioeconómico y la actitud personal del estudiante hacia 
las matemáticas son determinantes del rendimiento educativo de los estudiantes costarricenses en 
esta materia, medido a través de los resultados de la prueba de alfabetización matemática  de PISA 
2012, siendo este un buen punto de partida para formular un modelo más extenso que contemple 
de mejor manera la complejidad de los factores sociales, institucionales y de contexto que inciden 
en el rendimiento académico de los jóvenes. 
 
3.2.5. Síntesis del capítulo 
Como fue explicado, en la literatura internacional no existe un claro consenso sobre cuáles factores 
son los que inequívocamente se asocian con un mejor rendimiento educativo de los estudiantes. 
Una posible explicación es que lo que funciona para un país no necesariamente debe funcionar en 
otro, por las particularidades del contexto educativo, político, económico y social de cada uno. 
Dadas las particularidades del efecto de cada intervención dependiendo del contexto en el que fue 
aplicado, resulta necesario el tomar en cuenta con mayor énfasis la revisión de literatura para el 
caso de Costa Rica, ya que estas investigaciones sí incorporan dentro de sus marcos de referencia el 
contexto en el que se desenvuelve nuestro sistema educativo. Sin embargo, dado que la mayoría de 
las investigaciones analizadas en este capítulo basan sus resultados en modelos de regresión que 
estiman efectos directos, y no explican posibles trayectorias de efectos indirectos entre factores 
(que son vitales en los modelos de ecuaciones estructurales), una tarea adicional es la de plantear 
estas relaciones. 
  
 
48 
 
Por lo tanto, con base en esta información y en el propio marco de referencia sobre alfabetización 
matemática de PISA, fue planteado un modelo teórico de relaciones entre factores que inciden en 
el rendimiento cognitivo. Este modelo teórico fue puesto a discusión y validación por parte de 
expertos en el tema mediante sesiones de trabajo realizadas en el año 2016. La descripción 
completa del modelo se encuentra en la sección 4.2.5. 
 
  
 
49 
 
4. Abordaje metodológico 
El objetivo de esta investigación es generar un marco comparativo del desempeño de modelos de 
ecuaciones estructurales para datos multinivel con estimación Bayesiana, con el propósito de tomar 
decisiones en la modelación del caso aplicado. Para ello, fueron generados datos simulados que 
permitieron ensayar diversidad de condiciones de análisis y así observar su efecto en las 
estimaciones de estos modelos. Los resultados obtenidos sirvieron como base para identificar la 
manera adecuada de analizar la relación entre las variables asociadas el rendimiento educativo de 
los estudiantes y su nivel de alfabetización matemática, en un estudio con las características 
particulares de PISA. 
 
Es decir, la investigación se dividió en dos partes: 
 
 Evaluación simulada de la robustez de la estimación ML-BSEM. 
 Análisis de datos de la evaluación PISA de acuerdo con los resultados de la primera parte. 
 
 
4.1. Evaluación simulada de la robustez del modelo ML-BSEM 
 
4.1.1. Descripción del modelo 
 
El modelo SEM multinivel que se utilizó en las simulaciones reportadas en esta investigación consiste 
en una covariable latente y una variable respuesta latente, cada una de las cuales es medida por 
tres variables indicadoras. La escogencia de esta estructura busca mantener comparabilidad con la 
línea de investigación en simulaciones realizadas en estudios precedentes ( (Lüdtke, Marsh, 
Robitzsch, & Trautwein, 2011), (Rabe-Hesketh, Skrondal, & Pickles, 2004), (Depaoli & Clifton, 2015)). 
La siguiente figura muestra el modelo para una de las condiciones que serán explicadas 
seguidamente: 
 
Figura 4 Modelo de generación de datos con coeficiente de correlación intra-clase de 0.05 
Dentro de grupos (nivel inferior)
0,95 0,95
0,   𝑥 1  4 0,   3
1
1 1𝜉 𝜂 10,   𝑥 𝑊1 𝑊2  5 0,   2
1
1
0,   𝑥1  0,   6
Entre grupos (nivel superior)
0,05 0,05
0,02 𝑥 1  4 0,02 3
1
1 1𝜉 𝜂 10,02 𝑥 𝐵1 𝐵2  5 0,02 2
1
1
0,02 𝑥1  0,02 6
 
 
  
 
50 
 
En el enfoque en dos etapas (ver sección 2.3) la estructura de la covariación es dividida en dos 
componentes: el componente dentro de grupos, y el componente entre grupos. De esta forma, son 
estimados modelos separados para cada uno de estos componentes. 
 
El componente “dentro de grupo” (que será denotado con el subíndice 𝑊) representa la variación 
al nivel de la unidad más baja, mientras que el componente “entre grupos” (denotado por el 
subíndice 𝐵) representa la variación entre los grupos del nivel superior. 
 
Para la observación 𝑖  y el grupo 𝑗  , el vector de respuesta 𝑦𝑖𝑗  se puede descomponer como: 
𝒚𝑖𝑗 =  𝝁 + 𝒚𝑊𝑖𝑗 + 𝒚𝐵𝑗 
 
En donde los componentes “dentro de grupo” (𝒚𝑊𝑖𝑗)  y “entre grupos” (𝒚𝐵𝑗)  son ortogonales e 
independientes, y 𝝁  representa las grandes medias. El vector 𝒚𝑖𝑗   está normalmente distribuido con 
medias entre grupos 𝝁𝑗   (interceptos aleatorios) y matriz de covarianzas Σ𝑾. 
 
Los efectos aleatorios 𝝁𝑗   se distribuyen normalmente con el valor esperado 𝝁 y la matriz de 
covarianzas Σ𝑩.  
 
Para la estimación del modelo referido al componente “dentro de grupo”, el modelo de medición 
es: 
 
𝒚𝑖𝑗 = 𝝁𝑗 + 𝚲𝑾𝜼𝑾𝑖𝑗 + 𝜺𝑊𝑖𝑗 
 
Donde 𝚲𝑾   es una matriz de cargas factoriales de tamaño 6x2, que en el modelo tradicional incluiría 
cargas factoriales de cero para las cargas cruzadas, pero que fue parte de las variaciones planteadas 
en el diseño. Esta matriz es post multiplicada por un vector de tamaño 2x1 de variables latentes del 
primer nivel   𝜼𝑾𝑖𝑗 que contiene la variable respuesta latente y la covariable latente. 
 
El vector  𝜼𝑾𝑖𝑗   se distribuye mediante una normal multivariada con una esperanza de cero y una 
matriz de covarianzas de tamaño 2x2   𝚿𝑾. Dado que las variables latentes no están correlacionadas 
(o al menos eso se supondrá), la matriz   𝚿𝑾  contiene las varianzas de los factores a lo largo de la 
diagonal, y ceros en el resto de entradas (una matriz diagonal). 
 
El vector de tamaño 6x1 que contiene los errores, 𝜺𝑊𝑖𝑗, se distribuye con una normal multivariada 
con una esperanza de cero y una matriz de covarianzas diagonal Θ𝑊, con términos de error a lo 
largo de la diagonal. 
 
El modelo estructural para el componente “dentro de grupos” tiene la siguiente forma: 
 
𝜼𝑾𝑖𝑗 = 𝑩𝑊𝜼𝑾𝑖𝑗 + 𝜻𝑾𝑖𝑗 
 
Donde 𝑩𝑊   es una matriz de tamaño 2x2 de coeficientes estructurales definida como: 
 
0 𝑏
[ 𝑊] 
0 0
 
Donde 𝑏𝑊   representa la regresión del factor latente respuesta sobre la covariable latente (el 
parámetro estructural del modelo SEM). La matriz 𝑩𝑊   es multiplicada por el vector de variables 
  
 
51 
 
latentes del primer nivel para obtener la estimación del efecto de la covariable. Finalmente,  𝜻𝑾𝑖𝑗   
es un vector de tamaño 2x1 que contiene los errores, que se distribuyen normal multivariado con 
una esperanza de cero y una matriz de covarianzas diagonal 𝛀𝑊 que incluye términos de error en 
la diagonal. 
 
Los modelos de medición y estructural para el componente “entre grupos” (el nivel superior 
jerárquico) se representan, respectivamente, de la siguiente forma: 
 
𝜇𝑗 =  𝜇 + Λ𝐵𝜂𝐵𝑗 + 𝜀𝐵𝑗  
𝜂𝐵 = Β𝐵𝜂𝐵𝑗 + 𝜁𝐵𝑗 
 
4.1.2. Especificación de las distribuciones a priori 
 
El grado con el que los parámetros de un análisis Bayesiano son recuperados con precisión depende 
en gran medida de la calidad y la cantidad de información modelada en la distribución a priori del 
mismo. 
 
Existen tres grandes categorías de distribuciones a priori que son discutidas típicamente en términos 
de su nivel de información: no informativas (o difusas), débilmente informativas e informativas. Las 
distribuciones a priori difusas contribuyen con casi nula información al modelo; las distribuciones a 
priori débilmente informativas contienen más información que las difusas, pero utilizan menos 
información de la que está disponible y aún mantienen cierto grado de incertidumbre con respecto 
al parámetro. Finalmente, las distribuciones a priori informativas incluyen una gran cantidad de 
información y certidumbre acerca del valor del parámetro del modelo15. Un análisis Bayesiano 
exitoso requiere de una selección cuidadosa de las distribuciones a priori, incluso si son no 
informativas. 
 
Las distribuciones a priori se cuantifican con la especificación de hiperparámetros que generalmente 
controlan la ubicación y la escala de la distribución. Por ejemplo, una distribución a priori para una 
variable normalmente distribuida tiene un hiperparámetro para la media y un hiperparámetro para 
la varianza que corresponden a la ubicación y a la escala de la distribución, respectivamente. 
 
Es probable que el hiperparámetro de la varianza para una distribución a priori no informativa sea 
mucho mayor que el de una distribución a priori informativa para reflejar un mayor grado de 
incertidumbre sobre el rango de valores que puede asumir el parámetro. 
 
Con muestras de gran tamaño, las distribuciones a priori no informativas tienen poco impacto en la 
inferencia de la distribución a posteriori ya que la verosimilitud toma más relevancia. Esto implica 
que las estimaciones de modelos para muestras pequeñas son más sensitivas a la especificación de 
la distribución a priori. 
 
Para el presente modelo, los parámetros de interés incluyen los parámetros de regresión y de 
varianza en cada nivel del modelo. Seguidamente se explicarán las distribuciones especificadas en 
cada parámetro. En lo notación se muestran como multivariadas, pero es importante aclarar que el 
                                                          
15 Las distribuciones a priori débilmente informativas pueden ser preferidas a las informativas cuando no es 
claro cómo construir un modelo completamente informativo y por lo tanto es apropiado permitir a la 
verosimilitud contribuir de mayor forma que la distribución a priori (Depaoli & Clifton, 2015). 
  
 
52 
 
software Mplus implementa distribuciones a priori univariadas en los elementos individuales de un 
vector (Muthén & Muthén, (1998-2015)). 
 
La distribución a priori para el vector de parámetros de regresión es la distribución normal 
multivariada. Para los parámetros de regresión del componente “dentro de grupos” 𝛿𝑊 =
(Λ𝑊, b𝑊), la distribución a priori se denota como: 
 
𝛿 2𝑊~𝑀𝑁𝑉(𝑣𝑤 , 𝜎𝑤) 
 
donde 𝑣𝑤  es un vector que contiene los hiperparámetros de la media y 𝜎
2
𝑤  es un vector que 
contiene los hiperparámetros para la varianza.  
 
De la misma forma, las distribuciones a priori para los parámetros de regresión del nivel de grupos  
𝛿𝐵 = (Λ𝐵, b𝐵)  se definen como: 
 
𝛿𝐵~𝑀𝑁𝑉(𝑣 , 𝜎
2
𝐵 𝐵) 
 
donde  𝑣𝐵  y  𝜎
2
𝐵   representan los vectores que contienen los hiperparámetros de la media y la 
varianza, respectivamente. 
 
La distribución a priori especificada para la varianza en la Gamma-Inversa (Γ−1), que incluye 
parámetros de forma (𝛼) y de escala (𝛽) que controlan la densidad.  
 
También son establecidas distribuciones Gamma-Inversa (Γ−1) para los elementos de la diagonal de 
las matrices de covarianzas asociadas con cada varianza en cada nivel del modelo. En el nivel “dentro 
de grupo”, las distribuciones a priori para cada uno de los parámetros de varianza son: 
 
Θ ~Γ−1𝑊 (𝛼𝑊 , 𝛽 )   𝑦    Ψ ~Γ
−1(𝛼 , 𝛽
1 𝑊1 𝑊 𝑊2 𝑊 ) 2
 
donde 𝛼𝑊    es el hiperparámetro de forma y 𝛽𝑊   es el hiperparámetro de escala. 
 
De forma análoga, la distribución a priori para cada parámetro de varianza del nivel “entre grupos” 
se denota como: 
 
Θ𝐵~Γ
−1(𝛼𝐵 , 𝛽𝐵 )   𝑦    Ψ𝐵~Γ
−1(𝛼
1 1 𝐵 , 𝛽2 𝐵 ) 2
 
 
  
 
53 
 
 
 
4.1.3. Diseño de las simulaciones 
 
Los datos fueron generados utilizando la versión Mplus 8.316 (Muthén & Muthén, (1998-2015)) con 
1.000 repeticiones por celda17. El análisis Bayesiano fue implementado utilizando una cadena MCMC 
de 50.000 iteraciones cada una descartando las primeras 25.000, y utilizando las restantes 25.000 
para estimar la distribución a posteriori, aunque la convergencia ocurrió mucho antes en la mayoría 
de estimaciones. 
 
La convergencia de la cadena fue monitoreada con el diagnóstico de convergencia de Brooks y 
Gelman (1998), que es el implementado en Mplus, con el criterio de convergencia por defecto de 
0.05. 
 
El modelo para la generación de datos (parámetros simulados) consistió en una variable latente 
explicatoria y una variable latente respuesta tanto en el nivel de individuos como en el de grupos, 
donde cada variable latente es medida por tres variables indicadoras continuas.18 Para los 
propósitos de identificación del modelo, la primera variable indicadora de cada variable latente fue 
fijada al valor de 1.0 en todas las condiciones. 
 
Para el modelo multinivel de dos niveles en la estructura jerárquica, las condiciones que fueron 
modificadas en este estudio son el número de grupos (2 variantes), el tamaño de los grupos (2 
variantes), el coeficiente de correlación intra-clase (3 variantes) y las especificaciones de las 
distribuciones a priori de las regresiones y las varianzas del modelo (6 variantes).  
 
Seguidamente se explican estas variantes: 
 
Número de grupos (2 variantes): Las investigaciones Monte Carlo han reportado diferentes 
hallazgos con respecto al número de grupos que son necesarios para obtener estimaciones 
insesgadas en ML-SEM (Li & Beretvas, 2013; Ludtke y otros, 2011; Preacher y otros, 2010; Depaoli 
& Clifton, 2015). En general, la estimación Bayesiana produce aceptables resultados incluso para un 
número de grupos pequeño (Depaoli & Clifton, 2015). Debido a lo anterior, no fue especificado un 
amplio rango de grupos a evaluar, sino únicamente dos, que podrían clasificarse en pequeño 
número de grupos y gran número de grupos, para capturar la dispersión al variar esta categoría. Los 
grupos son de tamaño 30 y 100 (en la evaluación PISA 2012, el número de grupos fue de 193). 
 
Tamaño del grupo (2 variantes): Para cada grupo, tamaños de muestra de 10 y 30 observaciones 
fueron generados para reflejar los tamaños de grupos típicamente observados en estudios 
                                                          
16 La versión 8.3 fue puesta en producción en abril de 2019. En lo que concierne a esta investigación, esta 
versión añade ciertas funcionalidades con respecto a la versión 8.2, que colaboran en los procesos de 
estimación de modelos Bayesianos multinivel, especialmente en los enfoques de computación paralela y la 
reorganización de algoritmos de estimación Bayesiana, que reducen los tiempos de uso computacional entre 
20% y 50% (Asparouhov & Muthén, 2019). 
17 La celda es el script o código utilizado para la especificación y estimación del modelo, en el lenguaje de 
MPlus. 
18 Inicialmente se planteó la posibilidad de realizar también simulaciones tomando en cuenta constructos 
creados a partir de variables categóricas, específicamente variables indicadoras dicotómicas. Sin embargo, 
debido al tiempo computacional requerido para las simulaciones fue descartada esta aplicación. 
  
 
54 
 
educativos (en la evaluación PISA 2012 el tamaño de grupo estándar es de 30 estudiantes). De la 
misma forma, la idea es evaluar el efecto de contar con pocas observaciones dentro de cada grupo, 
o con gran cantidad de observaciones. 
 
Al combinar las variantes anteriores, se obtienen cuatro tamaños de muestra total, a saber: 300 
observaciones, 900 observaciones, 1000 observaciones y 3000 observaciones (el tamaño de 
muestra total de la evaluación PISA 2012 es de 4602 observaciones para Costa Rica). 
 
Coeficiente de correlación intra-clase (3 variantes): La descomposición de la varianza en los 
componentes “dentro de grupos” y “entre grupos” es un factor que interactúa junto con el tamaño 
de la muestra y que puede afectar tanto los resultados de las estimaciones como la convergencia 
misma, especialmente en las estimaciones frecuentistas. El coeficiente de correlación intra-clase 
(ICC) es un índice de la proporción de la variabilidad que es explicada por el nivel de grupos: 
 
𝑉𝑎𝑟(𝐵)
𝜌 =  
𝑉𝑎𝑟(𝐵) + 𝑉𝑎𝑟(𝑊)
 
La correlación intraclase mide la homogeneidad interna de los grupos, en otras palabras, la similitud 
de las unidades de primer nivel y las diferencias entre las unidades de niveles superiores. Un valor 
de cero indica que los datos son independientes, pero entre mayor sea mayor importancia adquiere 
el tomar en cuenta la estructura jerárquica al momento de realizar estimaciones de regresión. 
 
En los estudios relacionados al sector educación, es común encontrar ICC sumamente pequeños 
(Fernández, 2017), por lo que fueron simulados tres escenarios del valor del ICC: 0.02, 0.05y 0.40. 
 
En los modelos multinivel, el ICC para cada variable observada (𝜌𝑘)  puede ser expresado como una 
función de las cargas factoriales, varianzas, y varianzas residuales en cada nivel del modelo 
utilizando la siguiente fórmula (Muthén B. , 1991): 
 
(𝜆2𝐵𝑘  ×  Ψ𝐵  +  Θ𝐵)
𝜌𝑘 =  [ (𝜆2𝐵𝑘  ×  Ψ𝐵  +  Θ𝐵)  +  (𝜆
2
𝑊𝑘  ×  Ψ𝑊  +  Θ𝑊) ]
 
donde 𝜆𝑘   se refiere a la carga factorial del ítem 𝑘.  
 
Los ICC que fueron utilizados en esta investigación fueron creados utilizando la ecuación anterior, 
al cambiar las varianzas y las varianzas residuales de cada nivel del modelo manteniendo las cargas 
factoriales en un valor constante de 1.0. 
 
Para obtener un ICC de 0.02 en el modelo con datos continuos, se establece la varianza factorial del 
nivel bajo (“dentro de grupos”) en un valor de 0.98, las varianzas residuales del nivel bajo en 1.74, 
la varianza factorial del nivel superior en un valor de 0.02, y las varianzas residuales del nivel superior 
en un valor de 0.035. 
 
 
Para obtener un ICC de 0.05 en el modelo con datos continuos, se establece la varianza factorial del 
nivel bajo (“dentro de grupos”) en un valor de 0.95, las varianzas residuales del nivel bajo en 0.534, 
la varianza factorial del nivel superior en un valor de 0.05, y las varianzas residuales del nivel superior 
en un valor de 0.028. 
  
 
55 
 
 
Para obtener un ICC de 0.40 para el modelo con datos continuos, se establece la varianza factorial 
del nivel bajo (“dentro de grupos”) en un valor de 0.60, las varianzas residuales del nivel bajo en 
0.3375, la varianza factorial del nivel superior en un valor de 0.40, y las varianzas residuales del nivel 
superior en un valor de 0.225. 
 
Como referencia, la figura 1 anterior muestra los valores de los parámetros para la celda con el ICC 
de 0.05. 
 
 
Al combinar los cuatro tamaños de muestra con los tres contextos en los que se probará el efecto 
del Coeficiente de Correlación Intra-clase, se producen un total de doce combinaciones, que son 
llamadas en esta investigación como los doce escenarios de contexto, ya que si bien permiten 
realizar comparaciones del desempeño de las estimaciones bajo estos escenarios, por si solas no 
son útiles para responder a la pregunta de investigación, que está relacionada con la especificación 
de las distribuciones a priori de algunos parámetros, y que será comentado a continuación. 
 
 
Especificaciones de las distribuciones a priori (6 variantes): La estimación Bayesiana fue realizada 
utilizando cadenas MCMC con el algoritmo de muestreo de Gibbs (ver secciones 2.4.3 y 2.4.4). Tres 
tipos de distribuciones a priori fueron especificadas para todo el modelo: no informativa, 
informativa y débilmente informativa, siendo esta última definida como una distribución con un 
nivel de variación mayor al de las distribuciones informativas pero inferior al de las no informativas. 
 
Los parámetros de regresión fueron especificados para tener la misma distribución a priori entre los 
dos componentes del modelo (“dentro de grupo” y “entre grupo”). 
 
Los parámetros de varianza para el componente “dentro de grupo” del modelo fueron siempre 
especificadas con los elementos en τ𝑊~Γ
−1(−1,0), que es el valor por defecto en Mplus y 
corresponde a la distribución uniforme 𝑈[0,∞) (Asparouhov & Muthén, 2010). 
 
Las distribuciones a priori difusas (no informativas) fueron definidas utilizando las especificaciones 
por defecto que incluye el programa Mplus. 
 
Para la estimación Bayesiana con distribuciones a priori informativas y débilmente informativas, el 
hiperparámetro de media de las regresiones fue especificado al verdadero valor poblacional 
(establecido en la generación de datos) de 1.0 para darle a la distribución a priori de la regresión la 
mayor masa en la vecindad general de los valores generados (Depaoli & Clifton, 2015). 
 
En el caso de las distribuciones a priori débilmente informativas, fueron especificados dos niveles 
de información para las regresiones a través del hiperparámetro de varianza de tal forma que 
𝛿𝑊~𝑁(1 , 1) 𝑦  𝛿𝑊~𝑁(1 , 0. ) y de la misma forma, 𝛿𝐵~𝑁(1 , 1) 𝑦  𝛿𝐵~𝑁(1 , 0. ). Los 
componentes de varianza en el nivel jerárquico superior fueron modificados para tener 
distribuciones a priori Γ−1(−1,0)  o   Γ−1(0.01 , 0.01). Para estudiar la interacción de las diferentes 
formas de las distribuciones a priori débilmente informativas, las especificaciones de las regresiones 
y de las varianzas fueron cruzadas, dando como resultado cuatro niveles de definiciones de 
distribuciones a priori débilmente informativas. 
 
  
 
56 
 
Con respecto a las distribuciones a priori informativas, el hiperparámetro de varianza de las 
distribuciones normales fue especificado para ser más pequeño que las distribuciones a priori 
débilmente informativas recién comentadas, de forma que 𝛿𝑊~𝑁(1 , 0.1) y 
𝛿𝑊~Γ
−1(0.001 , 0.001). Lo mismo aplica para el nivel jerárquico superior, 𝛿𝐵~𝑁(1 , 0.1) y 
𝛿 ~Γ−1𝐵 (0.001 , 0.001). 
 
En síntesis, para la estimación de los parámetros de regresión y de varianza (excluyendo, de 
momento, las cargas factoriales cruzadas) fueron testeadas seis combinaciones de distribuciones a 
priori: una no informativa, 4 débilmente informativas, y una informativa. 
 
Cargas factoriales cruzadas (distribuciones a priori) (3 variantes): La pregunta de investigación 
refiere al estudio de las posibles ventajas del enfoque BSEM en el contexto de los modelos de 
ecuaciones estructurales multinivel (ML-BSEM). Para dar respuesta a la pregunta, fue introducida 
una variante adicional en el diseño de la simulación: las matrices  𝚲𝑾  y  𝚲𝑩 , que contienen las 
cargas factoriales y los parámetros de regresión - y que fueron modeladas con distribuciones a priori 
distribuidas normalmente con tres variaciones en el hiperparámetro de la varianza- fueron 
modificadas para permitir simultáneamente la libre estimación de los parámetros de las cargas 
factoriales cruzadas, que originalmente, en el diseño mostrado en la sección 4.1.3, serían fijados a 
un valor de 0 (  ~𝑁(0 , 0)  ). 
 
En este caso, para cada uno 72 de  los modelos de base (12 escenarios de contexto combinados con 
6 especificaciones de las distribuciones a priori en los parámetros de regresión y de varianza) las 
cargas factoriales cruzadas fueron estimadas con una distribución a priori normal que tendrán una 
media de cero y una varianza aproximadamente igual a cero (el enfoque BSEM). 
 
Se recurrió al uso de tres variantes para medir el efecto de las cargas factoriales cruzadas: 
 ~𝑁(0 , 𝑖𝑛𝑓𝑖𝑛𝑖𝑡𝑜),    ~𝑁(0 , 1)   y   ~𝑁(0 , 0.1) , para evaluar el efecto de una distribución a priori 
no informativa, débilmente informativa e informativa, siguiendo el enfoque BSEM (Muthén & 
Asparouhov, 2012 (1)). De esta forma, fueron especificados 216 modelos (celdas) con variable 
indicadora continua. 
 
4.1.4. Evaluación del ajuste del modelo 
 
Fueron realizadas simulaciones sobre la combinación de distintas condiciones que pueden afectar 
tanto la convergencia del modelo como la correcta estimación o recuperación de los parámetros 
simulados. El diseño es totalmente cruzado, lo que da como resultado un total de doce escenarios 
de condiciones contextuales, que al añadírseles las seis distintas combinaciones para establecer las 
distribuciones a priori de los parámetros principales, da un total de 72 celdas para las simulaciones 
del modelo SEM multinivel, que al añadir las tres especificaciones para las cargas factoriales 
cruzadas, alcanzan un total de 216 celdas. A cada una de las 216 celdas le fueron simuladas 1000 
bases de datos y fueron estimadas las 1000 repeticiones correspondientes, lo que implica que el 
modelo fue  estimado 216 mil veces. 
 
Los objetivos específicos de esta investigación se basan en tres evaluaciones a los modelos: a) la 
estabilidad de las estimaciones de los parámetros, b) la cantidad de sesgo introducida en las 
estimaciones de los parámetros, y c) el ajuste de los modelos mediante el cómputo de la 
  
 
57 
 
probabilidad asociada a la prueba cociente de verosimilitudes del modelo nulo respecto del modelo 
irrestricto. 
 
Para concretar la evaluación resultó necesario definir algún indicador mediante el cual pudieron ser 
examinados los cambios en los modelos (en términos de sesgos, estabilidad de parámetros y ajuste). 
Para la estabilidad de las estimaciones de los parámetros, fueron examinadas ciertas medidas de 
posición de la distribución de las estimaciones producidas en las simulaciones y la raíz cuadrada del 
error cuadrático medio. Para la cantidad de sesgo en las estimaciones, fue calculada la diferencia 
entre el valor dado del parámetro y el valor estimado, de forma que se puedan apreciar las 
desviaciones, o no, del valor de la pendiente desde el cual se simulan los datos. Finalmente, el 
cambio en el ajuste de los modelos se evaluará mediante el cómputo de la probabilidad asociada a 
la prueba cociente de verosimilitudes del modelo nulo respecto del modelo irrestricto, haciendo uso 
del  P-value predictivo a posteriori.  
 
El P-value predictivo a posteriori  del ajuste del modelo puede obtenerse con un estadístico de 
ajuste, 𝑓, basado en el test usual del cociente de verosimilitudes de un modelo 𝐻0 con respecto a 
un modelo irrestricto 𝐻1. En la implementación de Mplus, el P-value predictivo a posteriori es 
computado utilizando cada décima iteración entre las iteraciones utilizadas para describir la 
distribución a posteriori de los parámetros (Asparouhov & Muthén, 2010).  
 
Se construye un intervalo al 95% de confianza para la diferencia en el estadístico 𝑓  entre los datos 
reales y replicados. Un límite inferior positivo va en línea de un bajo P-value predictivo a posteriori 
e indica un pobre ajuste. Un modelo con ajuste excelente se espera que tenga un  P-value predictivo 
a posteriori  alrededor de 0.5 y una diferencia en el estadístico 𝑓  de cero que se ubique cerca del 
punto medio del intervalo de confianza (Muthén & Asparouhov, 2012 (1)). 
 
Es importante destacar que el P-value predictivo a posteriori no se comporta como un p-value para 
una prueba chi-cuadrado de ajuste de modelos. La probabilidad de error Tipo I no es 0.05 para un 
modelo correcto, y aún no hay teoría para qué tan bajo debe ser el valor del P-value predictivo a 
posteriori  antes de que el modelo pase a mostrar un mal ajuste a un cierto nivel. En ese sentido, el 
P-value predictivo a posteriori  es más similar a un índice de ajuste de un SEM (como el RMSEA) que 
a una prueba chi-cuadrado (Muthén & Asparouhov, 2012 (1))19. 
 
De esta forma, mediante el uso del P-value predictivo a posteriori fue realizada la comparación del 
ajuste de los modelos: para cada uno de los 48 escenarios de contexto propuestos, las 12 celdas 
correspondientes fueron comparadas (6 que no incluyen distribuciones a priori en las cargas 
factoriales cruzadas y 6 que sí lo incluyen) para evaluar las bondades de utilizar el enfoque ML-
BSEM20. 
                                                          
19 Si bien el uso del P-value predictivo a posteriori  ha sido debatido recientemente en cuanto a su robustez 
para evaluar y comprar el ajuste de modelos con estimación Bayesiana (Hoijtink & van de Schoot, 2017), el 
hecho de que aún la evidencia no sea contundente para descartarlo lo convierte en el indicador que será 
utilizado en esta investigación para comparar el ajuste de los modelos. 
20 En noviembre de 2019 Asparouhov y Muthén (2019) publicaron un nuevo documento que muestra 
actualizaciones al PPP-value en presencia de datos faltantes, así como una adaptación Bayesiana de los 
índices de ajuste de aproximación tradicionalmente utilizados en modelos SEM, como el RMSEA, CFI y el TLI. 
Estos fueron agregados a la versión 8.4 de Mplus, que fue liberada en noviembre 2019, por lo que no pudo 
ser aplicado en esta investigación (además de que aún no se encuentran disponibles para modelos 
multinivel). 
  
 
58 
 
4.2. Análisis de los datos de la avaluación PISA 
 
 
4.2.1. El Programa Internacional de Evaluación de Estudiantes (PISA) 
 
El Programa Internacional de Evaluación de Estudiantes (PISA- Programme for International Student 
Assessment) es un esfuerzo conjunto entre los países miembros de la OCDE que busca medir la 
capacidad que tienen los estudiantes en edad de 15 años y que se acercan a concluir el ciclo de 
escolaridad obligatoria, para afrontar los retos de la sociedad actual. 
 
La evaluación tiene una visión a futuro: en lugar de centrarse en evaluar conocimientos específicos 
de acuerdo con los currículos o planes de estudio de cada centro educativo, se evalúa la capacidad 
que tienen los estudiantes para utilizar su conocimiento y habilidades para afrontar retos de la vida 
real. 
 
Las encuestas y evaluaciones de PISA se realizan cada tres años y aunque todas miden habilidades 
y conocimientos en lectura, ciencias y matemáticas, cada evaluación se enfatiza en una de estas tres 
áreas, dedicando cerca del 60% de los ítems a la evaluación del área en la que se enfoca la prueba. 
 
La primera de estas evaluaciones se aplicó en el año 2000 y tuvo énfasis en el área de lectura; en 
esta evaluación participaron 32 países. La segunda prueba se aplicó en el año 2003, se concentró en 
las matemáticas y contó con la participación de 41 países. La tercera ocasión en que se evaluó 
estudiantes con la metodología de PISA fue en el año 2006, y concentró mayores esfuerzos en 
evaluar los conocimientos y habilidades en ciencias; ese año participaron 57 países. Con estas tres 
pruebas concluyó el primer ciclo completo de evaluaciones de PISA. 
 
El segundo ciclo de pruebas se inició en el año 2009 con la evaluación que enfatiza lectura. Esta fue 
la primera evaluación en la que Costa Rica tomó parte dentro del programa de PISA. La segunda 
prueba en la que participó Costa Rica se realizó en el año 2012 y tuvo énfasis en las habilidades 
matemáticas, mientras que recientemente en mayo del año 2015 fue aplicada en nuestro país la 
prueba PISA 2015, cuyo énfasis son las habilidades en ciencias. 
 
Además de la medición de habilidades y conocimientos de los estudiantes mediante una prueba 
escrita, PISA también realiza cuestionarios para recolectar información que permita analizar y 
contextualizar adecuadamente los resultados de las pruebas. Se aplican cuestionarios a los 
estudiantes  para obtener información sobre aspectos del hogar y la familia. Asimismo, se aplican 
cuestionarios a los directores de cada centro educativo para obtener información específica sobre 
los aspectos propios de la infraestructura del centro educativo, cantidad y preparación del personal 
docente, entre otros aspectos. 
 
Los valores del rendimiento de los estudiantes en las evaluaciones son considerados como variables 
latentes continuas, lo que significa que se tratan como cantidades que son medibles pero para las 
que no existe un instrumento de medida, ya que los ítems no son evaluados con puntuaciones 
específicas, sino que PISA define escalas a partir de las cuales se realizan las comparaciones. Así, 
para facilitar la interpretación de las notas asignadas a los estudiantes, las escalas en lectura, 
matemáticas y ciencias fueron diseñadas para tener una nota promedio de 500 puntos y una 
desviación estándar de 100 puntos para los países miembros de la OECD. Esto significa que cerca de 
  
 
59 
 
dos tercios de los estudiantes de países miembros de la OECD obtienen notas entre los 400 y 600 
puntos (OECD, 2009). A estos valores del rendimiento de los estudiantes se les llama Valores 
Plausibles. 
 
 
4.2.1.1. El Constructo de Alfabetización matemática 
 
La evaluación PISA del año 2012 se enfocó en medir si los estudiantes son competentes desde el 
punto de vista matemático (o si adquirieron la Competencia Matemática), lo cual implica tener la 
capacidad individual para utilizar los conceptos aprendidos durante los procesos de aprendizaje en 
la resolución de problemas y en situaciones que se le presentan en otros contextos de su vida 
cotidiana. En esta evaluación el foco no se centra entonces en conocer cuáles contenidos del 
currículo han sido aprendidos por el alumno, sino cómo este los pone en práctica (Salas, 2012). 
 
El marco conceptual bajo el cual se define la alfabetización matemática en PISA fue escrito bajo la 
guía de un Grupo de Expertos Matemáticas (Mathematics Expert Group, MEG) conformado por diez 
miembros, incluyendo matemáticos, educadores de matemáticas y expertos en evaluación, 
tecnología e investigación educativa de un grupo de países. 
 
Adicionalmente, para asegurar una mayor robustez del marco conceptual, una versión preliminar 
del Marco Conceptual Matemático preparado por PISA fue circulado a más de 170 expertos 
matemáticos en más de 40 países, para recibir retroalimentación por parte de estos (OECD, 2013). 
 
Según PISA (OECD, 2013), las matemáticas son una herramienta crítica para las personas jóvenes ya 
que estos enfrentan asuntos y retos relacionados con esta en los ámbitos personal, ocupacional y 
social. Por esto, es importante tener un entendimiento del grado en el que las personas jóvenes 
están adecuadamente preparados para aplicar las matemáticas, para comprender asuntos 
importantes y resolver problemas significativos en su diario vivir. Una evaluación a la edad de 15 
años provee una indicación temprana de como los individuos podrían responder en un futuro al 
diverso conjunto de situaciones que se encontrarán en sus vidas y que involucre el uso de las 
matemáticas. 
 
La concepción de alfabetización matemática apoya la importancia de que los estudiantes 
desarrollen una fuerte comprensión de los conceptos de la matemática pura y los beneficios de 
estar comprometidos con la exploración del mundo abstracto de las matemáticas. El constructo de 
alfabetización matemática, según la definición de PISA, hace un remarcado énfasis en la necesidad 
de desarrollar la capacidad de los estudiantes de utilizar las matemáticas de acuerdo con el 
contexto, para lo cual es importante que los estudiantes tengan ricas experiencias en sus clases de 
matemáticas (OECD, 2013). 
 
El marco conceptual de la alfabetización matemática en PISA distingue entre grandes categorías de 
contenidos que son importantes para la alfabetización en general, y los contenidos específicos de 
temas que son apropiados para los estudiantes de 15 años. La alfabetización matemática no es un 
atributo que un individuo tiene o no tiene, sino que está en continuo crecimiento, aunque sí se 
reconoce que algunos individuos son más alfabetizados matemáticamente que otros (OECD, 2013). 
 
Para los propósitos de PISA, la alfabetización matemática se define como sigue: 
  
 
60 
 
 
“La alfabetización matemática es la capacidad de un individuo para formular, emplear 
e interpretar las matemáticas en una variedad de contextos. Incluye razonar 
matemáticamente y utilizar conceptos matemáticos, procedimientos, datos y 
herramientas para describir, explicar y predecir fenómenos. Ayuda a los individuos a 
reconocer el rol que las matemáticas juegan en el mundo y para tomar las decisiones 
mejor fundamentadas que requiere un ciudadano constructivo, comprometido y 
reflexivo” (OECD, 2013). 
 
Los conceptos de “formular”, “emplear” e “interpretar” presentes en la definición anterior apuntan 
a los tres procesos en los cuales los estudiantes participarán en su ciclo de vida. 
 
Formular matemáticas involucra identificar oportunidades para aplicar y utilizar las matemáticas, 
entendiendo que las matemáticas pueden aplicarse para comprender o resolver un problema o reto 
particular. Incluye tener la capacidad de tomar una situación como se presente, y transformarla en 
una forma susceptible de tratamiento matemático, proveyendo las estructuras matemáticas y las 
representaciones, identificando variables y haciendo supuestos simplificadores para ayudar a 
resolver el problema. 
 
Emplear matemáticas involucra aplicar el razonamiento matemático y utilizar los conceptos 
matemáticos, procedimientos, datos y herramientas para derivar una solución matemática. Incluye 
la realización de cálculos, la manipulación de expresiones y ecuaciones algebraicas u otros modelos 
matemáticos, el análisis de información en una forma matemática desde gráficos y diagramas 
matemáticos, desarrollar descripciones y explicaciones matemáticas, y el uso de herramientas 
matemáticos para resolver problemas. 
 
Interpretar matemáticas involucra reflexionar sobre soluciones o resultados matemáticos e 
interpretarlos en el contexto de un problema o desafío. Incluye la evaluación de las soluciones 
matemáticas en relación con el contexto del problema y determinar si los resultados son razonables 
y tienen sentido para esa situación. 
 
De acuerdo con el marco conceptual de PISA, la distribución de los ítems en la prueba de acuerdo 
con los procesos es la siguiente: 25% formulación matemática, 50% emplear conceptos matemáticas 
y 25% interpretación matemática. 
 
4.2.1.2. Delimitación del domino matemático 
 
El marco conceptual de PISA define el dominio matemático para la encuesta de PISA y describe un 
enfoque para la evaluación de la alfabetización matemática de los jóvenes de 15 años de edad, es 
decir, PISA evalúa el grado de experticia en que los alumnos de 15 años de edad pueden manejar 
las matemáticas cuando se enfrentan a situaciones y problemas, la mayoría de las cuales se 
presentan en contextos del mundo real. 
 
Para propósitos de la evaluación, la definición de alfabetización matemática de PISA 2012 puede ser 
analizada en términos de tres aspectos interrelacionados: 
 
  
 
61 
 
 Los procesos matemáticos, que describen lo que los individuos hacen para conectar el 
contexto del problema con las matemáticas y de esta manera resolver el problema, y las 
capacidades subyacentes a este proceso; 
 El contenido matemático que está dirigido a utilizarse en los ítems de la evaluación; y 
 Los contextos en los cuales los ítems evaluados se encuentran ubicados. 
 
 
Para organizar el dominio matemático a efectos de evaluar la alfabetización matemática, fue 
definido un set de categorías de contenido que reflejan los fenómenos subyacentes a las 
matemáticas, que consiste en cuatro categorías utilizadas previamente en PISA. De acuerdo con 
PISA (2013), dichas categorías reúnen los requerimientos del desarrollo histórico que abarcan el 
dominio de las matemáticas e ilustran las grandes áreas de contenido que guían el desarrollo de los 
ítems en la evaluación del año 2012; estas son: 
 
 Cambios y relaciones; 
 Espacios y formas; 
 Cantidades; y 
 Datos e incertidumbre. 
 
Si bien explicar estas categorías van más allá del alcance de este trabajo, una explicación detallada 
de estas puede encontrarse en OECD (2013). Sin embargo, es importante aclarar que dichas 
categorías no son excluyentes con respecto a los ítems, es decir, en la evaluación de PISA un ítem 
puede estar evaluando una, dos o más de estas categorías. 
 
Según con el marco conceptual de PISA, la distribución de los ítems en la prueba de acuerdo con 
estas cuatro categorías se realiza de manera aproximadamente igual, de 25% del puntaje total de la 
evaluación en cada categoría.  
 
Finalmente, PISA hace un gran esfuerzo por evaluar los niveles matemáticos que son apropiados 
para estudiantes de 15 años de edad, y que les ayudarán a convertirse en ciudadanos constructivos, 
comprometidos y reflexivos. Aunque la prueba PISA no pretende ser una evaluación de currículos 
específicos, sí busca reflejar el nivel de conocimiento de los conceptos matemáticos los estudiantes 
han aprendido a lo largo de su proceso educativo (OECD, 2013). 
 
Estos conceptos no pueden ser asociados, en una relación uno a uno, con respecto a las cuatro 
categorías anteriores, pero se refieren básicamente a las siguientes: 
 
 Funciones: el concepto de funciones, con énfasis en funciones lineales pero no limitado a 
estas. 
 Expresiones algebraicas. 
 Sistemas de coordenadas: representación y descripción de datos, posiciones y relaciones. 
 Relaciones dentro y entre objetos geométricos en dos y tres dimensiones. 
 Medición: cuantificación de características de objetos y espacios, como medidas de ángulos, 
distancias, tamaños, circunferencias, entre otros. 
 Números y unidades: incluyendo propiedades de números enteros y racionales, los aspectos 
relevantes de los números irracionales, así como las cantidades y unidades referidas a 
fenómenos tales como el tiempo, el dinero, peso, temperatura, distancia, área y volumen. 
  
 
62 
 
 Operaciones aritméticas. 
 Porcentajes, radios y proporciones. 
 Principios de conteo: combinaciones y permutaciones simples. 
 Recolección, representación e interpretación de datos. 
 Variabilidad de datos: conceptos de variabilidad, distribución y tendencia central. 
 Muestra y muestreo: incluyendo inferencias simples basadas en las propiedades de las 
muestras. 
 Probabilidad: noción de eventos aleatorios, variación aleatoria, frecuencia de eventos y 
aspectos básicos del concepto de probabilidad. 
 
 
 
4.2.1.3. Escalas de competencia 
PISA no sólo reporta el rendimiento de los estudiantes como un puntaje general, sino también en 
términos del contenido evaluado, ubicando a los estudiantes en una escala que describe lo que los 
estudiantes saben y pueden hacer. 
 
A estas escalas se les llama “escalas de competencia” en lugar de “escalas de desempeño” ya que 
reportan lo que los estudiantes saben y pueden hacer a ciertos niveles en lugar de lo que hicieron 
los estudiantes en la evaluación (una única ocasión). Se establece así ya que PISA está interesado en 
obtener el nivel de competencia general del estudiante, y no el rendimiento mostrado en una 
prueba específica. 
 
El diseño de la evaluación de la prueba de PISA hace esto posible al utilizar técnicas modernas de 
modelación de respuestas a los ítems para estimar, simultáneamente, la habilidad de todos los 
estudiantes que fueron evaluados y la dificultad de todos los ítems de la evaluación. La metodología 
de PISA se basa en muestras de estudiantes y de ítems para efectuar estimaciones poblacionales: 
una muestra de estudiantes de 15 años de edad es seleccionada para representar a toda la población 
de 15 años del país, y una muestra de ítems de un gran conjunto de estos es administrada a cada 
estudiante. 
 
La relación entre la habilidad del estudiante y la dificultad de los ítems es probabilística, lo que 
quiere decir que existe cierta probabilidad de que un estudiante particular pueda completar 
correctamente algún ítem. Con esta información, los expertos en PISA definieron seis niveles de 
competencia en matemática, que van desde el nivel 1, que indica que el alumno posee la capacidad 
de resolver problemas y ejercicios matemáticos rutinarios, hasta el nivel 6, donde el alumno es capaz 
de resolver problemas que requieren de razonamiento y habilidades matemáticas avanzadas. 
 
PISA considera al nivel 2 como el nivel básico de competencias, en el que los estudiantes comienzan 
a demostrar las habilidades en lectura que les permitirá participar eficazmente en la vida productiva. 
El siguiente cuadro resume la descripción de las competencias deseadas en cada nivel: 
 
 
 
 
 
 
  
 
63 
 
Tabla 1 Descripción de las escalas de competencia en la evaluación matemática de PISA 2012 
Descripción de las escalas de competencia en la evaluación matemática de PISA 2012
Nivel Descripción
En este nivel el estudiante puede contextualizar, generalizar y utilizar la información basándose en sus investigaciones o en la
modelización de una situación o problema complejo. El estudiante puede relacionar la información proveniente de diferentes
fuentes o representaciones. El estudiante debe ser capaz de realizar razonamientos matemáticos avanzados, puede aplicar los
6 conocimientos, la simbología y la matemática formal para entender y explicar nuevas situaciones y generar nuevas estrategias para
dar respuestas a las mismas. En este nivel el estudiante puede expresarse en forma precisa, reflexiona sobre sus hallazgos e
interpreta y reflexiona apropiadamente.
En este nivel los estudiantes pueden desarrollar y trabajar con modelos de situaciones complejas, además identificar las
limitaciones de los mismos y especificar los supuestos considerados. Pueden seleccionar, comparar y evaluar adecuadas estrategias
para la resolución de problemas y aplicarlas para resolver situaciones complejas relacionadas con los modelos que se plantean. Los
5 estudiantes de este nivel pueden seleccionar estrategias apropiadas y utilizar en forma adecuada las habilidades de pensamiento y
razonamiento que poseen. Establecen relaciones entre las representaciones, la simbología y las caracterizaciones formales. Por
último son capaces de reflexionar sobre sus decisiones y están en capacidad de formular y comunicar sus interpretaciones y los
razonamientos realizados para obtener sus respuestas.
En este nivel el estudiante puede trabajar eficazmente con modelos explícitos de situaciones complejas concretas, las mismas
pueden implicar ciertas restricciones o suposiciones. El estudiante puede seleccionar e integrar diferentes representaciones,
incluyendo representaciones simbólicas, vinculándolas directamente con situaciones del mundo real. Los estudiantes de este nivel
4 pueden utilizar las habilidades desarrolladas previamente y son capaces de razonar en forma competente. El estudiante puede
elaborar y comunicar explicaciones bien fundadas y basadas en las interpretaciones de las acciones realizadas para resolver un
determinado problema.
En este nivel los estudiantes pueden ejecutar procedimientos claramente descritos, incluyendo aquellos que requieren la toma de
decisiones secuenciales. Pueden seleccionar y aplicar estrategias sencillas de resolución de problemas. Los estudiantes de este nivel 
3 pueden interpretar y utilizar representaciones tomadas de diferentes fuentes de información y razonar directamente sobre ellas.
Pueden desarrollar un reporte corto donde comunicando las interpretaciones y los razonamientos realizados y los resultados
obtenidos.
En este nivel los estudiantes pueden interpretar y reconocer situaciones en contextos que requieren únicamente de la inferencia
directa. Pueden extraer la información relevante a partir de una sola fuente y pueden utilizar un único modo de representación. Los
2 estudiantes de este nivel pueden emplear algoritmos básicos, fórmulas y procedimientos convencionales. En este nivel el
estudiante realiza razonamientos directos y hace interpretaciones literales de los resultados.
Los estudiantes de este nivel pueden responder a las preguntas que involucren contextos familiares, donde toda la información
relevante está presente y las preguntas están claramente definidas. Estos estudiantes son capaces de identificar la información para
1 llevar a cabo los procedimientos rutinarios de acuerdo con instrucciones directas, en situaciones explícitas. Pueden realizar acciones
obvias y continuar inmediatamente con determinados estímulos.
Los estudiantes en este nivel no tienen éxito en las tareas matemáticas más básicas medidas por PISA. Su patrón de respuestas hace
Debajo del 
prever que no serían capaces de resolver la mitad de las tareas en una prueba elaborada exclusivamente con preguntas del nivel 1.
nivel 1
Estos estudiantes tienen serias dificultades para utilizar la matemática en cualquier contexto.
Fuente: Traducción tomada de Montero y otros, 2012.  
 
 
 
 
4.2.2. Marco muestral 
 
La población objetivo en cada país participante en la prueba PISA 2012 consistió de los estudiantes 
con edades entre los 15 años y tres meses completos y 16 años y dos meses completos de edad, 
que asisten a instituciones educativas oficiales en sétimo grado o un grado superior. Por esta razón, 
la unidad de análisis es el estudiante. 
 
Como la prueba PISA se trata de una evaluación internacional, que debe ser aplicada en cada país 
participante, se requieren Administradores de Proyectos Nacionales (APN). En Costa Rica, el equipo 
de APN fue constituido en la Dirección de Gestión y Evaluación de la Calidad del Ministerio de 
Educación Pública. 
 
A cada APN se le pidió definir, explicar y justificar su propia población objetivo, tratando en la 
medida de lo posible de que no se desvíe mucho de la definición de población dada por PISA.  Con 
  
 
64 
 
base en esta definición, se le pidió a cada APN construir su marco muestral. Este marco debía 
contener todos los centros educativos que tuvieran estudiantes de 15 años y estuvieran en séptimo 
grado o superior, incluyendo centros educativos que podrían ser excluidos del marco 
posteriormente. 
 
La calidad del marco muestral afecta los resultados de la encuesta directamente a través de las 
probabilidades de selección de los colegios y por lo tanto sus pesos, por lo que a cada APN se le 
instó a construir su marco de una manera lo más precisa posible. Además, les fue suministrado un 
manual para la preparación del marco muestral de colegios, en el cuál le fue indicado a cada APN 
las principales líneas a seguir para la construcción o depuración del marco muestral, incluyendo el 
envío de la población objetivo y las exclusiones, el envío del marco muestral y de los centros 
educativos excluidos (exclusiones a nivel de centro educativo y exclusiones dentro de cada centro 
educativo). 
 
En el caso de Costa Rica, para el marco muestral se utilizó la información de los datos de colegios 
que dispone el Ministerio de Educación Pública. Este consiste en una lista de todos los colegios del 
país que incluye el nombre del colegio, su ubicación (provincia, cantón, distrito, dirección regional), 
zona (urbana o rural), rama (académico o técnico, diurno o nocturno), datos del director del colegio 
y la matrícula total del centro educativo. 
 
Esta información la prepara el Departamento de Análisis Estadístico del MEP a través de la aplicación 
del Censo Escolar, que consiste en la aplicación de cuestionarios a cada centro educativo con el 
objetivo de obtener información de su matrícula, con algunas desagregaciones. Este censo se aplica 
tres veces al año (matrícula inicial, matrícula a medio periodo y matrícula final). El marco muestral 
de PISA 2012 utilizó datos del Primer Censo Escolar del año 2011 (matrícula inicial). 
 
El APN (la Dirección de Gestión y Evaluación de la Calidad el MEP) solicitó al Departamento de 
Análisis Estadístico esta información, pero con datos adicionales, suministrados a través de otras 
bases de datos, que incluyeran los datos de matrícula de cada colegio por edad, por año cursado y 
por sexo, para así poder depurar el marco muestral. 
 
El principal problema de este marco muestral es su rezago de información. Además, como la prueba 
se aplicó a estudiantes de 15 años en el 2012, los estudiantes utilizados fueron los que tenían 14 
años en el 2011, y que se constituyen en los que potencialmente tendrían 15 años en el 2012. 
 
El marco muestral estuvo constituido por más de 900 colegios. 
 
El muestreo se realizó en dos etapas. Las unidades muestrales en la primera etapa consisten en los 
centros educativos (colegios) que tengan estudiantes de 15 años de edad. Las unidades muestrales 
en la segunda etapa fueron los estudiantes de los colegios muestreados. Una vez que los colegios 
fueron seleccionados para estar en la muestra, una lista completa de los estudiantes de 15 años fue 
preparada. 
 
4.2.3. Diseño muestral 
 
En nuestro país, y siguiendo los protocolos generales de PISA, se tomó una muestra aleatoria en dos 
etapas con probabilidad proporcional al tamaño, estratificada de conglomerados que estuvo 
  
 
65 
 
constituida de 193 instituciones, de ellas 167 eran públicas y 26 eran privadas o subvencionadas, 
158 académicas y 35 técnicas, 124 urbanas y 69 rurales. 
 
Previo al muestreo de centros educativos, los colegios fueron asignados a grupos mutuamente 
excluyentes basados en características de los colegios llamadas estratos explícitos, formados para 
mejorar la precisión de los estimadores. En Costa Rica la estratificación utilizada fue público/privado, 
urbano / rural. 
 
Estos colegios fueron seleccionados con probabilidad proporcional al tamaño (PPT). En cada uno de 
los colegios seleccionados se eligieron al azar, partir del listado general de  todos los jóvenes de 15 
años, una muestra de 30 estudiantes, independientemente del  nivel en que estuvieran 
matriculados. 
 
Como los colegios fueron muestreados con probabilidad proporcional al tamaño, los que tenían un 
tamaño pequeño (menor a 30) fueron incluidos con un tamaño de 30, haciendo que todos ellos 
tuvieran la misma probabilidad de ser seleccionados en la primera etapa. 
 
La cobertura bruta de jóvenes de 15 años del país (estén o no en el sistema educativo) fue del 49,6%. 
Esto quiere decir que la muestra solo es representativa de un 50% de todos los jóvenes de 15 años21. 
El nivel de exclusión (porcentaje  complementario) de 50,4% no solo se explica a partir de la 
población de 15 años que no  está cubierta por el sistema educativo, sino que también incluye el 
considerable número de jóvenes que, al tener adecuaciones curriculares, no formaron parte del 
marco  muestral de PISA en esa oportunidad, así como los jóvenes que están en el sistema de  
educación abierta. 
Así, la muestra de 4602 estudiantes que representan a 40386 estudiantes de la población objetivo, 
se distribuye de la siguiente manera: 
Tabla 2 Estadísticas descriptivas de la muestra de datos de PISA para Costa Rica según categoría. 2012 
Promedio en 
Categoría Porcentaje
matemáticas
Género
Mujeres 53,1 (.72) 395,9 (3.06)
Hombres 46,9 (.72) 419,5 (3.56)
Sector educativo al que asiste
Público 84,6 (1,4) 395,8 (3.06)
Privado 15,4 (1,4) 470,1 (3.56)
Año de Colegio que cursa
Séptimo 7,4 (.92) 339,6 (4.66)
Octavo 13,7 (.88) 362,8 (3.20)
Noveno 39,6 (1.27) 405,2 (2.86)
Décimo 39,1 (1.77) 436,7 (3.50)
Undécimo 0,2 (.08)
Fuente: Elaboración propia  con datos  de PISA 2012  
                                                          
21 En la evaluación PISA del año 2015 este porcentaje mejoró hasta el 63%. 
  
 
66 
 
 
 
4.2.4. Imputación de datos faltantes 
 
Una particularidad de esta prueba es que por primera vez, en el año 2012 fue aplicado un diseño 
con rotación de cuestionario. Este tipo de diseño es utilizado cuando se desea indagar mucha más 
información de relevancia para la toma de decisiones, en este caso de política educativa, pero 
sabiendo que existe un riesgo potencial para la aparición de no-respuestas por parte de los 
estudiantes al tener que contestar un cuestionario muy extenso. 
 
Así, para lograr obtener toda la información necesaria del cuestionario, y prevenir un incremento 
en los datos faltantes, en la evaluación del 2012 fue introducido el diseño con rotación de 
cuestionario, únicamente en el cuestionario de contexto de los estudiantes22. 
 
Esta rotación consiste en distribuir todos los paquetes temáticos del universo total de preguntas de 
dicho cuestionario en distintos formularios con varias combinaciones de estos paquetes temáticos 
en cada uno, por lo que en cada formulario se indaga un número menor de preguntas, pero al 
tomarlos todos juntos se garantiza la respuesta por parte de cada país de todos los items de la 
batería completa de preguntas. 
 
Fueron formados tres formularios para la evaluación del 2012, donde cada formulario indaga dos 
terceras partes de la batería completa de preguntas, aunque todos incluyen una parte común de 25 
items sobre la información básica de los estudiantes (como género, grado cursado e información 
sobre su hogar y su familia). De esta manera, se logra obtener un 33% más de información. 
 
Estos formularios son rotados aleatoriamente entre todos los estudiantes de cada centro educativo, 
lo que garantiza que el proceso de datos omitidos se genera en forma completamente aleatoria 
(Missing completely at Random, MCAR), ya que la distribución de los valores observados no 
depende del patrón de comportamiento de los registros sin información. 
 
Esta rotación aleatoria de los cuestionarios permite realizar el supuesto de distribución de datos 
faltantes como MCAR o como MAR, que es requerido para la aplicación de distintas técnicas de 
imputación sobre los valores faltantes. 
 
Kaplan y Su (2015) analizaron los efectos de la aplicación de este diseño con rotación sobre las 
estimaciones posteriores, comparando varios métodos de imputación basados en la metodología 
de ecuaciones en cadena. Este enfoque utiliza un modelo de regresión univariado consistente con 
la escala de la variable con datos perdidos para proveer valores predichos dados los valores 
observados. 
 
Una vez que una variable de interés se completa con los valores predichos, esa variable junto con 
las variables que tienen datos completos es usada en una secuencia para la siguiente variable que 
                                                          
22 Debido a que en la evaluación del 2012 fue introducido por primera vez en PISA el diseño con rotación de 
cuestionario, y los resultados de uso debían ser revisados y validados en etapas posteriores a la realización 
de la prueba para poder concluir sobre su robustez, se decidió no implementar este diseño en la evaluación 
del año 2015. No obstante, ya en el año 2015 se encontró evidencia de robustez en las estimaciones con 
este diseño (Kaplan y Su, 2015). 
  
 
67 
 
presenta valores faltantes. Una vez que la secuencia se completa para todas las variables con valores 
faltantes, la distribución posterior de los parámetros de regresión se obtiene vía muestreo de Gibbs 
y el proceso comienza de nuevo. Este algoritmo puede “correr” estas secuencias simultáneamente 
“m” número de veces obteniendo “m” set de datos imputados. 
 
Kaplan y Su (2015) comparan este método bajo tres formas distintas de la generación de valores 
predichos: predictive mean matching, Bayesian regression imputation y proportional odds logistic 
regression, y encuentran que la técnica de predictive mean matching (PMM) es la más precisa y que 
el supuesto MCAR se cumple, ya que es posible conservar la distribución marginal de los valores 
plausibles y la estructura de covarianzas de los datos después de la imputación. 
 
De esta manera, en esta tesis fue aplicada la técnica de imputación de datos faltantes predicitive 
mean matching bajo el supuesto de que los datos faltantes se distribuyen completamente 
aleatorios. La imputación se hará con el paquete de R “mice”: Multivariate Imputation by Chained 
Equations (van Buuren y Groothuis-Oudshoorn (2011))23. 
 
 
 
 
 
4.2.5. Estimación del modelo 
 
Los cuestionarios de contexto de la evaluación PISA 2012 incluyen una gran cantidad de ítems 
sobre las características de los estudiantes, extracción social de la familia, percepciones de los 
estudiantes, características de los centros educativos y la percepción de los directores de los centros 
educativos. 
 
Algunos de los ítems fueron diseñados para ser utilizados en análisis como ítems singulares 
(por ejemplo el género). Sin embargo, la mayoría de los ítems de los cuestionarios fueron diseñados 
para ser combinados de cierta manera con el objetivo de medir constructos latentes que no pueden 
ser observados directamente (OECD, 2013). 
 
Para estos ítems, fueron aplicados procedimientos de transformación o escalamiento para 
construir índices con sentido teórico y práctico. El alfa de Cronbach fue utilizado para evaluar la 
consistencia interna de cada índice dentro de los países y para compararla entre países. 
 
A continuación se explican los constructos que fueron empleados y los indicadores que los 
conforman (entre paréntesis se muestra su codificación en las bases de datos original de PISA): 
 
4.2.5.1. Constructos definidos para el nivel dentro de grupos 
 
 Constructo 1: Extracción socioeconómica (ExctSoci): Es un constructo que intenta medir las 
condiciones sociales, económicas y familiares en las cuales se desarrolla el estudiante. Está 
conformado de cuatro variables observadas: 
                                                          
23 Este fue el paquete que fue utilizado en Kaplan y Su (2015) para la imputación mediante predictive mean 
matching.  
  
 
68 
 
 
 Posesiones de bienestar familiar (bienestar): un índice que mide el bienestar familiar a 
través de algunos bienes presentes en el hogar, ya que se considera que medir el bienestar 
a través de estos bienes es una forma más estable que a través del ingreso. El estudiante 
debía responder si en su hogar había o no lo siguiente: 
a. Una habitación solo para usted. 
b. Conexión a internet. 
c. Reproductor de DVD 
d. Teléfonos celulares. 
e. Televisores. 
f. Computadoras. 
g. Automóvil. 
h. Habitación con baño privado. 
i. Tres ítems adicionales pero específicos de cada país. 
 Recursos educativos en el hogar (rededu): Similar al anterior, pero midiendo artículos relevantes 
para el estudio en el hogar. Incluye lo siguiente: 
a. Un escritorio o mesa para estudiar. 
b. Un lugar tranquilo para estudiar. 
c. Una computadora que puede usar para sus labores escolares. 
d. Programas educativos para la computadora. 
e. Libros de consulta para sus tareas escolares. 
f. Libros de referencia técnica. 
g. Un diccionario. 
 Nivel educativo más alto de los padres (edupadres): es medido mediante años de educación de 
acuerdo con el ISCED (International Standard Classification of Education). 
 Estatus ocupacional más alto de los padres (estatus): es medido mediante el Índice ISEI 
(International Socio-Economic Index of Occupational Status). 
 
 
 Constructo 2: Antecedentes educativos (Antecedentes): Mide algunas características propias del 
estudiante relacionadas con su pasado educativo. Está conformado de tres variables dicotómicas: 
 No repitió años en primaria (repprim). 
 No repitió años en secundaria (repsec) 
 Asistió a la educación preescolar por un año o más (prees). 
 
 Constructo 3: Actitud personal hacia las matemáticas (Act_Personal): Es un constructo que mide 
el grado en el que el estudiante se encuentra comprometido con la materia, disfruta del estudio 
de las matemáticas y su ansiedad a la materia. Está conformado de cinco variables: 
 
 Autoeficacia en matemáticas (autoef): Ocho ítems fueron utilizados para medir este 
constructo, que se relaciona con el nivel de eficacia propia de cada estudiante para la 
resolución de problemas matemáticos. Dado cada ítem, el estudiante debía responder 
que tan seguro se siente al realizar las tareas matemáticas, en una escala que va de Muy 
seguro, Seguro, No muy seguro a Nada seguro. Dos ejemplos de estos ítems son los 
siguientes: 
a. Calcular cuánto más barato vale un televisor con un 30% de descuento, 
b. Resolver una ecuación como esta: 2(x + 3) = (x + 3)(x - 3) 
  
 
69 
 
 Ansiedad en matemáticas (ansi): Cinco ítems fueron utilizados para medir este 
constructo, que se relaciona con el nivel de ansiedad con el que el estudiante aborda 
situaciones que involucren el uso de matemáticas. La escala de respuesta es: Totalmente 
de acuerdo, de acuerdo, en desacuerdo, totalmente en desacuerdo. Dos ejemplos de 
estos ítems son los siguientes: 
a. Me pongo muy nervioso cuando me enfrento a un problema matemático. 
b. Me preocupa sacar bajas notas en matemática. 
 Auto concepto en matemáticas (autoc): Cuatro ítems fueron utilizados para medir este 
constructo, en el que el estudiante se auto califica en cuanto a sus capacidades 
matemáticas. En este caso, la escala de respuestas se basan en qué tan probable es que 
el estudiante tenga estos pensamientos o sentimientos ante algunas situaciones. Dos 
ejemplos de estos ítems son los siguientes: 
a. No soy bueno para resolver problemas de matemática. 
b. A veces los temas de la lección son demasiado difíciles. 
 
 Motivación instrumental hacia las matemáticas (motins): Cuatro ítems fueron 
utilizados para medir este constructo, que se relaciona con la importancia que tiene 
para el estudiante el estudio de las matemáticas. La escala de respuesta es: Totalmente 
de acuerdo, de acuerdo, en desacuerdo, totalmente en desacuerdo. Dos ejemplos de 
estos ítems son los siguientes: 
a. Hacer un esfuerzo en matemáticas vale la pena porque esto me ayudará en el 
trabajo que quiero conseguir en el futuro. 
b. Matemáticas es una materia importante para mí porque la necesito para lo que 
quiero estudiar en el futuro. 
 Interés en las matemáticas (matint): Cuatro ítems fueron utilizados para medir este 
constructo, que se relaciona el interés propio y el gusto que tiene el estudiante hacia 
esta materia. La escala de respuesta es: Totalmente de acuerdo, de acuerdo, en 
desacuerdo, totalmente en desacuerdo. Dos ejemplos de estos ítems son los 
siguientes: 
a. Espero con ansias mis lecciones de matemáticas. 
b. Practico la matemática porque me gusta. 
 
 
 Constructo 4: Actitud  hacia el entorno (Act_Entorno): Es un constructo que mide el grado en el 
que el estudiante se encuentra cómodo, satisfecho o feliz con el entorno que lo rodea en el centro 
educativo, incluyendo su relación con los docentes. Está conformado de cuatro variables: 
 
 Apoyo del profesor de matemáticas (matap): Cuatro ítems fueron utilizados para 
medir este constructo. La escala de respuesta es: Totalmente de acuerdo, de acuerdo, 
en desacuerdo, totalmente en desacuerdo. Dos ejemplos de estos ítems son los 
siguientes: 
a. Mi profesor nos da ayuda extra cuando la necesitamos. 
b. Mi profesor da oportunidad a los estudiantes para que expresen sus opiniones. 
 Relaciones estudiante profesor (stud): Cuatro ítems fueron utilizados las relaciones 
entre el estudiante con los profesores de su centro educativo. La escala de respuesta 
es: Totalmente de acuerdo, de acuerdo, en desacuerdo, totalmente en desacuerdo. 
Dos ejemplos de estos ítems son los siguientes: 
a. La mayoría de los profesores se interesan en el bienestar de los estudiantes. 
  
 
70 
 
b. Los estudiantes se llevan bien con la mayoría de los profesores. 
 Actitud hacia el centro educativo (acti): Cuatro ítems fueron utilizados para medir este 
constructo, que se relaciona con la actitud del estudiante hacia el centro de enseñanza 
al que asiste. La escala de respuesta es: Totalmente de acuerdo, de acuerdo, en 
desacuerdo, totalmente en desacuerdo. Dos ejemplos de estos ítems son los 
siguientes: 
a. El colegio ha sido una pérdida de tiempo. 
b. El colegio me ha enseñado cosas que pueden ser útiles en un trabajo. 
 Sentido de pertenencia al centro educativo (pert): Nueve ítems fueron utilizados para 
medir este constructo, que se relaciona con el sentido propio del estudiante de 
pertenencia a su colegio. La escala de respuesta es: Totalmente de acuerdo, de 
acuerdo, en desacuerdo, totalmente en desacuerdo. Dos ejemplos de estos ítems son 
los siguientes: 
a. El colegio me siento incómodo y fuera de lugar. 
b. En el colegio hago amigos fácilmente. 
 
 
 Constructo 5: Familiaridad con conceptos matemáticos (matconc): Es un constructo que mide el 
nivel de familiaridad del estudiante con conceptos matemáticos. Es un constructo previamente 
calculado por PISA (FAMCON), por lo que sería incluido al modelo como una única variable. Sin 
embargo, el índice está formado por trece ítems que miden la familiaridad auto percibida del 
estudiante a algunos conceptos matemáticos como la función exponencial, función cuadrática, 
divisor, número racional, coseno, y otros. La escala de respuesta es: Nunca oí hablar de eso, Oí 
hablar de eso una o dos veces, He oído hablar de eso algunas veces, He oído hablar de eso 
frecuentemente, Lo conozco bien y entiendo el concepto. 
 
 
 
 Constructo 6: Rendimiento en matemáticas (Rendimiento): Es un constructo que evalúa en una 
escala latente la competencia matemática de los estudiantes. Está conformado por los cinco 
valores plausibles de la evaluación de matemáticas de la prueba PISA 2012 (y1-y5 en la figura 
siguiente). 
 
 
La siguiente figura muestra la forma en que se relacionan estructuralmente los constructos recién 
explicados. Interesa particularmente las relaciones del estrato socioeconómico con el rendimiento 
educativo, tanto su relación directa, como sus relaciones indirectas a través de los antecedentes 
educativos y la actitud del estudiante: 
 
 
 
 
 
 
 
 
 
 
  
 
71 
 
Figura 5 Relación entre factores del modelo de ecuaciones estructurales a ser estimado con datos de la 
evaluación PISA 2012 
 
 
 
 
 
4.2.5.2. Constructos definidos para el nivel entre grupos 
 
Constructo 1: Calidad de recursos educativos: Es un constructo compuesto de tres indicadores 
mediante el cual el director del centro educativo evalúa la capacidad de los principales recursos 
educativos con los que cuenta el centro educativo. 
 Escasez de personal docente (TCHORT): Es un constructo compuesto de cuatro indicadores 
mediante el cual el director del centro educativo indicaba si la capacidad de su escuela para 
proporcionar educación se ve obstaculizada por falta de personal calificado en ciencias, 
matemáticas, idiomas u otras materias. 
 Calidad de los recursos educativos del centro educativo (SCMATEDU): El índice de los recursos 
educativos de la escuela se calculó sobre la base de seis ítems que miden las percepciones de 
los directores de la escuela sobre los posibles factores que obstaculizan la instrucción en la 
escuela. Estos incluyen carencia de laboratorios equipados adecuadamente, de materiales 
educativos, computadoras para fines pedagógicos, conexión a internet, software educativo y 
libros. 
 Calidad de la infraestructura física (SCMATBUI): Mide la percepción del centro educativo de 
factores que potencialmente podrían afectar el proceso educativo relacionado con 
infraestructura. Incluye edificios escolares y terrenos, sistemas de iluminación y calefacción o 
enfriamiento, y espacios educativos como aulas y talleres. 
 
  
 
72 
 
Constructo 2: Clima escolar: Es un constructo compuesto por dos sub constructos para medir el 
clima escolar del centro educativo en sus dos ejes principales: estudiantes y docentes. 
 Factores relacionados con los estudiantes que afectan el clima escolar (STUDCLIM): Incluye 
ausentismo escolar, estudiantes escapando de clases, llegadas tardías de los estudiantes, la no 
asistencia a eventos obligatorios, falta de respeto a los docentes, uso de alcohol o drogas 
ilegales y bullying. 
 Factores relacionados con los docentes que afectan el clima escolar (TEACCLIM):  Este índice 
incluye aspectos relacionados con la relación de docentes hacia estudiantes que podrían afectar 
el proceso educativo, como pobres relacionados entre estudiantes y docentes, clases 
compuestas por estudiantes con distintas habilidades, bajas expectativas de los docentes para 
con los estudiantes, docentes que no atienden las necesidades educativas individuales, 
ausentismo docente, resistencia al cambio de parte del personal docente, entre otros.. 
 
Constructo 3: Calidad docente: Es un constructo compuesto de dos indicadores mediante el cual el 
director del centro educativo indica su percepción respecto a dos variables clave del 
desenvolvimiento de sus docentes: 
 Moral docente (TCMORALE): Es un constructo compuesto de cuatro indicadores mediante el 
cual el director del centro educativo indica su percepción respecto de la moral de los docentes, 
el entusiasmo de los mismos, el orgullo de los docentes de trabajar en la institución y si estos 
valoran los resultados académicos sobre otros factores. 
 Focalización docente (TCFOCST): Mediante este índice se indica si los docentes de matemáticas 
están interesados en probar nuevos métodos y prácticas de enseñanza en sus clases; además, 
si existe o no consenso entre los docentes de matemáticas sobre la necesidad de adaptar los 
estándar académicos al nivel de los estudiantes y sus necesidades. 
 
La relación que fue modelada entre estos tres constructos en el nivel superior es de asociación 
directa con el rendimiento académico. 
 
  
 
73 
 
5. Resultados 
5.1. Resultados del estudio de simulación 
 
Esta sección presenta los hallazgos para las simulaciones realizadas según el diseño que fue descrito 
en la sección 4.1. Se analizan los resultados obtenidos al evaluar tres puntos: 
1. La estabilidad de las estimaciones de los parámetros. 
2. La cantidad de sesgo introducida en las estimaciones de los parámetros. 
3. El ajuste y comparación de los modelos mediante el cómputo del P-value predictivo a 
posteriori. 
 
Para la estabilidad de las estimaciones de los parámetros, fue examinada la posición de la 
distribución de las estimaciones producidas en las simulaciones y la raíz cuadrada del error 
cuadrático medio asociado a cada parámetro. Para la cantidad de sesgo en las estimaciones, fue 
calculada la diferencia entre el valor dado del parámetro y el valor estimado, de forma que se 
puedan apreciar las desviaciones -o no- del valor de la pendiente desde el cual se simulan los datos. 
Finalmente, el cambio en el ajuste de los modelos se evaluará mediante el cómputo de la 
probabilidad asociada a la prueba cociente de verosimilitudes del modelo nulo respecto del modelo 
irrestricto (haciendo uso del  P-value predictivo a posteriori). 
 
Es importante aclarar que no fueron explicados los resultados en términos de la convergencia de los 
distintos modelos debido a que todas las replicaciones requeridas convergieron  para todas las 
condiciones de estimación Bayesiana. Sin embargo, la convergencia requirió más iteraciones para 
los modelos con las distribuciones a priori difusas y las muestras con menor número de 
observaciones. 
 
5.1.1 Estabilidad de las estimaciones de los parámetros 
 
Todos los modelos estimados comparten la estructura factorial presentada en la figura 1 (sección 
4.1.1). Los parámetros de interés de esa estructura factorial no se limitan a las cargas factoriales, 
sino que incluyen las siguientes partes (entre paréntesis se muestra el número de parámetros 
estimados libremente en cada caso): 
 Las cargas factoriales directas (4) 
 Las cargas factoriales cruzadas (6) 
 El parámetro estructural (1) 
 Las varianzas residuales de las variables indicadoras (6) 
 Las varianza residual del factor 1 y la varianza factorial del factor 2 (2) 
 
En total, el modelo general contiene 19 parámetros de interés. La estrategia principal consiste en la 
comparación de resultados para los tres tipos de distribuciones a priori con las que fueron 
modeladas las cargas factoriales cruzadas (difusa, débilmente informativa, informativa). Además, 
resulta de interés comparar la estabilidad para cuatro tamaños de muestra distintos y con tres 
distintos valores de la fuerza del coeficiente de correlación intraclase. 
 
La estrategia indicada en el párrafo anterior fue replicada para seis distintos escenarios de 
modelación de las distribuciones a priori del resto de parámetros a estimar (parámetros de 
regresión y de varianza).  
  
 
74 
 
 
Finalmente, los 19 parámetros de interés fueron estimados tanto en el nivel dentro de grupos como 
en el nivel superior entre grupos, es decir, cada uno fue estimado en los dos niveles, por lo que en 
total de cada modelo podrían ser analizados 38 parámetros: 19 del nivel inferior y 19 del nivel 
superior. 
 
Dada la elevada cantidad de modelos que fueron estimados y la gran cantidad de parámetros que 
pudieran ser analizados y reportados, y con el objetivo de reducir en la medida de lo posible la 
cantidad de información que debe ser visualizada, será presentado el resultado de los parámetros 
según las 5 agrupaciones enumeradas anteriormente, en lugar de presentar resultados para los 19 
parámetros individuales. De esta forma, en el caso de las 4 cargas factoriales directas, no se 
mostrarán los resultados de estabilidad y sesgo de cada uno, sino que será presentado el resultado 
del parámetro con la menor estabilidad o con el mayor sesgo posible, como referencia para 
comentar sobre ese agrupamiento en particular. 
 
La estrategia de presentación consiste en separar el análisis según el nivel de agrupamiento (nivel 
inferior y nivel superior) para los seis escenarios de modelación de las distribuciones a priori de 
todos los parámetros de regresión y de varianza. Así, cada gráfico incluye de forma agrupada, los 
resultados de los 12 modelos estimados bajo esas condiciones particulares (3 ICC x 4 tamaños de 
grupo) y cada sub gráfico compara visualmente las estimaciones condicionadas a esas características 
según el tipo de distribución a priori establecido para las cargas factoriales cruzadas (difusas, 
débilmente informativas e informativas). Es decir, cada gráfico muestra 36 modelos. 
 
5.1.1.1 Las distribuciones de las estimaciones de los parámetros 
 
Para la evaluación de la estabilidad primero se examinaron, en cada escenario, las distribuciones de 
las estimaciones de los parámetros mediante gráficos que muestran el intervalo de credibilidad de 
cada parámetro. Estos resultados se muestran de forma completa en los anexos 2 y 3. 
 
 
5.1.1.1.1 Nivel inferior (dentro de grupos) 
 
Los gráficos 1 al 6 del anexo 2 muestran que, manteniendo lo demás constante, el uso de 
distribuciones a priori informativas en las cargas factoriales cruzadas mejora la precisión con la que 
son estimados los parámetros de las cargas factoriales directas, ya que el intervalo de credibilidad 
al 95% de estas estimaciones se reduce consistentemente al aumentar la cantidad de información 
en las varianzas cruzadas. 
 
Estas mejoras son incluso más pronunciadas cuando se toma en cuenta el tamaño de la muestra, ya 
que entre mayor número de datos menor es el intervalo de credibilidad del parámetro, 
especialmente en los casos con gran número de grupos. Finalmente, se aprecian algunas bondades 
el aumentar el coeficiente de correlación intraclase de 0.02 a 0.05, no así en el cambio a 0.40. 
 
Además, entre menos informativas sean las distribuciones a priori del resto de parámetros de 
interés, también mayor amplitud tendrán los intervalos de credibilidad. 
 
  
 
75 
 
En cuanto a la estimación de las propias cargas factoriales cruzadas (gráficos 7 al 12), es claro que 
el uso de varianzas difusas en sus distribuciones a priori produce malos resultados tanto en términos 
de su precisión como en su sesgo, lo cual se mantiene para las distintas combinaciones de 
escenarios, empeorando sus resultados conforme lo esperado: menor tamaño de muestra, menor 
correlación intraclase y menor información en la distribución a priori del resto de parámetros de 
interés. 
 
La estimación del parámetro estructural del modelo simulado muestra un comportamiento similar 
al ya comentado, pero con el agravante de que el uso de informaciones a priori difusas en las cargas 
factoriales cruzadas producen muy pobres resultados y, en general, el parámetro estructural no 
logra ser recuperado adecuadamente en estos casos (gráficos 13 a 18). 
 
En el caso de las varianzas residuales, los intervalos de credibilidad mejoran según lo esperado dados 
los escenarios (a mayores tamaños de muestra, a mayor coeficiente de correlación intraclase), pero 
de entrada la varianza de sus estimaciones es mayor que la del resto de parámetros, exacerbando 
la dispersión en el caso del coeficiente de correlación intraclase más bajo (0.02). 
 
Las varianzas factoriales, por su parte, presentan poca precisión en sus estimaciones (lo cual se 
comentará en mayor detalle en el análisis de la raíz cuadrada del error cuadrático medio), pero llama 
la atención que en este caso el patrón se invierte, y es en los casos con mayor tamaño de muestra 
en donde la dispersión se acentúa y produce grandes intervalos de credibilidad, particularmente 
bajo la condición de varianzas a priori difusas en las cargas factoriales cruzadas. 
 
 
5.1.1.1.2 Nivel superior (entre grupos) 
 
En el anexo 3 se muestran los 30 gráficos correspondientes a las estimaciones de los parámetros 
para el nivel superior dentro de la jerarquía del modelo (gráficos 31 al 60). Como es esperable de 
acuerdo con la teoría, el nivel de precisión y el sesgo de las estimaciones es más elevado en el nivel 
superior del modelo comparado con el nivel inferior, por lo cual el análisis de este nivel tendrá un 
peso mayor en la elaboración de las conclusiones con base en los resultados de las simulaciones. 
 
A nivel general, la estimación Bayesiana con varianzas a priori informativas en las cargas factoriales 
cruzadas presenta resultados superiores a los de las demás condiciones de estimación en el nivel 
entre grupos. Sin embargo, sí existen variaciones en cuanto al nivel de sesgo dependiendo del tipo 
de parámetro. 
 
Para el parámetro de cargas factoriales directas (cuyo valor poblacional es de 1) el sesgo de las 
estimaciones es pequeño, es decir, el intervalo de credibilidad se encuentra bastante centrado el 
nivel del valor poblacional, pero el nivel de precisión empeora bastante en comparación con el nivel 
dentro de grupos. 
 
En el caso de los parámetros estimados en el escenario 1 (que incluye las distribuciones a priori más 
informativas para el resto de parámetros de varianza y regresión) el nivel de precisión es similar 
tanto para distintos tamaños de muestra como entre los distintos valores de la correlación 
intraclase. No obstante, a medida que disminuye la información en la varianza de la distribución a 
priori de estos otros parámetros distintos a las cargas factoriales cruzadas (escenarios 2 al 6), la 
  
 
76 
 
precisión empeora aún más, particularmente en el caso de distribuciones a priori poco informativas 
en las cargas factoriales cruzadas. 
 
Es decir, para este parámetro, únicamente una distribución a priori informativa en las cargas 
factoriales cruzadas garantiza niveles aceptables de precisión de la estimación para cualquier 
escenario simulado. 
 
La estimación de las cargas factoriales cruzadas no es de interés en sí misma, sin embargo, el anexo 
3 muestra que la distribución a priori difusa genera resultados indeseables tanto en sesgo como en 
precisión. 
 
En cuanto al parámetro estructural, el escenario 1 (que agrega un nivel de información superior a la 
estimación de parámetros) muestra estimaciones poco sesgadas y con aceptable nivel de precisión, 
e incluso este nivel de precisión es poco sensible a otras variaciones del modelo (prácticamente no 
cambia en los distintos tamaños de muestra, ni ante variaciones en el ICC), pero sí resulta sensible 
a la cantidad de información aportada a la varianza de la distribución a priori de las cargas factoriales 
cruzadas (produciendo mejores resultados a mayor información). 
 
Contrario a lo que se observó en la estimación dentro de grupos, donde las varianzas residuales 
mostraron una alta dispersión bajo los escenarios relacionados al coeficiente de correlación 
intraclase de 0.02, en el caso del modelo entre grupos tanto la precisión como el sesgo mostraron 
pobres resultados para los escenarios de un coeficiente de correlación intraclase de 0.40. 
 
Las varianzas factoriales tuvieron el mismo comportamiento (peores resultados para el ICC=0.4), 
pero maximizado en el hecho de que, para distribuciones a priori difusas en las cargas factoriales 
cruzadas, el parámetro ni siquiera logró ser recuperado (es decir, el intervalo de credibilidad no 
incluye el valor poblacional) 
 
En los casos anteriores (varianza residual y factorial) la estimación mediante distribución a priori 
muy informativa en la carga factorial cruzada produjo resultados similares al uso de información 
débilmente informativa. 
 
 
  
 
77 
 
5.1.1.2 Raíz cuadrada del error cuadrático medio en los parámetros 
 
La Raíz Cuadrada del error cuadrático medio (RMSE, siglas en inglés) se muestra en las tablas 1 a la 
6 para el nivel dentro de grupos, y tablas 7 a la 12 para el nivel dentro de grupos. 
 
5.1.1.2.1 Nivel inferior (dentro de grupos) 
El RMSE o la desviación estándar de los residuales es una medida de qué tan lejos están los puntos 
de datos de la línea de regresión; el RMSE es una medida de la dispersión de estos residuos. Este 
puede ser interpretado como una medida de la dispersión de las estimaciones con respecto a su 
valor poblacional. 
 
En las tablas siguientes (tablas 1 a 6) se muestran los resultados de esta medida para cuatro tipos 
de parámetros: la carga factorial directa, la carga factorial cruzada, el parámetro estructural y la 
varianza residual (incluyendo la varianza factorial). 
 
Al igual que con el caso de las distribuciones de las estimaciones, para presentar el RMSE se recurre 
a mostrar el valor más alto para cada tipo de parámetro dentro del mismo escenario. Además, se 
establece el umbral de 0.5 como medida arbitraria para evidenciar en cuáles casos se obtiene una 
pobre estimación del parámetro. 
 
En el caso del nivel dentro de grupos, el RMSE mostró altos valores en los parámetros de carga 
factorial cruzada, parámetro estructural y varianza residual, pero únicamente cuando la distribución 
a priori de la carga factorial cruzada es difusa. Sólo en el escenario 6 las cargas factoriales directas 
también presentaron algunos inconvenientes con el valor del RMSE, especialmente para tamaños 
de muestra pequeños y con un ICC bajo (0.02). 
 
En general, el RMSE cuando la distribución a priori de la carga factorial cruzada es débilmente 
informativo o informativo presenta un buen comportamiento. 
 
Tabla 3 Error cuadrático medio de las estimaciones del parámetro, según Información en la varianza de la distribución a 
priori de las cargas factoriales cruzadas, Tamaño de Muestra y Coeficiente de Correlación Intraclase. (Nivel dentro de 
grupos, escenario 1) 
 
  
 
78 
 
 
Tabla 4 Error cuadrático medio de las estimaciones del parámetro, según Información en la varianza de la distribución a 
priori de las cargas factoriales cruzadas, Tamaño de Muestra y Coeficiente de Correlación Intraclase. (Nivel dentro de 
grupos, escenario 2) 
 
 
 
Tabla 5 Error cuadrático medio de las estimaciones del parámetro, según Información en la varianza de la distribución a 
priori de las cargas factoriales cruzadas, Tamaño de Muestra y Coeficiente de Correlación Intraclase. (Nivel dentro de 
grupos, escenario 3) 
 
  
 
79 
 
Tabla 6 Error cuadrático medio de las estimaciones del parámetro, según Información en la varianza de la distribución a 
priori de las cargas factoriales cruzadas, Tamaño de Muestra y Coeficiente de Correlación Intraclase. (Nivel dentro de 
grupos, escenario 4) 
 
 
 
Tabla 7 Error cuadrático medio de las estimaciones del parámetro, según Información en la varianza de la distribución a 
priori de las cargas factoriales cruzadas, Tamaño de Muestra y Coeficiente de Correlación Intraclase. (Nivel dentro de 
grupos, escenario 5) 
 
 
  
 
80 
 
Tabla 8 Error cuadrático medio de las estimaciones del parámetro, según Información en la varianza de la distribución a 
priori de las cargas factoriales cruzadas, Tamaño de Muestra y Coeficiente de Correlación Intraclase. (Nivel dentro de 
grupos, escenario 6) 
 
 
 
5.1.1.2.2 Nivel superior (dentro de grupos) 
Los resultados encontrados en este nivel son similares a los presentados para el nivel dentro de 
grupos. A lo largo de todas las condiciones de estimación que fueron simuladas, las estimaciones 
Bayesianas con distribuciones a priori débilmente informativas e informativas en las cargas 
factoriales cruzadas mostraron valores pequeños del RMSE consistentemente. Para la estimación 
Bayesiana con distribución a priori difusa, el RMSE estuvo negativamente asociado al número de 
grupos, el tamaño de los grupos y el ICC. 
 
La carga factorial cruzada fue la única que presentó altos valores de RMSE para el escenario de 
mayor información suministrada al modelo (escenario 1) mientras que entre menor información se 
ingresaba al mismo en distintos parámetros, se presentaban altos valores también para el 
parámetro estructural. Sólo en el caso del escenario 6 (el de menor información) la carga factorial 
directa también mostró altos valores de RMSE. 
 
  
 
81 
 
 
Tabla 9 Error cuadrático medio de las estimaciones del parámetro, según Información en la varianza de la distribución a 
priori de las cargas factoriales cruzadas, Tamaño de Muestra y Coeficiente de Correlación Intraclase. (Nivel entre grupos, 
escenario 1) 
 
 
Tabla 10 Error cuadrático medio de las estimaciones del parámetro, según Información en la varianza de la distribución 
a priori de las cargas factoriales cruzadas, Tamaño de Muestra y Coeficiente de Correlación Intraclase. (Nivel entre 
grupos, escenario 2) 
 
 
  
 
82 
 
Tabla 11 Error cuadrático medio de las estimaciones del parámetro, según Información en la varianza de la distribución 
a priori de las cargas factoriales cruzadas, Tamaño de Muestra y Coeficiente de Correlación Intraclase. (Nivel entre 
grupos, escenario 3) 
 
 
Tabla 12 Error cuadrático medio de las estimaciones del parámetro, según Información en la varianza de la distribución 
a priori de las cargas factoriales cruzadas, Tamaño de Muestra y Coeficiente de Correlación Intraclase. (Nivel entre 
grupos, escenario 4) 
 
 
 
  
 
83 
 
 
Tabla 13 Error cuadrático medio de las estimaciones del parámetro, según Información en la varianza de la distribución 
a priori de las cargas factoriales cruzadas, Tamaño de Muestra y Coeficiente de Correlación Intraclase. (Nivel entre 
grupos, escenario 5) 
 
 
 
Tabla 14 Error cuadrático medio de las estimaciones del parámetro, según Información en la varianza de la distribución 
a priori de las cargas factoriales cruzadas, Tamaño de Muestra y Coeficiente de Correlación Intraclase. (Nivel entre 
grupos, escenario 6) 
 
 
  
 
84 
 
5.1.2 Sesgos en las estimaciones de los parámetros 
 
Las estimaciones frecuentistas usualmente producen bajos niveles de recuperación del parámetro 
en valores bajos del ICC, y mejoran cuando este valor se incrementa hasta cierto umbral, ya que en 
valores altos de ICC también muestra malos ajustes (Depaoli & Clifton, 2015). Para la estimación 
Bayesiana, la cobertura estuvo inversamente relacionada a la fuerza del ICC (se obtuvieron mayores 
niveles de recuperación de los parámetros en los niveles inferiores del ICC y a menores tamaños de 
muestra). 
 
Nivel inferior (dentro de grupos) 
En el caso de las cargas factoriales directas, los niveles de recuperación fueron consistentemente 
altos (superiores a 0.95) en la mayoría de escenarios simulados. Pero para las cargas factoriales 
cruzadas y el parámetro estructural, únicamente los casos con distribución a priori informativa en 
la carga factorial cruzada muestran niveles aceptables de recuperación del parámetro en todos los 
escenarios. El parámetro de varianza residual y factorial no logró obtener niveles aceptables de 
recuperación del parámetro para los escenarios simulados. 
 
 
 
Tabla 15 Porcentaje de recuperación de las estimaciones del parámetro, según Información en la varianza de la 
distribución a priori de las cargas factoriales cruzadas, Tamaño de Muestra y Coeficiente de Correlación Intraclase. (Nivel 
dentro de grupos, escenario 1) 
 
  
 
85 
 
Tabla 16 Porcentaje de recuperación de las estimaciones del parámetro, según Información en la varianza de la 
distribución a priori de las cargas factoriales cruzadas, Tamaño de Muestra y Coeficiente de Correlación Intraclase. (Nivel 
dentro de grupos, escenario 2) 
 
 
 
 
Tabla 17 Porcentaje de recuperación de las estimaciones del parámetro, según Información en la varianza de la 
distribución a priori de las cargas factoriales cruzadas, Tamaño de Muestra y Coeficiente de Correlación Intraclase. (Nivel 
dentro de grupos, escenario 3) 
 
 
  
 
86 
 
Tabla 18 Porcentaje de recuperación de las estimaciones del parámetro, según Información en la varianza de la 
distribución a priori de las cargas factoriales cruzadas, Tamaño de Muestra y Coeficiente de Correlación Intraclase. (Nivel 
dentro de grupos, escenario 4) 
 
 
 
Tabla 19 Porcentaje de recuperación de las estimaciones del parámetro, según Información en la varianza de la 
distribución a priori de las cargas factoriales cruzadas, Tamaño de Muestra y Coeficiente de Correlación Intraclase. (Nivel 
dentro de grupos, escenario 5) 
 
 
  
 
87 
 
Tabla 20 Porcentaje de recuperación de las estimaciones del parámetro, según Información en la varianza de la 
distribución a priori de las cargas factoriales cruzadas, Tamaño de Muestra y Coeficiente de Correlación Intraclase. (Nivel 
dentro de grupos, escenario 6) 
 
 
 
Nivel superior (dentro de grupos) 
Para este nivel se puede apreciar que la cobertura fue buena para todos los niveles de distribución 
a priori débilmente informativa a valores bajos del ICC (Tablas 19 a 24). Sin embargo, esta cobertura 
disminuye conforme el ICC se incrementa, siendo más pronunciado este efecto para las 
distribuciones a priori débilmente informativas en donde las varianzas del nivel entre grupos fueron 
especificadas como Γ−1(0.001,0.001) comparadas con las distribuciones a priori débilmente 
informativas en donde la dicha varianza fue especificada como Γ−1(−1,0). 
 
 
Tabla 21 Porcentaje de recuperación de las estimaciones del parámetro, según Información en la varianza de la 
distribución a priori de las cargas factoriales cruzadas, Tamaño de Muestra y Coeficiente de Correlación Intraclase. (Nivel 
entre grupos, escenario 1) 
 
 
 
  
 
88 
 
Tabla 22 Porcentaje de recuperación de las estimaciones del parámetro, según Información en la varianza de la 
distribución a priori de las cargas factoriales cruzadas, Tamaño de Muestra y Coeficiente de Correlación Intraclase. (Nivel 
entre grupos, escenario 2) 
 
 
 
Tabla 23 Porcentaje de recuperación de las estimaciones del parámetro, según Información en la varianza de la 
distribución a priori de las cargas factoriales cruzadas, Tamaño de Muestra y Coeficiente de Correlación Intraclase. (Nivel 
entre grupos, escenario 3) 
 
 
  
 
89 
 
Tabla 24 Porcentaje de recuperación de las estimaciones del parámetro, según Información en la varianza de la 
distribución a priori de las cargas factoriales cruzadas, Tamaño de Muestra y Coeficiente de Correlación Intraclase. (Nivel 
entre  grupos, escenario 4) 
 
 
 
 
Tabla 25 Porcentaje de recuperación de las estimaciones del parámetro, según Información en la varianza de la 
distribución a priori de las cargas factoriales cruzadas, Tamaño de Muestra y Coeficiente de Correlación Intraclase. (Nivel 
entre grupos, escenario 5) 
 
  
 
90 
 
 
Tabla 26 Porcentaje de recuperación de las estimaciones del parámetro, según Información en la varianza de la 
distribución a priori de las cargas factoriales cruzadas, Tamaño de Muestra y Coeficiente de Correlación Intraclase. (Nivel 
dentro entre grupos, escenario 6) 
 
 
 
  
 
91 
 
 
5.1.3 Bondad de ajuste de los modelos 
 
 
Como fue explicado en la sección 4.1.4, para evaluar el ajuste global del modelo se recurrirá al 
cómputo de la probabilidad asociada a la prueba cociente de verosimilitudes del modelo nulo 
respecto del modelo irrestricto haciendo uso del P-value predictivo a posteriori (PPP). Esta 
probabilidad no se comporta como un p-value para una prueba chi-cuadrado de ajuste de modelos, 
sino que es más similar a un índice de ajuste de un SEM (como el RMSEA) que a una prueba chi-
cuadrado. 
 
En la actualidad, no existe teoría aún sobre cuáles podrían ser los umbrales para considerar distintas 
categorías de ajuste del modelo (como pobre ajuste, aceptable o excelente). No obstante, más allá 
de esa categorización, para esta tesis el interés se centra sobre cuáles modelos muestran un mejor 
ajuste, por lo que únicamente se analizará el cambio o la comparación del valor para distintos 
modelos. 
 
Para efectos de simplicidad en la presentación, seguidamente sólo se muestran tres de los seis 
escenarios simulados para el nivel inferior o dentro de grupos, ya que los resultados fueron similares 
para los restantes escenarios. 
 
Los gráficos 1, 2 y 3 muestran en términos generales que el uso de una distribución a priori 
fuertemente informativa en las cargas factoriales cruzadas produce mayores valores del PPP.  
 
En el escenario 1, que presenta las distribuciones a priori más informativas para todos los 
parámetros del modelo, la diferencia en el ajuste al comparar las distribuciones a priori en las cargas 
factoriales cruzadas se maximiza, ya que para los casos en los que se utilizan distribuciones difusas 
o débilmente informativas el ajuste no solo es relativamente bajo, sino similar entre ambos casos. 
Este hecho se refuerza incluso para las condiciones de pequeños tamaños de muestra, pequeño 
número de grupos y bajos valores del ICC, lo que significa que cuando las condiciones de simulación 
son más propicias para realizar estimación frecuentista (gran tamaño de muestra, gran número de 
grupos, altos valores del ICC) las diferencias se reducen, pero se mantiene la tendencia de mejor 
ajuste en el caso de distribuciones a priori informativas en las cargas factoriales cruzadas. Sin 
embargo, entre menos información se incluya en la estimación de los demás parámetros (escenarios 
3 y 6), el ajuste bajo las condiciones de distribución a priori difusa en las cargas factoriales cruzadas 
empeora notoriamente, sin importar otros elementos (como mayor tamaño de muestra). 
 
Bajo estos escenarios, el ajuste al comparar distribuciones a priori en las cargas factoriales cruzadas 
débilmente informativas y difusas tiende a ser similar, especialmente para grandes muestras y 
valores del ICC; sin embargo, se refuerza el hecho de que cuando se tienen pocos datos, un pequeño 
número de grupos y valores bajos del ICC, el uso de distribuciones a priori muy informativas en las 
cargas factoriales cruzadas sí produce mejores ajustes del modelo global. 
 
  
 
92 
 
Gráfico 1 PPP-Value, escenario 1: Intervalo de credibilidad del P-value Predictivo a Posteriori, según información en la 
varianza de la distribución a priori de las Cargas Factoriales Cruzadas, Tamaño de la Muestra y Coeficiente de Correlación 
Intralclase 
 
 
Gráfico 2 PPP-Value, escenario 3: Intervalo de credibilidad del P-value Predictivo a Posteriori, según información en la 
varianza de la distribución a priori de las Cargas Factoriales Cruzadas, Tamaño de la Muestra y Coeficiente de Correlación 
Intralclase 
 
  
 
93 
 
Gráfico 3 PPP-Value, escenario 6: Intervalo de credibilidad del P-value Predictivo a Posteriori, según información en la 
varianza de la distribución a priori de las Cargas Factoriales Cruzadas, Tamaño de la Muestra y Coeficiente de Correlación 
Intralclase 
 
 
 
 
 
 
 
  
 
94 
 
 
5.2 Caso aplicado 
 
El caso empírico se analizó siguiendo los lineamiento de la sección 4.2.5, donde se especificó que la 
relación de distintos factores latentes sobre el rendimiento educativo de los estudiantes 
costarricenses de 15 años de edad participantes en la evaluación PISA del año 2012. Además de la 
medición de habilidades y conocimientos de los estudiantes mediante una prueba escrita, PISA 
también realiza cuestionarios para recolectar información que permita analizar y contextualizar 
adecuadamente los resultados de las pruebas. Se aplican cuestionarios a los estudiantes (Student 
Questionnaire for PISA 2012) para obtener información sobre aspectos del hogar y la familia. 
Asimismo, se aplican cuestionarios a los directores de cada centro educativo (School Questionnaire 
for PISA 2012) para obtener información específica sobre los aspectos propios de la infraestructura 
del centro educativo, cantidad y preparación del personal docente, entre otros aspectos.  
 
Los valores del rendimiento de los estudiantes en las evaluaciones de PISA son considerados como 
variables latentes continuas, lo que significa que se tratan como cantidades que son medibles pero 
para las que no existe un instrumento de medida, ya que los ítems no son evaluados con 
puntuaciones específicas, sino que PISA define escalas a partir de las cuales se realizan las 
comparaciones. Así, para facilitar la interpretación de las notas asignadas a los estudiantes, las 
escalas en lectura, matemáticas y ciencias fueron diseñadas para tener una nota promedio de 500 
puntos y una desviación estándar de 100 puntos para los países miembros de la OECD. Esto significa 
que cerca de dos tercios de los estudiantes de países miembros de la OECD obtienen notas entre los 
400 y 600 puntos (OECD, 2009). A estos valores del rendimiento de los estudiantes se les llama 
valores plausibles. 
 
Como ha sido explicado, la modelación multinivel es necesaria cuando existe dependencia de las 
unidades del primer nivel en relación con los conglomerados en los que se agrupan. En los datos 
analizados para Costa Rica, es posible calcular el coeficiente de correlación intraclase (CCI). Este es 
de 0,468, el cual es un resultado bastante alto, y evidenciando una alta dependencia de la 
variabilidad de los resultados académicos de acuerdo con la agrupación en los centros educativos. 
Este resultado muestra las grandes desigualdades que existen en los centros educativos del país y 
que terminan incidiendo en la distribución de los resultados educativos. 
 
Fueron modeladas relaciones tanto en el nivel inferior como superior. Es decir, en el nivel inferior 
fue modelada la relación de cinco factores latentes recolectados a nivel del estudiante sobre el 
resultado individual de cada uno de los estudiantes en la evaluación de alfabetización matemática, 
mientras que en el nivel superior fue modelada la relación de tres factores latentes recolectados a 
nivel de centro educativo sobre el rendimiento medio del centro educativo. 
 
El objetivo de la modelación del caso aplicado mediante modelos de ecuaciones estructurales 
consiste en evaluar la consistencia interna del modelo hipotetizado, es decir, si los constructos 
definidos realmente capturan el factor latente que se intenta modelar, así como la relación entre 
los distintos factores sobre el rendimiento educativo. 
 
Pero más allá de ese resultado, los hallazgos obtenidos en esta investigación sugieren que la 
estimación del modelo SEM multinivel mediante métodos Bayesianos y permitiendo que algunas 
cargas factoriales cruzadas sean estimadas libremente produce ganancias en términos del ajuste del 
  
 
95 
 
modelo particularmente, sin detrimento de otros elementos de interés como el valor puntual de las 
estimaciones de las cargas, las varianzas y otros parámetros del modelo. 
 
Por lo anterior, el modelo planteado fue estimado bajo dos escenarios: el primer escenario 
corresponde al enfoque tradicional, de delimitar las cargas factoriales cruzadas a ser exactamente 
iguales a cero (parámetros fijos), mientras que el segundo escenario corresponderá al modelo en el 
cual se introducirá la estimación de cargas factoriales cruzadas con una distribución a priori 
distribuida normalmente con media cero y una varianza muy pequeña, siguiendo el enfoque BSEM 
explicado en la sección 2.5. 
 
Seguidamente se explicarán los resultados obtenidos analizando cada sección del modelo estimado 
por separado, pero comparando simultáneamente los dos escenarios descritos en el párrafo 
anterior. 
 
En cuanto al ajuste del modelo, el indicador utilizado es el PPP. Si bien aún no se cuenta con la 
suficiente evidencia empírica para establecer valores de corte para definir lo que puede ser 
considerado como buen ajuste, entre mayor sea su valor (varía entre cero y uno) mejor es el ajuste 
del modelo. 
 
En el caso del escenario 1, sin liberación en la estimación de las cargas factoriales cruzadas, el PPP 
obtenido fue de 0.271, mientras que para el escenario 2 el PPP se incrementa hasta 0.334. 
 
El resultado anterior efectivamente muestra un incremento en la bondad del ajuste global del 
modelo. El escenario 2 incluye cargas factoriales cruzadas con varianzas pequeñas en la distribución 
a priori de todos los factores latentes independientes del modelo (cinco en el nivel dentro de grupos, 
tres en el nivel entre grupos).  
 
Al evaluar las cargas factoriales en el nivel dentro de grupos, se obtienen los resultados que se 
muestran en la Tabla 27. Lo más destacado de dicha tabla son las altas cargas factoriales que se 
muestran en cuatro de los cinco constructos, con excepción del constructo de antecedentes 
educativos. 
 
Todos los coeficientes se muestran en valores estandarizados, por lo que estas cargas factoriales 
superiores a 0.70 en valor absoluto muestran que las relaciones hipotetizadas y planteadas en 
conjunto con expertos en el área sí se encuentran acorde con la estructura de datos observada en 
PISA. 
 
En el caso del constructo de antecedentes educativos, que incluye las variables indicadores de 
asistencia a educación preescolar y de repitencia en educación primaria o secundaria, los resultados 
indican que ambas variables no corresponden al mismo constructo, es decir, que no aportan 
variabilidad sobre el mismo factor latente, lo cual no era esperable al asumir que ambas variables, 
al medir hechos ocurridos previamente en el historial del estudiante, podrían corresponder a un 
constructo similar. 
 
 
Tabla 27 Comparación de las estimaciones de las cargas factoriales de los factores latentes del modelo dentro de grupos 
  
 
96 
 
Variable Escenario 1 Escenario 2
Factor latente
Indicadora Estimación Posterior SD P-value Sig Estimación Posterior SD P-value Sig
Antecedentes ANT1 1,000 0,000 0,000 1,000 0,000 0,000
educativos ANT2 -0,160 0,045 0,000 *** 0,056 0,072 0,209
EC1 1,000 0,000 0,000 1,000 0,000 0,000
Extracción EC2 0,720 0,021 0,000 *** 0,788 0,035 0,000 ***
socioeconómica EC3 0,762 0,023 0,000 *** 0,735 0,042 0,000 ***
EC4 0,839 0,025 0,000 *** 0,781 0,044 0,000 ***
ACTP1 1,000 0,000 0,000 1,000 0,000 0,000
Actitud personal ACTP2 -0,812 0,044 0,000 *** -0,856 0,064 0,000 ***
hacia las ACTP3 0,906 0,053 0,000 *** 0,798 0,073 0,000 ***
matemáticas ACTP4 0,694 0,050 0,000 *** 0,831 0,071 0,000 ***
ACTP5 0,764 0,055 0,000 *** 0,798 0,075 0,000 ***
ACTEN1 1,000 0,000 0,000 1,000 0,000 0,000
Actitud hacia el ACTEN2 0,746 0,066 0,000 *** 0,792 0,072 0,000 ***
entorno ACTEN3 0,816 0,081 0,000 *** 0,836 0,106 0,000 ***
ACTEN4 0,862 0,081 0,000 *** 0,896 0,094 0,000 ***
Conocimientos 
FAMCON 1,000 0,000 0,000 1,000 0,000 0,000
matemáticos
PV1 1,000 0,000 0,000 1,000 0,000 0,000
PV2 0,990 0,009 0,000 *** 0,990 0,009 0,000 ***
PV3 0,961 0,010 0,000 *** 0,961 0,010 0,000 ***
Alfabetización 
PV4 0,960 0,010 0,000 *** 0,960 0,010 0,000 ***
matemática
PV5 0,988 0,010 0,000 *** 0,988 0,010 0,000 ***
PV6 0,932 0,010 0,000 *** 0,933 0,011 0,000 ***
PV7 0,943 0,010 0,000 *** 0,944 0,010 0,000 ***
Posterior SD: Desviación estándar del intervalo de credibilidad de las estimaciones a posteriori
Sig: Nivel de significancia al 1% ***, 5%*.  
 
 
Tabla 28 Cargas factoriales cruzadas con estimaciones distintas del parámetro cero (Escenario 2) 
Variable Escenario 2
Factor latente
Indicadora Estimación Posterior SD P-value Sig
Extracción ACTP1 0,171 0,041 0,000 ***
Socioeconómica FAMCON 0,203 0,072 0,000 ***
Actitud Personal hacia 
FAMCON 0,160 0,073 0,000 ***
el centro educativo
ANT1 0,215 0,086 0,000 ***
Actitud hacia el 
ACTP4 0,131 0,067 0,000 ***
entorno
FAMCON 0,362 0,077 0,000 ***
ANT1 -0,256 0,073 0,000 ***
ANT2 -0,129 0,055 0,000 ***
Conocimientos EC2 0,122 0,071 0,000 ***
matemáticos ACTP2 -0,141 0,068 0,000 ***
ACTP4 -0,197 0,064 0,000 ***
ACTP5 -0,135 0,066 0,000 ***  
 
 
  
 
97 
 
La tabla 28 es un complemento a la tabla 27. Esta muestra la estimación final resultante de la 
liberación de parámetros que en el escenario 1 han sido fijados como cero, pero que en el escenario 
2 se han modelado con una distribución a priori que los define como parámetros aproximadamente 
iguales a cero. 
 
Lo esperable era que todas las cargas factoriales cruzadas tuvieran estimaciones cercanas a cero o 
cuyo intervalo de credibilidad incluyera el cero. Al descartar todos los casos con estimaciones 
inferiores al valor estimado de 0.10, se obtiene lo que se observa en la tabla 28. 
 
Esta tabla muestra que, a pesar de que teóricamente la relación entre esas variables indicadoras y 
el constructo latente era nula (no se hipotetizaba relación alguna), dados los datos observados sí se 
halló evidencia de algún tipo de relación débil. 
 
Esto sucedió particularmente en el caso del constructo de conocimientos matemáticos, que muestra 
un alto grado de asociación  con las variables indicadores del constructo de antecedentes educativos  
y de actitud personal hacia las matemáticas. 
 
Esto plantea un reto adicional para la aplicación del enfoque BSEM, ya que la evidencia muestra que 
las relaciones planteadas muestran una ligera desviación con respecto a lo indicado por el 
investigador. 
 
Finalmente, en cuanto a las relaciones estructurales planteadas en el modelo, de relación directa 
entre los cinco constructos y la alfabetización matemática, se muestran altos valores de los 
parámetros de regresión para los constructos de extracción socioeconómica, actitud personal hacia 
las matemáticas, actitud hacia el entorno y conocimientos matemáticos. En el caso de los 
antecedentes educativos, la relación es más débil con respecto a los demás constructos. 
 
Tabla 29 Estimación de los parámetros estructurales del nivel dentro de grupos 
Escenario 1 Escenario 2
Parámetro
Estimación Posterior SD P-value Sig Estimación Posterior SD P-value Sig
Antecedentes educativos 0,071 0,020 0,000 *** 0,031 0,025 0,000 ***
Extracción socioeconómica 0,358 0,016 0,000 *** 0,398 0,020 0,000 ***
Actitud personal hacia matemáticas 0,303 0,013 0,000 *** 0,337 0,017 0,000 ***
Actitud hacia el entorno 0,284 0,019 0,000 *** 0,316 0,024 0,000 ***
Conocimientos matemáticos 0,242 0,017 0,000 *** 0,269 0,021 0,000 ***  
 
 
 
Para el modelo superior (entre grupos) la tabla 28 muestra altas cargas factoriales en los tres 
constructos definidos para este modelo, con una tendencia a mayores cargas en el caso del 
escenario 2. 
 
 
 
 
 
 
 
  
 
98 
 
Tabla 30 Comparación de las estimaciones de las cargas factoriales de los constructos del modelo entre grupos 
Variable Escenario 1 Escenario 2
Factor latente
Indicadora Estimación Posterior SD P-value Sig Estimación Posterior SD P-value Sig
TCHORT 1,000 0,000 0,000 1,000 0,000 0,000
Calidad recursos 
SCMATEDU 0,935 0,236 0,000 *** 0,956 0,208 0,000 ***
educativos
SCMATBUI 0,905 0,226 0,000 *** 0,946 0,202 0,000 ***
STUDCLIM 1,000 0,000 0,000 1,000 0,000 0,000
Clima escolar
TEACCLIM 0,763 0,114 0,000 *** 0,882 0,095 0,000 ***
TCMORALE 1,000 0,000 0,000 1,000 0,000 0,000
Calidad docente
TCFOCST 0,773 0,175 0,000 *** 0,668 0,113 0,000 ***
PVSCH1 1,000 0,000 0,000 1,000 0,000 0,000
PVSCH2 0,980 0,022 0,000 *** 0,981 0,022 0,000 ***
PVSCH3 0,933 0,024 0,000 *** 0,932 0,024 0,000 ***
Alfabetización 
PVSCH4 0,915 0,027 0,000 *** 0,914 0,028 0,000 ***
matemática
PVSCH5 0,919 0,029 0,000 *** 0,919 0,029 0,000 ***
PVSCH6 0,969 0,017 0,000 *** 0,970 0,018 0,000 ***
PVSCH7 0,943 0,027 0,000 *** 0,941 0,027 0,000 ***  
 
 
En cuanto a las cargas factoriales cruzadas, únicamente en uno de los casos se obtuvo una 
estimación superior a 0.10 en valor absoluto, en el constructor de clima escolar con la carga cruzada 
de escasez de personal docente (del constructo de calidad en los recursos educativos). 
 
Los parámetros estructurales, por su parte, muestran también relaciones altas en la estimación de 
los parámetros de regresión, superiores a 0.30 en los tres constructos de este nivel. 
 
 
 
  
 
99 
 
 
6 Conclusiones 
Siguiendo la metodología propuesta por Muthén & Asparouhov (2012), esta investigación 
incursionó en una discusión reciente en la comunidad científica en el contexto de modelos de 
ecuaciones estructurales Bayesianos multinivel (ML-BSEM). 
 
En la última década se ha discutido el uso de varianzas muy pequeñas en las distribuciones a priori 
de las cargas factoriales cruzadas en el contexto de la estimación de modelos de análisis factorial 
confirmatorio o de ecuaciones estructurales con enfoque Bayesiano. 
Tradicionalmente, las investigaciones que incursionan en el uso del análisis factorial confirmatorio 
establecen las cargas factoriales cruzadas como iguales a cero, queriendo indicar con esto que el 
indicador particular no tiene ninguna relación con el factor latente o constructo para el cual la carga 
factorial ha sido establecida como exactamente igual a cero. 
Sin embargo, las variables indicadoras rara vez son indicadores de construcción perfectamente 
puros, especialmente en el estudio de las ciencias sociales, lo que implica que se pueden presentar 
niveles significativos de asociación con múltiples constructos. 
Por tal razón, en esta tesis se abordó este tema al plantear modelos en los que fue liberada la 
estimación de parámetros en las cargas factoriales cruzadas. Este nuevo enfoque busca mantener 
los pilares básicos de la investigación no exploratoria, en el sentido de que no se trata de ajustar las 
relaciones hipotetizadas por el investigador para obtener mejoras en la estimación del modelo, sino 
que lo que se busca es aprovechar las ventajas de la estimación Bayesiana para mejorar el ajuste del 
modelo sin modificar las hipótesis del investigador, al variar la estimación de parámetros de ceros 
exactos por estimación de parámetros aproximadamente iguales a cero, mediante el uso de 
distribuciones a priori con varianzas sumamente pequeñas en la estimación de dichos parámetros. 
 
Los resultados obtenidos en esta investigación refuerzan el hecho ampliamente comprobado de que 
la estimación Bayesiana puede ser utilizada para obtener estimaciones admisibles en situaciones en 
que la estimación frecuentista tiende a fallar. Si bien no fueron estimados modelos mediante 
métodos frecuentistas, todos los modelos estimados en esta tesis con enfoque Bayesiano 
convergieron sin importar el número de grupos en la estructura jerárquica, el tamaño de los grupos 
o la fuerza del coeficiente de correlación intraclase utilizada. 
 
El objetivo general de esta investigación era el de comparar el desempeño de modelos de 
ecuaciones estructurales Bayesiano multinivel según distintos escenarios de estimación de las 
cargas factoriales cruzadas. Para hacer esto, fueron establecidos tres niveles de información a 
introducir en la varianza de las cargas factoriales cruzadas (poco informativa, débilmente 
informativa e informativa), siendo uno de estos el de interés para validar el enfoque propuesto por 
los Muthén & Asparouhov (2012), de utilizar una distribución a priori con varianza muy pequeña o 
sumamente informativa. 
 
La comprobación de la hipótesis en un contexto más amplio requirió la generación de un estudio de 
simulación con distintos factores y niveles. El estudio permitió mostrar que, en el nivel inferior (o 
dentro de grupos) el uso de distribuciones a priori informativas en las cargas factoriales cruzadas 
  
 
100 
 
mejora la precisión con la que son estimados los parámetros principales (cargas factoriales directas 
y parámetros estructurales), ya que el intervalo de credibilidad al 95% de estas estimaciones se 
reduce consistentemente al aumentar la cantidad de información en las varianzas cruzadas. 
 
Estas mejoras son incluso más pronunciadas cuando se toma en cuenta el tamaño de la muestra, ya 
que entre mayor número de datos menor es el intervalo de credibilidad del parámetro, 
especialmente en los casos con gran número de grupos. Además, entre menos informativas sean las 
distribuciones a priori del resto de parámetros de interés, también mayor amplitud tendrán los 
intervalos de credibilidad. 
 
El RMSE mostró altos valores en la mayoría de parámetros de interés cuando la distribución a priori 
de la carga factorial cruzada es difusa. En general, el RMSE cuando la distribución a priori de la carga 
factorial cruzada es débilmente informativa o informativa presenta un buen comportamiento 
(valores bajos). 
 
En cuanto a los niveles de recuperación del parámetro, estos fueron consistentemente altos 
(superiores a 0.95) en la mayoría de escenarios simulados para el parámetro de cargas factoriales 
directas. Pero para las cargas factoriales cruzadas y el parámetro estructural, únicamente los casos 
con distribución a priori informativa en la carga factorial cruzada muestran niveles aceptables de 
recuperación del parámetro en todos los escenarios. El parámetro de varianza residual y factorial 
no logró obtener niveles aceptables de recuperación del parámetro para los escenarios simulados. 
 
En el nivel superior jerárquico o entre grupos, a nivel general la estimación Bayesiana con varianzas 
a priori informativas en las cargas factoriales cruzadas presenta resultados muy superiores a los de 
las demás condiciones de estimación en el nivel entre grupos. Sin embargo, sí existen variaciones 
en cuanto al nivel de sesgo dependiendo del tipo de parámetro. 
 
Al analizar el RMSE de las estimaciones en este nivel, a lo largo de todas las condiciones que fueron 
simuladas, las estimaciones Bayesianas con distribuciones a priori débilmente informativas e 
informativas en las cargas factoriales cruzadas mostraron valores pequeños del RMSE 
consistentemente. Para la estimación Bayesiana con distribución a priori difusa, el RMSE estuvo 
inversamente asociado al número de grupos, el tamaño de los grupos y el ICC. 
 
Finalmente, en cuanto al ajuste global del modelo, y mediante el uso del PPP-Value, el ajuste al 
comparar distribuciones a priori en las cargas factoriales cruzadas débilmente informativas y difusas 
tiende a ser similar cuando se cuenta un alto grado de información en la estimación de otros 
parámetros del modelo, especialmente para grandes muestras y valores del ICC; sin embargo, se 
refuerza el hecho de que cuando se tienen pocos datos, un pequeño número de grupos y valores 
bajos del ICC, el uso de distribuciones a priori muy informativas en las cargas factoriales cruzadas sí 
produce mejores ajustes del modelo global. 
 
Se puede afirmar que, de forma consistente, el uso de distribuciones a priori con varianza pequeña 
o muy informativa en las cargas factoriales cruzadas produce mejores resultados bajo distintas 
condiciones de estimación de los modelos de ecuaciones estructurales multinivel, por lo que esta 
investigación aporta evidencia para que este enfoque pueda ser replicada en otras investigaciones 
que busquen obtener ganancias en la estimación de modelos de ecuaciones estructurales 
Bayesianos multinivel. Sin embargo, hasta que se hayan realizado más investigaciones para 
establecer métodos adecuados en las ciencias sociales para determinar el tamaño exacto de los 
  
 
101 
 
hiperparámetros de varianza en las distintas distribuciones a priori, es recomendable que los 
investigadores interesados en un enfoque bayesiano de SEM multinivel siempre realicen un análisis 
de sensibilidad para determinar en qué medida las estimaciones del modelo dependen de supuestos 
previos. 
 
 
  
 
102 
 
7 Referencias 
Albert, J. (2009). Bayesian computation with R. Springer. Second edition. 
Asparouhov, T., & Muthén, B. (2010). Bayesian analysis of latent variable models using Mplus 
(Mplus Technical Report). Retrieved from 
statmodel.com/download/BayesAdvantages18.pdf. 
Asparouhov, T., & Muthén, B. (2012). Bayesian exploratory factor analysis. No publicado. 
Asparouhov, T., & Muthén, B. (2019). Bayes Parallel Computation: Choosing the number of 
processors. Mplus project. 
Asparouhov, T., Muthén, B., & Morin, A. (2015). Bayesian Structural Equation Modeling With 
Cross-Loadings and Residual Covariances: Comments on Stromeyer et al. Journal of 
Management, Vol. XX No. X, Month XXXX 1–17. 
Babenko, O., Alves, C., & Bahry, L. (2012). Using Structural Equation Modeling to Investigate 
Students’ Career Awareness in Science. Canadian Journal for New Scholars in Education. 
Volume 4, Issue 1. 
Banerjee, A., Cole, S., & Duflo, E. (2007). Remedying Education: Evidence from Two Randomized 
Experiments in India. Quarterly Journal of Economics 122 (3): 1235-64. 
Barrera-Osorio, F., & Linden, L. (2009). The Use and Misuse of Computers in Education: Evidence 
from a Randomized Experiment in Colombia. Policy Research Working Paper Series. 
Washington, DC: World Bank. 
Bauer, D. J. (2003). Estimating multilevel linear models as structural models. Journal of Educational 
and Behavioral Statistics, 28, 135–167. 
Bentler, P. M., & Liang, J. (2003). Two-level mean and covariance structures: Maximum likelihood 
via and EM algorithm. In S. P. Reise & N. Duan (Eds.), Multilevel modeling: Methodological 
advances, issues, and applications (pp. 53–70). Hillsdale, NJ: Erlbaum. 
Beuermann, D., Cristia, D., Cruz-Aguayo, J., Cueto, S., & Malamud, O. (2015). Home computers and 
child outcomes: Short-term impacts from a randomized experiment in Peru. American 
Economic Journal: Applied Economics, 7(2), 53-80. 
Brooks, S., & Gelman, A. (1998). General methods for monitoring convergence of iterative 
simulations. Journal of Computational and Graphical Statistics, 7, 434–455. 
Brown, T. A. (2006). Confirmatory Factor Analysis for Applied Research. New York: the Guilford 
Press. 
  
 
103 
 
Coleman, J. (1966). Equality of Educational Opportunity. Washington D.C.: UD Deparment of 
Education. 
Cristia, J. (2012). Technology and child development: evidence from the one laptop per child 
program. IDB Working Paper Series, N° 304, Washington, D.C., Department of Research 
and Chief Economist, Banco Interamericano de Desarrollo. 
Cristia, J., Czerwonko, A., & Garofalo, P. (2010). Does ict Increase Years of Education? Evidence 
from Peru. ove Working Papers, N° 110, Washington, D.C., Banco Interamericano de 
Desarrollo. 
Curran, P. J. (2003). Have multilevel models been structural equation models all along? 
Multivariate Behavioral Research, 38, 529–569. 
Depaoli, S., & Clifton, J. (2015). A bayesian approach to Multilevel Structural Equation Modeling 
with Continuos and Dichotomous Outcomes. Structural Equation Modeling: A 
multidisciplinary Journal. 
Díaz Porras, R., & Jiménez Rodríguez, R. (1980). Consideraciones económicas sobre el sistema 
educativo costarricense. Tesis para optar al grado de licenciatura, San José, Facultad de 
Ciencias Económicas, Universidad de Costa Rica. 
Diya, L., Li, B., Heede, K., Sermeus, W., & Lesaffre, E. (2013). Multilevel factor analytic models for 
assessing the relationship between nurse-reported adverse events and patient safety. 
Journal of the Royal Statistical Society: Series A (Statistics in Society). 
du Toit, S., & du Toit, M. (2003). Multilevel structural equation modeling. In J. De Leeuw & I. G. G. 
Kreft (Eds.), Handbook of quantitative multilevel analysis (pp. 273–321). Boston: Kluwer. 
Duflo, E., & Banerjee, A. (2017). Handbook of Field Experiments. Volume 1. North Holland. 
Fernández Aráuz, A. (2013). Análisis de la Resiliencia Educativa de los estudiantes costarricenses 
con datos de la Prueba de Lectura de la Evaluación PISA 2009. Revista de Ciencias 
Económicas Vol 31. N°2. ISSN: 0252-9521. Universidad de Costa Rica. 
Fernández Aráuz, A. (2014). La influencia del acceso al uso de computadoras en edad temprana 
sobre el rendimiento en matemáticas. Revista de Ciencias Económicas 32-No.2: 2014 / 
113-125 / ISSN: 0252-9521. Universidad de Costa Rica. 
Fernández Aráuz, A., & Del Valle Alvarado, R. (2013). Desigualdad Educativa en Costa Rica: La 
brecha entre los estudiantes de colegios públicos y privados. Revista CEPAL N°111. 
Fernández, A. (2017). Un modelo de ecuaciones estructurales bayesiano: aplicación al rendimiento 
matemático en PISA 2012. Revista Estadística Española. Volumen 59, número 192 / 2017, 
5-27. 
  
 
104 
 
Finch, W. H., Bolin, J. E., & Kelley, K. (2014). Multilevel Modeling using R. Chapman & Hall/CRC 
statistics in the social and behavioral sciences. 
Finch, W., & French, B. (2011). Estimation of MIMIC model parameters with multilevel data. 
Structural Equation Modeling, 18, 229–252. 
Geman, S., & Geman, D. (1984). Stochastic relaxation, Gibbs distribution and the Bayesian 
restoration of images. IEEE Transactions on Pattern Analysis and Machine Intelligence, 6, 
721–741. 
Geyer, C. (1992). Practical Markov chain Monte Carlo. Statistical Science, 7, 473–511. 
Giménez, G., Arias R, R., Castro A, G., Fernández, L. J., Ospina P, N., & Sánchez, L. (2014). ¿Por qué 
los estudiantes de colegios públicos y privados de Costa Rica obtienen distintos resultados 
académicos? Quinto Informe del Estado de la Educación. Programa Estado de la Nación en 
Desarrollo Humano Sostenible. 
Glewwe, P., Hanushek, E., Humpage, S., & Ravina, R. (2011). School Resources and Educational 
Outcomes in Developing Countries: A Review of the Literature from 1990 to 2010. NBER 
Working Papers 17554, National Bureau of Economic Research, Inc. DOI: 
10.7208/chicago/9780226078854.001.0001. 
Glewwe, P., Kremer, M., & Moulin, S. (2009). Many Children Left Behind? Textbooks and Test 
Scores in Kenya." American Economic Journal: Applied Economics 1 (1): 112-35. 
Goldstein, H., Bonnet, G., & Rocher, T. (2007). Multilevel Structural Equation Models for the 
Analysis of Comparative Data on Educational Performance. Journal of Educational and 
Behavioral Statistics. Vol. 32, No. 3, pp. 252–286. 
Hallquist, M., & Wiley, J. (2018). MplusAutomation: An R Package for Facilitating Large-Scale 
Latent Variable Analyses in Mplus. Structural Equation Modeling, 25, 621-638. doi: 
10.1080/10705511.2017.1402334. 
Hanushek, E. (1986). The economics of Shooling. Journal of Economic Literature 24(3), 1141-77. 
Hoijtink, H., & van de Schoot, R. (2017). Testing Small Variance Priors Using Prior-Posterior 
Predictive P-values. Department of Methodology and Statistics, Utrecht University. 
Holzinger, K., & Swineford, F. (1939). A study in factor analysis: The stability of a bifactor solution. 
Supplementary educational monographs. Chicago, IL: University of Chicago. 
Hox, J. J., & Maas, C. J. (2001). The accuracy of multilevel structural equation modeling with 
pseudobalanced groups and small samples. Structural Equation Modeling, 8, 157–174. 
doi:10.1207/S15328007SEM0802_l. 
  
 
105 
 
James, L., Mulaik, S., & Brett, J. (1982). Causal analysis: Assumptions, models and data. Beverly 
Hills, CA: Sage. 
Joreskog, K. (1969). A general approach to confirmatory maximum likelihood factor analysis. 
Psychometrika, 34, 183-202. 
Jöreskog, K. G., & Sörbom, D. (1993). LISREL 8. Structural Equation Modeling with the SIMPLIS 
Command Language. Chicago. Lawrence Erlbaum Associates Publishers. 
Kaplan, D. (2009). Structural equation modeling: foundations and extensions. Segunda edición. 
Thousand Oaks, CA: Sage. 
Kaplan, D., & Su, D. (2015). Context Questionnaire Rotation and Imputation with Implications for 
Estimation of Plausible Values in Large-Scale Assessments. University of Connecticut, 
Connecticut, United States.: Modern Modeling Methods Conference 2015. 
Kaplan, D., Kim, J., & Kim, S. (2009). Multilevel latent variable modeling: Current research and 
recent developments. In R. E. Millsap & A. Maydeu-Olivares (Eds.). The Sage handbook of 
quantitative methods in psychology (pp. 592–612). Thousand Oaks, CA: Sage. 
Kass, R., & Raftery, A. (1995). Bayes factors. Journal of the American Statistical Association, 90, 
773–795. 
Kim, M., & Song, J. (2010). A Confirmatory Structural Equation Model of Achievement Estimated by 
Dichotomous Attitudes, Interest, and Conceptual Understanding. Eurasia Journal of 
Mathematics, Science & Technology Education, 2010, 6(4), 271-285. 
Lee, S. Y. (2007). Structural Equation Modeling: A Bayesian Approach. Wiley Series in probability 
and statistics. 
Lee, S. Y., & Shi, J. Q. (2001). Maximum likelihood estimation of two-level latent variable models 
with mixed continuous and polytomous data. Biometrics, 57, 787–794. 
Lee, S., & Song, X. (2001). Hypothesis Testing and Model Comparison in Two-level Structural 
Equation Models. Multivariate Behavioral Research, 36 (4), 639-655. The Chinese 
University of Hong Kong. 
Lee, S., Poon, W., & Bentler, P. (1990). Full maximum likelihood analysis of structural equation 
models with polytomous variables. Statistics and Probability Letters, 9, 91–97. 
Li, X., & Beretvas, S. (2013). Sample size limits for estimating upper level mediation models using 
multilevel SEM. Structural Equation Modeling, 20, 241–264. 
doi:10.1080/10705511.2013.769391. 
Little, J. (2013). Multilevel confirmatory ordinal factor analysis of the life skills profile. Psychological 
Assessment. Advance online publication. 
  
 
106 
 
Little, T., & Card, N. (2013). Longitudinal Structural Equation Modeling (Methodology in the Social 
Sciences. New York: Guilford Press. March 25, 2013. 
Lüdtke, O., Marsh, H. W., Robitzsch, A., & Trautwein, U. (2011). A 2×2 taxonomy of multilevel 
latent contextual models: Accuracy-bias trade-offs in full and partial error correction 
models. Psychological Methods, 16, 444–467. doi:10.1037/a0024376. 
Lüdtke, O., Marsh, H. W., Robitzsch, A., Trautwein, U., Asparouhov, T., & Muthén, B. (2008). The 
multilevel latent covariate model: A new, more reliable approach to group-level effects in 
contextual studies. Psychological Methods, 13, 203–229. doi:10.1037/a0012869. 
MacCallum, R., & Edwards, M. (2012). Hopes and Cautions in Implementing Bayesian Structural 
Equation Modeling. Psychological Methods. Vol. 17, No. 3, 340–345. 
Malamud, O., & Pop-Eleches, C. (2011). Home computer use and the development of human 
capital. The Quarterly Journal of Economics, 126, 987-1027. 
MEP. (2010). Informe Nacional Pruebas Nacionales Diagnósticas de II Ciclo de la Educación General 
Básica, 2008. San José, Costa Rica: Dirección de Gestión y Evaluación de la Calidad, 
Departamento de Evaluación Académica y Certificación, Ministerio de Educación Pública. 
MEP. (2012). Informe Nacional de Factores Asociados al Rendimiento Académico en las Pruebas 
Nacionales Diagnósticas, III Ciclo de la Educación General Básica, 2010. San José, Costa 
Rica: Dirección de Gestión y Evaluación de la Calidad, Departamento de Evaluación 
Académica y Certificación, Ministerio de Educación Pública. 
Metha, P., & Neale, M. (2005). People are variables too: Multilevel structural equations modeling. 
Psychological Methods, 10(3), 259-284. doi: 10.1037/1082-989x.10.3.259. 
Montero, E. (2012). Los modelos de ecuaciones estructurales como herramienta para explorar 
posibles relaciones causales en investigación educativa: Una ilustración con datos de PISA 
2009 en Costa Rica. Aporte Especial. Cuatro Informe del Estado de la Educación. Programa 
Estado de la Nación en Desarrollo Humano Sostenible. 
Montero, E., Rojas, S., & Zamora, E. (2014). Costa Rica En Las Pruebas Pisa 2012. Quinto Informe 
del Estado de la Educación. Programa del Estado de la Nación en Desarrolo Humano 
Sostenible. 
Montero, E., Rojas, S., Zamora, E., & Rodino, A. (2013). Costa Rica en las pruebas PISA 2009 de 
Competencia Lectora y Alfabetización Matemática. Cuarto Informe del Estado de la 
Educación: Programa Estado de La Nación en Desarrollo Humano Sostenible. 
Moreira Mora, T. (2009). Factores endógenos y exógenos asociados al rendimiento en matemática: 
Un análisis multinivel. Revista Educación, vol. 33, N° 2, San José, Universidad de Costa Rica. 
  
 
107 
 
Morselli, D., Spini, D., & Devos, T. (2012). Human values and trust in institutions across countries: A 
multilevel test of Schwartz’s hypothesis of structural equivalence. Survey Research 
Methods, 6, 49–60. 
Mulaik, S. A. (2009). Linear causal modeling with structural equations. New York: CRC Press Taylor 
& Francis Group. 
Muralidharan, K., & Sundararaman, V. (2008). Contract Teachers: Experimental Evidence from 
India. JPAL Working Paper, MIT. 
Muthén, B. (1989). Latent variable modeling in heterogeneous populations. Psychometrika, 54, 
557–585. 
Muthén, B. (1991). Multilevel factor analysis of class and student achievement components. 
Journal of Educational Measurement, 28, 338–354. 
Muthén, B. (1994). Multilevel covariance structure analysis. Sociological Methods & Research, 22, 
376–398. 
Muthén, B., & Asparouhov, T. (2012 (1)). Bayesian SEM: A more representation of substantive 
theory. Psychological Methods, 17, 313-335. 
Muthén, B., & Asparouhov, T. (2012 (2)). Rejoinder to MacCallum, Edwards, and Cai (2012) and 
Rindskopf (2012): Mastering a New Method. Psychological Methods. Vol. 17, No. 3, 346–
353. 
Muthén, B., & Asparouhov, T. (2013(1)). BSEM Measurement Invariance Analysis. Mplus Web 
Notes: No. 17. January 11, 2013. Los Angeles: Mutén & Muthén. www.statmodel.com. 
Muthén, B., & Asparouhov, T. (2013(2)). New Methods for the Study of Measurement Invariance 
with Many Groups. www.statmodel.com. 
Muthén, L., & Muthén, B. ((1998-2015)). Mplus User’s Guide. Seventh Edition. Los Angeles, CA: 
Muthén & Muthén. 
Oaxaca, R. (1973). Male-Female Wage Differentials in Urban Labor Markets. International 
Economic Review, 14(3), 693-709. 
OECD. (2009). PISA Data Analysis Manual, SPSS Second Edition. OECD Publishing. 
OECD. (2012). PISA Technical Report. OECD Publishing. 
OECD. (2013). PISA 2012 Assessment and Analytical Framework: Mathematics, Reading, Science, 
Problem Solving and Financial Literacy. OECD Publishing. 
http://dx.doi.org/10.1787/9789264190511-en. 
  
 
108 
 
Olson, U. (1979). Maximum likelihood estimation of the polychoric correlation coefficient. 
Psychometrika. 44, 443–460. 
Oviedo, Y. (2012). Factores asociados al rendimiento académico en Matemática en el III ciclo de la 
Educación General Básica; Un estudio multinivel. Estado de la Nación. Costa Rica: CONARE. 
Preacher, K., Zyphur, M., & Zhang, Z. (2010). A general multilevel SEM framework for assessing 
multilevel mediation. multilevel mediation. 
Press, S. J. (2003). Subjective and objective bayesian statistics. Wiley Series in Probabiliby and 
Statistics. Second edition. 
Rabe-Hesketh, S., Skrondal, A., & Pickles, A. (2004). Generalized multilevel structural equation 
modelling. Psychometrika 69, 167-190. 
Rabe-Hesketh, S., Skrondal, A., & Zheng, X. (2012). Multilevel structural equation modeling. In R. H. 
Hoyle (Ed.), Handhook of structural equation modeling (pp. 512–531). New York, NY: 
Guilford. 
Raudenbush, S., & Bryk, A. (2002). Hierarchical linear models: Applications and data analysis 
methods. Newbury Park, CA: Sage. (2nd ed). 
Rindskopf, D. (2012). Next steps in Bayesian structural equation models: Comments on, variations 
of, and extensions to Muthen and Asparouhov (2012). Psychological Methods, 17(3), 336–
339. 
Rojas Torres, L. (2014). Construcción y validación del índice de calidad de la gestión de la educación 
secundaria mediante el análisis factorial confirmatorio. Tesis para optar el grado de 
Maestría Académica en Estadística; Universidad de Costa Rica. 
Rojas, L. (2004). Factores Asociados a la Repitencia de los y las Estudiantes que Cursan Sétimo Año 
en Colegios Académicos, Diurnos y Públicos: Un Análisis de Niveles Múltiples. Tesis 
doctoral. San José, Costa Rica: Universidad Estatal a Distancia. 
Rovine, M. J., & Molenaar, P. C, P. C. (2000). A structural modeling approach to a multilevel 
random coefficients model. Multivariate Behavioral Research, 35, 51–88. 
Salas, O. (2012). Constructo “Alfabetización Matemática”, según PISA. Cuarto Informe del Estado 
de la Educación. Programa Estado de la Nación en Desarrollo Humano Sostenible. 
Song, X.-Y., & Lee, S.-Y. (2012). Basic and Advanced Bayesian Structural Equation Modeling. Wiley 
Series in probability and statistics. 
Stromeyer, W., Miller, J., Sriramachandramurthy, R., & DeMartino, R. (2015). The prowess and 
pitfalls of Bayesian structural equation modeling: Important considerations for 
management research. Journal of Management, 41: 491-520. 
  
 
109 
 
Tan, J.-P., Lane, J., & Lassibille, G. (1999). Student Outcomes in Philippine Elementary Schools: An 
Evaluation of Four Experiments. World Bank Economic Review 13 (3): 493-508. 
Thomas, A., & OHara, R. (2004). Openbugs.  
Urzúa, S., & Veramendi, G. (2011). The Impact of Out-of-Home Child Care Centers on Early 
Childhood Development. Department of Research and Chief Economist, Working Paper 
Series N°. IDB-WP-240. Inter-American Development Bank. 
van Buuren, S., & Groothuis-Oudshoorn, K. (2011). mice: Multivariate Imputation by Chained 
Equations in R. Journal of Statistical Software, 45(3), 1-67. URL 
http://www.jstatsoft.org/v45/i03/. 
Vegas, E., & Petrow, J. (2007). Raising Student Achievement in Latin America: The Challenge for the 
21st Century. Washington, D.C.: Latin American Development Forum. Banco Mundial. 
Walker, M. (2011). PISA 2009 Plus Results: Performance of 15-year old in reading, mathematics 
and science for 10 additional participants. Australian Council for Educational Research. 
Zyphur, M., & Oswald, F. (2015). Bayesian estimation and inference: A user’s guide. Journal of 
Management, 41: 390-420. 
  
 
110 
 
8 Anexos 
Anexo 1 Distribuciones condicionales 
 
Usando 𝜃 y 𝑊  para denotar un parámetro desconocido y una matriz de covarianzas 
desconocida, respectivamente; y usando   𝑝( ∙ ), 𝐸( ∙ )  y  𝑉𝑎𝑟( ∙ )  para denotar la función de 
densidad, la esperanza y la varianza, respectivamente: 
 
1. Distribución Gamma:    
𝜃~𝐺𝑎𝑚𝑚𝑎[𝛼, 𝛽] 
𝛽𝛼
𝑝(𝜃) = 𝜃(𝛼−1)𝑒−𝛽𝜃 
Γ(𝛼)
𝐸(𝜃) = 𝛼⁄𝛽 
𝑉𝑎𝑟(𝜃) = 𝛼⁄  𝛽2
2. Distribución Gamma invertida: 
𝜃~𝐼𝐺[𝛼, 𝛽] 
𝛽𝛼
𝑝(𝜃) = 𝜃−(𝛼+1)𝑒−𝛽/𝜃 
Γ(𝛼)
𝛽
𝐸(𝜃) =  
(𝛼 − 1)
𝛽2
𝑉𝑎𝑟(𝜃) =  
(𝛼 − 1)2(𝛼 − 2)
3. Relación entre la distribución Gamma y la distribución Gamma invertida: 
Si    𝜃~𝐼𝐺[𝛼, 𝛽],  entonces   𝜃−1~𝐺𝑎𝑚𝑚𝑎[𝛼, 𝛽] 
4. Distribución Wishart: 
𝑊~𝑊𝑞[𝑅0, 𝜌0] 
𝑞 −1
𝜌0𝑞 𝑞(𝑞−1) 𝜌0 + 1 − 𝑖
𝑝(𝑊) = [2 2 𝜋 4 ∑Γ( )]  
2
𝑖=1
1
×  |𝑅 |−𝜌0/20   ×  |𝑊|
(𝜌0−𝑞−1)   ×   exp {− 𝑡𝑟(𝑅−10 𝑊)} 2
𝐸(𝑊) = 𝜌0𝑅0 
 
5. Distribución Wishart invertida: 
 
𝑊~𝐼𝑊 [𝑅−1𝑞 0 , 𝜌0] 
  
 
111 
 
𝑞 −1
𝜌0𝑞 𝑞(𝑞−1) 𝜌0 + 1 − 𝑖
𝑝(𝑊) = [2 2 𝜋 4 ∑Γ( )]  
2
𝑖=1
1
×  |𝑅 −𝜌0/20|   ×   |𝑊|
−(𝜌0−𝑞−1)   ×   exp {− 𝑡𝑟(𝑅−10 𝑊
−1)} 
2
𝑅−10
𝐸(𝑊) =  
𝜌0 − 𝑞 − 1
 
 
6. Relación entre la distribución Wishart y la distribución Wishart invertida: 
 
Si   𝑊~𝐼𝑊[𝑅−10 , 𝜌0],  entonces   𝑊
−1~𝑊[𝑅0, 𝜌0] 
 
  
 
112 
 
Anexo 2: Gráficos de dispersión del nivel dentro de grupos 
Gráfico 4 Cargas factoriales directas, escenario 1: Intervalo de credibilidad de las estimaciones del parámetro, según 
Información en la varianza de la distribución a priori de las cargas factoriales cruzadas, Tamaño de Muestra y Coeficiente 
de Correlación Intraclase. (Nivel dentro de grupos) 
 
Gráfico 5 Cargas factoriales directas, escenario 2: Intervalo de credibilidad de las estimaciones del parámetro, según 
Información en la varianza de la distribución a priori de las cargas factoriales cruzadas, Tamaño de Muestra y Coeficiente 
de Correlación Intraclase. (Nivel dentro de grupos) 
 
  
 
113 
 
Gráfico 6 Cargas factoriales directas, escenario 3: Intervalo de credibilidad de las estimaciones del parámetro, según 
Información en la varianza de la distribución a priori de las cargas factoriales cruzadas, Tamaño de Muestra y Coeficiente 
de Correlación Intraclase. (Nivel dentro de grupos) 
 
 
Gráfico 7 Cargas factoriales directas, escenario 4: Intervalo de credibilidad de las estimaciones del parámetro, según 
Información en la varianza de la distribución a priori de las cargas factoriales cruzadas, Tamaño de Muestra y Coeficiente 
de Correlación Intraclase. (Nivel dentro de grupos) 
  
 
114 
 
Gráfico 8 Cargas factoriales directas, escenario 5: Intervalo de credibilidad de las estimaciones del parámetro, según 
Información en la varianza de la distribución a priori de las cargas factoriales cruzadas, Tamaño de Muestra y Coeficiente 
de Correlación Intraclase. (Nivel dentro de grupos) 
 
 
Gráfico 9 Cargas factoriales directas, escenario 6: Intervalo de credibilidad de las estimaciones del parámetro, según 
Información en la varianza de la distribución a priori de las cargas factoriales cruzadas, Tamaño de Muestra y Coeficiente 
de Correlación Intraclase. (Nivel dentro de grupos) 
 
  
 
115 
 
Gráfico 10 Cargas factoriales cruzadas, escenario 1: Intervalo de credibilidad de las estimaciones del parámetro, según 
Información en la varianza de la distribución a priori de las cargas factoriales cruzadas, Tamaño de Muestra y Coeficiente 
de Correlación Intraclase. (Nivel dentro de grupos) 
 
 
Gráfico 11 Cargas factoriales cruzadas, escenario 2: Intervalo de credibilidad de las estimaciones del parámetro, según 
Información en la varianza de la distribución a priori de las cargas factoriales cruzadas, Tamaño de Muestra y Coeficiente 
de Correlación Intraclase. (Nivel dentro de grupos) 
  
 
116 
 
Gráfico 12 Cargas factoriales cruzadas, escenario 3: Intervalo de credibilidad de las estimaciones del parámetro, según 
Información en la varianza de la distribución a priori de las cargas factoriales cruzadas, Tamaño de Muestra y Coeficiente 
de Correlación Intraclase. (Nivel dentro de grupos) 
 
 
Gráfico 13 Cargas factoriales cruzadas, escenario 4: Intervalo de credibilidad de las estimaciones del parámetro, según 
Información en la varianza de la distribución a priori de las cargas factoriales cruzadas, Tamaño de Muestra y Coeficiente 
de Correlación Intraclase. (Nivel dentro de grupos) 
  
 
117 
 
Gráfico 14 Cargas factoriales cruzadas, escenario 5: Intervalo de credibilidad de las estimaciones del parámetro, según 
Información en la varianza de la distribución a priori de las cargas factoriales cruzadas, Tamaño de Muestra y Coeficiente 
de Correlación Intraclase. (Nivel dentro de grupos) 
 
 
Gráfico 15 Cargas factoriales cruzadas, escenario 6: Intervalo de credibilidad de las estimaciones del parámetro, según 
Información en la varianza de la distribución a priori de las cargas factoriales cruzadas, Tamaño de Muestra y Coeficiente 
de Correlación Intraclase. (Nivel dentro de grupos) 
  
 
118 
 
Gráfico 16 Parámetro estructural, escenario 1: Intervalo de credibilidad de las estimaciones del parámetro, según 
Información en la varianza de la distribución a priori de las cargas factoriales cruzadas, Tamaño de Muestra y Coeficiente 
de Correlación Intraclase. (Nivel dentro de grupos) 
 
 
Gráfico 17 Parámetro estructural, escenario 2: Intervalo de credibilidad de las estimaciones del parámetro, según 
Información en la varianza de la distribución a priori de las cargas factoriales cruzadas, Tamaño de Muestra y Coeficiente 
de Correlación Intraclase. (Nivel dentro de grupos) 
  
 
119 
 
Gráfico 18 Parámetro estructural, escenario 3: Intervalo de credibilidad de las estimaciones del parámetro, según 
Información en la varianza de la distribución a priori de las cargas factoriales cruzadas, Tamaño de Muestra y Coeficiente 
de Correlación Intraclase. (Nivel dentro de grupos) 
 
 
Gráfico 19 Parámetro estructural, escenario 4: Intervalo de credibilidad de las estimaciones del parámetro, según 
Información en la varianza de la distribución a priori de las cargas factoriales cruzadas, Tamaño de Muestra y Coeficiente 
de Correlación Intraclase. (Nivel dentro de grupos) 
  
 
120 
 
Gráfico 20 Parámetro estructural, escenario 5: Intervalo de credibilidad de las estimaciones del parámetro, según 
Información en la varianza de la distribución a priori de las cargas factoriales cruzadas, Tamaño de Muestra y Coeficiente 
de Correlación Intraclase. (Nivel dentro de grupos) 
 
 
Gráfico 21 Parámetro estructural, escenario 6: Intervalo de credibilidad de las estimaciones del parámetro, según 
Información en la varianza de la distribución a priori de las cargas factoriales cruzadas, Tamaño de Muestra y Coeficiente 
de Correlación Intraclase. (Nivel dentro de grupos) 
  
 
121 
 
Gráfico 22 Varianzas residuales, escenario 1: Intervalo de credibilidad de las estimaciones del parámetro, según 
Información en la varianza de la distribución a priori de las cargas factoriales cruzadas, Tamaño de Muestra y Coeficiente 
de Correlación Intraclase. (Nivel dentro de grupos) 
 
 
Gráfico 23 Varianzas residuales, escenario 2: Intervalo de credibilidad de las estimaciones del parámetro, según 
Información en la varianza de la distribución a priori de las cargas factoriales cruzadas, Tamaño de Muestra y Coeficiente 
de Correlación Intraclase. (Nivel dentro de grupos) 
  
 
122 
 
Gráfico 24 Varianzas residuales, escenario 3: Intervalo de credibilidad de las estimaciones del parámetro, según 
Información en la varianza de la distribución a priori de las cargas factoriales cruzadas, Tamaño de Muestra y Coeficiente 
de Correlación Intraclase. (Nivel dentro de grupos) 
 
 
Gráfico 25 Varianzas residuales, escenario 4: Intervalo de credibilidad de las estimaciones del parámetro, según 
Información en la varianza de la distribución a priori de las cargas factoriales cruzadas, Tamaño de Muestra y Coeficiente 
de Correlación Intraclase. (Nivel dentro de grupos) 
  
 
123 
 
Gráfico 26 Varianzas residuales, escenario 5: Intervalo de credibilidad de las estimaciones del parámetro, según 
Información en la varianza de la distribución a priori de las cargas factoriales cruzadas, Tamaño de Muestra y Coeficiente 
de Correlación Intraclase. (Nivel dentro de grupos) 
 
 
Gráfico 27 Varianzas residuales, escenario 6: Intervalo de credibilidad de las estimaciones del parámetro, según 
Información en la varianza de la distribución a priori de las cargas factoriales cruzadas, Tamaño de Muestra y Coeficiente 
de Correlación Intraclase. (Nivel dentro de grupos) 
  
 
124 
 
Gráfico 28 Varianza factorial, escenario 1: Intervalo de credibilidad de las estimaciones del parámetro, según 
Información en la varianza de la distribución a priori de las cargas factoriales cruzadas, Tamaño de Muestra y Coeficiente 
de Correlación Intraclase. (Nivel dentro de grupos) 
 
 
Gráfico 29 Varianza factorial, escenario 2: Intervalo de credibilidad de las estimaciones del parámetro, según 
Información en la varianza de la distribución a priori de las cargas factoriales cruzadas, Tamaño de Muestra y Coeficiente 
de Correlación Intraclase. (Nivel dentro de grupos) 
  
 
125 
 
Gráfico 30 Varianza factorial, escenario 3: Intervalo de credibilidad de las estimaciones del parámetro, según 
Información en la varianza de la distribución a priori de las cargas factoriales cruzadas, Tamaño de Muestra y Coeficiente 
de Correlación Intraclase. (Nivel dentro de grupos) 
 
 
Gráfico 31 Varianza factorial, escenario 4: Intervalo de credibilidad de las estimaciones del parámetro, según 
Información en la varianza de la distribución a priori de las cargas factoriales cruzadas, Tamaño de Muestra y Coeficiente 
de Correlación Intraclase. (Nivel dentro de grupos) 
  
 
126 
 
Gráfico 32 Varianza factorial, escenario 5: Intervalo de credibilidad de las estimaciones del parámetro, según 
Información en la varianza de la distribución a priori de las cargas factoriales cruzadas, Tamaño de Muestra y Coeficiente 
de Correlación Intraclase. (Nivel dentro de grupos) 
 
 
Gráfico 33 Varianza factorial, escenario 6: Intervalo de credibilidad de las estimaciones del parámetro, según 
Información en la varianza de la distribución a priori de las cargas factoriales cruzadas, Tamaño de Muestra y Coeficiente 
de Correlación Intraclase. (Nivel dentro de grupos) 
  
 
127 
 
Anexo 3: Gráficos de dispersión del nivel entre grupos 
Gráfico 34 Cargas factoriales directas, escenario 1: Intervalo de credibilidad de las estimaciones del parámetro, según 
Información en la varianza de la distribución a priori de las cargas factoriales cruzadas, Tamaño de Muestra y Coeficiente 
de Correlación Intraclase. (Nivel entre grupos) 
 
Gráfico 35 Cargas factoriales directas, escenario 2: Intervalo de credibilidad de las estimaciones del parámetro, según 
Información en la varianza de la distribución a priori de las cargas factoriales cruzadas, Tamaño de Muestra y Coeficiente 
de Correlación Intraclase. (Nivel entre grupos) 
 
  
 
128 
 
Gráfico 36 Cargas factoriales directas, escenario 3: Intervalo de credibilidad de las estimaciones del parámetro, según 
Información en la varianza de la distribución a priori de las cargas factoriales cruzadas, Tamaño de Muestra y Coeficiente 
de Correlación Intraclase. (Nivel entre grupos) 
 
 
Gráfico 37 Cargas factoriales directas, escenario 4: Intervalo de credibilidad de las estimaciones del parámetro, según 
Información en la varianza de la distribución a priori de las cargas factoriales cruzadas, Tamaño de Muestra y Coeficiente 
de Correlación Intraclase. (Nivel entre grupos) 
  
 
129 
 
Gráfico 38 Cargas factoriales directas, escenario 5: Intervalo de credibilidad de las estimaciones del parámetro, según 
Información en la varianza de la distribución a priori de las cargas factoriales cruzadas, Tamaño de Muestra y Coeficiente 
de Correlación Intraclase. (Nivel entre grupos) 
 
 
Gráfico 39 Cargas factoriales directas, escenario 6: Intervalo de credibilidad de las estimaciones del parámetro, según 
Información en la varianza de la distribución a priori de las cargas factoriales cruzadas, Tamaño de Muestra y Coeficiente 
de Correlación Intraclase. (Nivel entre grupos) 
 
  
 
130 
 
Gráfico 40 Cargas factoriales cruzadas, escenario 1: Intervalo de credibilidad de las estimaciones del parámetro, según 
Información en la varianza de la distribución a priori de las cargas factoriales cruzadas, Tamaño de Muestra y Coeficiente 
de Correlación Intraclase. (Nivel entre grupos) 
 
 
Gráfico 41 Cargas factoriales cruzadas, escenario 2: Intervalo de credibilidad de las estimaciones del parámetro, según 
Información en la varianza de la distribución a priori de las cargas factoriales cruzadas, Tamaño de Muestra y Coeficiente 
de Correlación Intraclase. (Nivel entre grupos) 
  
 
131 
 
Gráfico 42 Cargas factoriales cruzadas, escenario 3: Intervalo de credibilidad de las estimaciones del parámetro, según 
Información en la varianza de la distribución a priori de las cargas factoriales cruzadas, Tamaño de Muestra y Coeficiente 
de Correlación Intraclase. (Nivel entre grupos) 
 
 
Gráfico 43 Cargas factoriales cruzadas, escenario 4: Intervalo de credibilidad de las estimaciones del parámetro, según 
Información en la varianza de la distribución a priori de las cargas factoriales cruzadas, Tamaño de Muestra y Coeficiente 
de Correlación Intraclase. (Nivel entre grupos) 
  
 
132 
 
Gráfico 44 Cargas factoriales cruzadas, escenario 5: Intervalo de credibilidad de las estimaciones del parámetro, según 
Información en la varianza de la distribución a priori de las cargas factoriales cruzadas, Tamaño de Muestra y Coeficiente 
de Correlación Intraclase. (Nivel entre grupos) 
 
 
Gráfico 45 Cargas factoriales cruzadas, escenario 6: Intervalo de credibilidad de las estimaciones del parámetro, según 
Información en la varianza de la distribución a priori de las cargas factoriales cruzadas, Tamaño de Muestra y Coeficiente 
de Correlación Intraclase. (Nivel entre grupos) 
  
 
133 
 
Gráfico 46 Parámetro estructural, escenario 1: Intervalo de credibilidad de las estimaciones del parámetro, según 
Información en la varianza de la distribución a priori de las cargas factoriales cruzadas, Tamaño de Muestra y Coeficiente 
de Correlación Intraclase. (Nivel entre grupos) 
 
 
Gráfico 47 Parámetro estructural, escenario 2: Intervalo de credibilidad de las estimaciones del parámetro, según 
Información en la varianza de la distribución a priori de las cargas factoriales cruzadas, Tamaño de Muestra y Coeficiente 
de Correlación Intraclase. (Nivel entre grupos) 
  
 
134 
 
Gráfico 48 Parámetro estructural, escenario 3: Intervalo de credibilidad de las estimaciones del parámetro, según 
Información en la varianza de la distribución a priori de las cargas factoriales cruzadas, Tamaño de Muestra y Coeficiente 
de Correlación Intraclase. (Nivel entre grupos) 
 
 
Gráfico 49 Parámetro estructural, escenario 4: Intervalo de credibilidad de las estimaciones del parámetro, según 
Información en la varianza de la distribución a priori de las cargas factoriales cruzadas, Tamaño de Muestra y Coeficiente 
de Correlación Intraclase. (Nivel entre grupos) 
  
 
135 
 
Gráfico 50 Parámetro estructural, escenario 5: Intervalo de credibilidad de las estimaciones del parámetro, según 
Información en la varianza de la distribución a priori de las cargas factoriales cruzadas, Tamaño de Muestra y Coeficiente 
de Correlación Intraclase. (Nivel entre grupos) 
 
 
Gráfico 51 Parámetro estructural, escenario 6: Intervalo de credibilidad de las estimaciones del parámetro, según 
Información en la varianza de la distribución a priori de las cargas factoriales cruzadas, Tamaño de Muestra y Coeficiente 
de Correlación Intraclase. (Nivel entre grupos) 
  
 
136 
 
Gráfico 52 Varianzas residuales, escenario 1: Intervalo de credibilidad de las estimaciones del parámetro, según 
Información en la varianza de la distribución a priori de las cargas factoriales cruzadas, Tamaño de Muestra y Coeficiente 
de Correlación Intraclase. (Nivel entre grupos) 
 
 
Gráfico 53 Varianzas residuales, escenario 2: Intervalo de credibilidad de las estimaciones del parámetro, según 
Información en la varianza de la distribución a priori de las cargas factoriales cruzadas, Tamaño de Muestra y Coeficiente 
de Correlación Intraclase. (Nivel entre grupos) 
  
 
137 
 
Gráfico 54 Varianzas residuales, escenario 3: Intervalo de credibilidad de las estimaciones del parámetro, según 
Información en la varianza de la distribución a priori de las cargas factoriales cruzadas, Tamaño de Muestra y Coeficiente 
de Correlación Intraclase. (Nivel entre grupos) 
 
 
Gráfico 55 Varianzas residuales, escenario 4: Intervalo de credibilidad de las estimaciones del parámetro, según 
Información en la varianza de la distribución a priori de las cargas factoriales cruzadas, Tamaño de Muestra y Coeficiente 
de Correlación Intraclase. (Nivel entre grupos) 
  
 
138 
 
Gráfico 56 Varianzas residuales, escenario 5: Intervalo de credibilidad de las estimaciones del parámetro, según 
Información en la varianza de la distribución a priori de las cargas factoriales cruzadas, Tamaño de Muestra y Coeficiente 
de Correlación Intraclase. (Nivel entre grupos) 
 
 
Gráfico 57 Varianzas residuales, escenario 6: Intervalo de credibilidad de las estimaciones del parámetro, según 
Información en la varianza de la distribución a priori de las cargas factoriales cruzadas, Tamaño de Muestra y Coeficiente 
de Correlación Intraclase. (Nivel entre grupos) 
  
 
139 
 
Gráfico 58 Varianza factorial, escenario 1: Intervalo de credibilidad de las estimaciones del parámetro, según 
Información en la varianza de la distribución a priori de las cargas factoriales cruzadas, Tamaño de Muestra y Coeficiente 
de Correlación Intraclase. (Nivel entre grupos) 
 
 
Gráfico 59 Varianza factorial, escenario 2: Intervalo de credibilidad de las estimaciones del parámetro, según 
Información en la varianza de la distribución a priori de las cargas factoriales cruzadas, Tamaño de Muestra y Coeficiente 
de Correlación Intraclase. (Nivel entre grupos) 
  
 
140 
 
Gráfico 60 Varianza factorial, escenario 3: Intervalo de credibilidad de las estimaciones del parámetro, según 
Información en la varianza de la distribución a priori de las cargas factoriales cruzadas, Tamaño de Muestra y Coeficiente 
de Correlación Intraclase. (Nivel entre grupos) 
 
 
Gráfico 61 Varianza factorial, escenario 4: Intervalo de credibilidad de las estimaciones del parámetro, según 
Información en la varianza de la distribución a priori de las cargas factoriales cruzadas, Tamaño de Muestra y Coeficiente 
de Correlación Intraclase. (Nivel entre grupos) 
  
 
141 
 
Gráfico 62 Varianza factorial, escenario 5: Intervalo de credibilidad de las estimaciones del parámetro, según 
Información en la varianza de la distribución a priori de las cargas factoriales cruzadas, Tamaño de Muestra y Coeficiente 
de Correlación Intraclase. (Nivel entre grupos) 
 
 
Gráfico 63 Varianza factorial, escenario 6: Intervalo de credibilidad de las estimaciones del parámetro, según 
Información en la varianza de la distribución a priori de las cargas factoriales cruzadas, Tamaño de Muestra y Coeficiente 
de Correlación Intraclase. (Nivel entre grupos) 
  
 
142