UNIVERSIDAD DE COSTA RICA SISTEMA DE ESTUDIOS DE POSGRADO IMPLEMENTACIÓN DEL MODELO DE RASCH PARA LA GENERACIÓN AUTOMÁTICA DE PRUEBAS DE AULA Trabajo final de investigación aplicada sometido a la consideración de la Comisión del Programa de Estudios de Posgrado en Estadística para optar al grado y título de Maestría Profesional en Estadística MANUEL FELIPE MASÍS SOTO Ciudad Universitaria Rodrigo Facio, Costa Rica 2023 ii Dedicatoria Por supuesto primero las gracias a Dios por permitirme llegar a culminar esta etapa y a la Santísima Virgen María por su intercesión. Dedico este trabajo a mi esposa Ericka y a mis hijos Juliana, Daniela y Sebastián, quienes siempre estuvieron y están apoyándome en mi caminar. iii “Este trabajo final de investigación aplicada fue aceptado por la Comisión del Programa de Estudios de Posgrado en Estadística de la Universidad de Costa Rica, como requisito parcial para optar al grado y título de Maestría Profesional en Estadística.” _______________________________ Ph.D. Guaner Rojas Rojas Profesor Guía _______________________________ Ph.D. Eiliana Montero Rojas Lectora _______________________________ Ph.D. Francisco Torres Rojas Lector _______________________________ Manuel Felipe Masís Soto Sustentante iv Tabla de contenido RESUMEN ......................................................................................................................... vii ABSTRACT ....................................................................................................................... viii Lista de gráficos ................................................................................................................... ix Lista de cuadros ................................................................................................................... ix Lista de figuras ...................................................................................................................... x CAPÍTULO I: INTRODUCCIÓN ...................................................................................... 1 1.1 Contexto .................................................................................................................. 1 1.2 Objetivos de la investigación ................................................................................. 2 1.2.1 Objetivo general ..................................................................................................... 2 1.2.2 Objetivos específicos .............................................................................................. 2 1.3 Justificación ............................................................................................................ 3 CAPÍTULO II: ESTADO DE LA CUESTION .................................................................... 5 2.1 La TRI y sus ventajas sobre la TCT ..................................................................... 5 2.2 Fundamentos del modelo de Rasch ...................................................................... 7 2.3 “The Examiner”: un programa informático para la construcción automatizada de pruebas de aula ...................................................................................... 10 CAPÍTULO III: METODOLOGÍA ................................................................................... 12 3.1 Materiales .............................................................................................................. 12 3.1.1 Elementos requeridos para el sistema computacional “The Examiner” ........ 12 3.1.2 Población ............................................................................................................... 13 3.2 Métodos ................................................................................................................. 13 3.2.1 Funcionamiento general del software ................................................................. 13 3.2.2 Planteamiento del flujo de trabajo ..................................................................... 16 3.2.3 Métodos relacionados con la TCT ...................................................................... 18 3.2.3.1 Índice de dificultad del ítem ................................................................................ 18 3.2.3.2 El coeficiente alfa .................................................................................................. 18 3.2.3.3 Índice de correlación biserial puntual ................................................................ 19 3.2.4 Métodos relacionados con la TRI: modelo de Rasch ........................................ 19 CAPÍTULO IV: RESULTADOS ........................................................................................ 23 4.1 Instalación del software ....................................................................................... 23 v 4.2 Comprensión de la base de datos y del código fuente ....................................... 24 4.2.1 Resumen del modelo de la base de datos ............................................................ 24 4.2.2 Comprensión de la organización y estructura del código fuente:.................... 26 4.3 Análisis descriptivos, recreación de notas e indicadores de exámenes reales . 27 4.3.1 Análisis descriptivos ............................................................................................. 27 4.3.2 Recreación de notas del primer examen consignado en la base de datos e indicadores de referencia generados por el software para un examen de prueba. ....... 29 4.3.2.1 Recreación de notas del primer examen consignado en la base de datos. ...... 29 4.3.2.2 Indicadores de referencia generados por el software para un examen de prueba. 30 4.3.3 Análisis de exámenes reales consignados en la base de datos con un enfoque de TCT. 34 4.3.3.1 Análisis de la media real vs. media esperada para los 50 exámenes con mayor participación de estudiantes. .............................................................................................. 35 4.3.3.2 Análisis del coeficiente alfa real vs. coeficiente alfa de referencia para los 50 exámenes con mayor participación de estudiantes. ......................................................... 37 4.3.3.3 Análisis de la desviación estándar como valor de referencia para la generación de exámenes: .................................................................................................... 40 4.3.3.4 Análisis del coeficiente de correlación biserial puntual. ................................... 40 4.4 Generación y análisis de exámenes simulados con TCT................................... 42 4.5 Análisis de exámenes reales y simulados a partir de un enfoque de la TRI ... 46 4.5.1 Bondad de ajuste del modelo de Rasch en exámenes reales y simulados ........ 46 4.5.2 Ajuste de ítems y personas .................................................................................. 46 4.5.2.1 Ajuste de ítems y personas en exámenes reales ................................................. 46 4.5.2.2 Ajuste de ítems y personas en exámenes simulados .......................................... 48 4.5.3 Construcción de una base de datos de ítems con índices de dificultad ........... 50 4.5.4 Análisis de correlación entre índices de dificultad de la base de datos creada y los índices de dificultad de los exámenes simulados ........................................................ 52 CAPÍTULO V: CONCLUSIONES Y DISCUSION ........................................................... 55 REFERENCIAS .................................................................................................................. 58 ANEXOS…………………………………………………………………… ...................... 60 ANEXO No.1: GUÍA ILUSTRADA DEL SOFTWARE “THE EXAMINER” ........... 61 vi ANEXO NO.2: PROCEDIMIENTO PARA RECREACIÓN DE LAS NOTAS DE UN ESTUDIANTE (CON R Y CONECTÁNDOSE A LA BASE DE DATOS): ................. 72 ANEXO NO.3: EXAMEN DE PRUEBA PARA CÁLCULO DE INDICADORES .... 76 ANEXO NO.4: PROCEDIMIENTO PARA ANÁLISIS DE 50 EXÁMENES REALES CON MAYOR PARTICIPACIÓN DE ESTUDIANTES................................................ 78 ANEXO NO.5: PROCEDIMIENTO PARA ANÁLISIS GENERACIÓN DE MATRICES BINARIAS A PARTIR DE PREGUNTAS, ESTUDIANTES Y RESPUESTAS. .................................................................................................................... 80 ANEXO NO.6, PROCEDIMIENTO PARA ANÁLISIS DE EXÁMENES SIMULADOS CON ENFOQUE TCT. ............................................................................. 86 ANEXO NO.7, PROCEDIMIENTO PARA ANÁLISIS DE EXÁMENES SIMULADOS CON ENFOQUE TRI. .............................................................................. 88 vii RESUMEN Este trabajo se circunscribe a temas relacionadas con la automatización de exámenes en el aula, partiendo de la teoría clásica de los tests (TCT), para luego analizar el aporte de la teoría de respuesta al ítem (TRI), específicamente por medio del modelo de Rasch y utilizando como base una herramienta de software denominada “The Examiner”, que permite la creación, calificación y análisis de pruebas de aula. Se aprovecha la información consignada en la base de datos del software para 1428 ítems utilizados en exámenes reales y aplicados en una universidad estatal, con el fin de analizar los indicadores que el software calcula como predichos. Se realiza una comprobación de los cálculos internos del software, para concluir que la información generada es útil para la confección de exámenes. En este sentido y como elementos clave, el software aporta información sobre la media esperada para los exámenes aplicados y sobre el coeficiente de confiabilidad o consistencia esperado mediante el alfa de Cronbach. Los resultados del análisis permiten concluir que los cálculos que genera el software para estos valores predichos se pueden utilizar como información de referencia útil para la confección previa de exámenes a partir de ítems consignados con información histórica. Por otro lado, se utiliza la información de la base de datos para ajustar el modelo de Rasch a las pruebas de aula ejecutadas, así como a pruebas simuladas y se concluye que este modelo genera un buen ajuste a nivel de exámenes, ítems y personas, por lo cual se convierte en una alternativa para incorporarlo como parte de las funcionalidades del software en versiones posteriores y así enriquecer el análisis que brinda el enfoque de la TCT. Palabras clave: teoría clásica de los tests, TCT, teoría de respuesta al ítem, TRI, pruebas de aula automatizadas, modelo de Rasch viii ABSTRACT This work is related to the automation of exams in the classroom, starting from the classical test theory (CTT) and then analyzing the contribution of the item response theory (IRT), specifically through the Rasch model and using a software tool called “The Examiner”, which allows the creation, grading and analysis of classroom tests. The information recorded in the software database for 1428 items used in real exams and applied in a state university is used, in order to analyze the indicators that the software calculates as predicted. A verification of the internal calculations of the software is carried out, to conclude that the information generated is useful for the preparation of exams. In this line and as key elements, the software provides information on the expected average for the applied tests and on the expected alpha coefficient. The results of the analysis allow to conclude that the calculations generated by the software for these predicted values can be used as useful reference information for the preliminary preparation of examinations from items recorded with historical information. On the other hand, the information from the database is used to adjust the Rasch model to the classroom tests carried out, as well as to simulated tests, and it is concluded that this model generates good adjustments either for exams, items, and people. Then, it becomes an alternative to incorporate it as part of the software functionalities in later versions and this way enrich the analysis provided by the TCT approach. Key Words: classical test theory, CTT, item response theory, IRT, classroom exams automation, Rasch model ix Lista de gráficos Gráfico No. 1: Ejemplo de una curva característica de un ítem ........................................................ 21 Gráfico No. 2: Ejemplo de una curva característica de un ítem ........................................................ 22 Gráfico No. 3: : Ejemplo de una curva característica de un ítem ...................................................... 22 Gráfico No. 4: Histograma alumnos por examen .............................................................................. 28 Gráfico No. 5: Histograma 50 Exámenes con .................................................................................... 34 Gráfico No. 6: Cantidad de alumnos por pregunta para exámenes simulados ................................ 42 Gráfico No. 7: Gráfico de jerarquía para coeficientes alfa 18 exámenes simulados ........................ 45 Gráfico No. 8: Ítems utilizados en exámenes reales vs. índice de dificultad .................................... 50 Gráfico No. 9: Índices de dificultad "ítems históricos" vs. ................................................................ 53 Gráfico No. 10: Selección de 20 ítems por índice de dificultad ........................................................ 54 Lista de cuadros Cuadro No. 1: Materias, exámenes y calificaciones en la base de datos.......................................... 27 Cuadro No. 2: Valores para cálculo de media esperada para examen de prueba ............................ 31 Cuadro No. 3: Resultados intervalos de confianza exámenes reales analizados .............................. 36 Cuadro No. 4: Varianza según cantidad de respuestas buenas por ................................................. 37 Cuadro No. 5: Categoría coeficientes alfa corregidos ....................................................................... 39 Cuadro No. 6: Distribución por materia de preguntas ...................................................................... 43 Cuadro No. 7: Resultados exámenes simulados ............................................................................... 44 Cuadro No. 8: Exámenes a revisar por ajuste de ítems y/o estudiantes .......................................... 47 Cuadro No. 9: Resultado de eliminación por Infit no adecuado ....................................................... 47 Cuadro No. 10: Exámenes simulados para revisión de valores Infit ................................................. 48 Cuadro No. 11: Resultado de eliminar items/sujetos con valores de estadístico ............................ 49 Cuadro No. 12: Índices de dificultad por rangos ............................................................................... 51 Cuadro No. 13: Resultados de exámenes simulados ........................................................................ 52 x Lista de figuras Figura No. 1: Entrada de datos al software ....................................................................................... 14 Figura No. 2: Proceso de generación de exámenes .......................................................................... 15 Figura No. 3: Flujo de tareas a realizar.............................................................................................. 16 Figura No. 4: Pantalla principal del software en funcionamiento .................................................... 23 Figura No. 5: Modelo de la base de datos ........................................................................................ 24 Figura No. 6: Vista examen de prueba para cálculo de indicadores ................................................. 30 Figura No. 7: Ejemplo de mensajes sobre indices de correlacion biserial puntual por pregunta .... 41 Figura No. 8: Pantalla de inicio.......................................................................................................... 61 Figura No. 9: Pantalla de datos ......................................................................................................... 63 Figura No. 10: Pantalla exámenes ..................................................................................................... 64 Figura No. 11: Ejemplo de Esquema de examen .............................................................................. 65 Figura No. 12: Pantalla de asignación de boletos por pregunta ....................................................... 66 Figura No. 13: Pantalla de Creación de Preexámenes ...................................................................... 67 Figura No. 14: Pantalla de Refinamiento de Preexámenes .............................................................. 68 Figura No. 15: Pantalla para convertir preexamen en examen ........................................................ 69 Figura No. 16: Pantalla de Análisis y Ajuste de Exámenes ................................................................ 70 Figura No. 17: Ejemplo de gráfico de preguntas según discriminación y dificultad ......................... 71 1 CAPÍTULO I: INTRODUCCIÓN 1.1 Contexto En la actualidad, la construcción y aplicación de exámenes sigue siendo una de las formas importantes que los docentes utilizan para evaluar el nivel de conocimiento adquirido por los estudiantes; este tipo de pruebas consideran aspectos específicos del aprendizaje generado con un cierto proceso de mediación pedagógica y contexto particular de dinámica del aula. En el proceso de construcción de pruebas de aula, normalmente la calidad de los ítems es desconocida, pocas veces documentada y en términos de confiabilidad rara vez se calculan sus medidas empíricas. (Moreira-Mora, y otros, 2022). En este contexto y como parte de una investigación aplicada, se desarrolló en su momento un sistema computacional llamado “The Examiner”, que facilita la preparación, evaluación y análisis de exámenes, basado en una metodología experimental de generación de pruebas de selección única, que fueron aplicadas en cursos ofrecidos en distintos semestres en la carrera de Ingeniería en Computación de la Escuela de Computación del Instituto Tecnológico de Costa Rica. Como resultado de este proceso automatizado por medio del sistema computacional, se logró construir una base de datos con información histórica del comportamiento de cada examen y de cada ítem utilizado. (Torres-Rojas, 2008) La información consignada por medio de “The Examiner” se circunscribe al ámbito de lo que se refiere a la Teoría Clásica de los Tests (TCT), ya que los puntajes totales de las pruebas para los examinados se basan en la suma de las respuestas a cada uno de los ítems individuales (Price, 2017) y si se parte de la premisa de que la prueba esté bien diseñada, el puntaje obtenido debería ser una estimación razonable del conocimiento que tienen los estudiantes sobre el tema examinado (Holmes Finch, French, & Immekus, 2014). A pesar de que el modelo propuesto por la TCT es un modelo útil y de amplia aplicación, presenta limitaciones que han venido a ser solventadas por otros modelos matemáticos que relacionan el rasgo latente o el puntaje de habilidad de un examinado, con la probabilidad de responder en una categoría de respuesta específica de un ítem. (Paek & Cole, 2020). Esta aproximación se refleja en un conjunto de modelos etiquetados de forma general como Teoría 2 de la Respuesta al Ítem (TRI) (Martínez Arias, Hernández Lloreda, & Hernández Lloreda, 2014) El presente trabajo se ubica en el contexto de los modelos estadísticos de la TRI, específicamente por medio de la implementación del modelo de Rasch utilizando como base el software “The Examiner”, para analizar el desempeño en la recuperación de parámetros del modelo de la TCT, comparar con la generación de parámetros del modelo de TRI y sugerir ajustes para modificar el sistema computacional mencionado, con el fin de que sea también una herramienta para operacionalizar la aplicación del modelo de Rasch en la generación automatizada de pruebas de aula. En este sentido el modelo de Rasch, se referencia además como un modelo de medición, ya que se buscan datos que se ajusten al modelo para poder obtener sus ventajas (Prieto & Delgado, 2003), en lugar de ajustar en sí mismo el modelo a los datos. 1.2 Objetivos de la investigación 1.2.1 Objetivo general Evaluar el funcionamiento del modelo de Rasch en la generación automática de pruebas de aula con el algoritmo del software “The Examiner”. 1.2.2 Objetivos específicos a) Implementar el modelo de Rasch en la generación y análisis de pruebas informatizadas de aula. b) Comparar el desempeño en la recuperación de parámetros y validez de las pruebas de los modelos de TRI (particularmente del modelo de Rasch), en relación con el modelo de la TCT, en las pruebas informatizadas de aula. c) Recomendar ajustes al algoritmo para implementar un modelo de Rasch en el software. 3 1.3 Justificación La elaboración de pruebas o exámenes sigue siendo hoy uno de los principales mecanismos de la educación formal para validar o evidenciar que el conocimiento ha sido comprendido y apropiado por parte de los estudiantes. El reto es que esas pruebas o exámenes realmente evalúen de forma objetiva el contenido y el nivel de los temas para los cuales fueron diseñadas y que el resultado de la medición represente razonablemente el nivel de conocimiento adquirido por las personas. Según (Muniz, 2010), el enfoque clásico es el predominante en la construcción y análisis de los tests. Sin embargo, con el aporte de la TRI, se han propuesto otros modelos matemáticos que aportan mayor profundidad de análisis, relacionando los rasgos latentes con el verdadero puntaje asociado con el conocimiento de una persona en el campo o temática que está siendo evaluada con instrumentos o pruebas específicas. Por otro lado, la tecnología y su beneficio en el aumento en la capacidad computacional, ha venido a mejorar la administración y procesamiento de grandes cantidades de información, que permiten una mayor profundidad de análisis e inclusive poder automatizar la creación de instrumentos en los que se podría inferir sobre los resultados que van a arrojar en el momento de su aplicación. A propósito de ese desarrollo a nivel de tecnología, existe una alternativa de software que utiliza elementos de la TCT y que fue desarrollada como parte de una investigación aplicada en el Instituto Tecnológico de Costa Rica, con el nombre de “The Examiner”. Este software facilita la gestión de ítems de respuesta única para la confección de pruebas en el aula y realiza algunas predicciones sobre los resultados de la aplicación de las mismas, en indicadores como la media esperada para la prueba, partiendo del comportamiento individual de los ítems que han ido acumulando información histórica, es decir, que a partir de sus respuestas reales y conforme se consignan en la base de datos, permiten generar indicadores importantes como: el coeficiente de correlación biserial puntual como medida de discriminación del ítem y el Alfa de Cronbach para cuantificar el nivel de fiabilidad o consistencia interna de las diferentes pruebas, así como el efecto individual de cada ítem. (Torres-Rojas, 2008) 4 Con el desarrollo de este trabajo se desea contribuir con la valoración para la ampliación del alcance que el software ofrece a nivel de los aspectos que actualmente contempla relacionados con la TCT, por medio del estudio de los resultados de la implementación de modelos de la TRI, específicamente el modelo de Rasch, con el fin de operacionalizar el uso de este modelo como parte de las funcionalidades del software puede incorporar en versiones posteriores. 5 CAPÍTULO II: ESTADO DE LA CUESTION En este capítulo se desarrolla el estado de la cuestión sobre el tema de la TRI y sus ventajas sobre la TCT, el modelo de Rasch y el sistema computacional “The Examiner” como alternativa para la construcción de pruebas automatizadas de aula. 2.1 La TRI y sus ventajas sobre la TCT “La denominación TRI agrupa líneas de investigación psicométricas independientes iniciadas por Rasch (1960) y Birnbaum (1968). El factor común de estos desarrollos es que establecen una relación entre el comportamiento de un sujeto frente a un ítem y el rasgo responsable de esta conducta (rasgo latente). Para ello, recurren a funciones matemáticas que describen la probabilidad de dar una determinada respuesta al ítem para cada nivel del rasgo medido por este. El objetivo sustancial de la TRI es la construcción de instrumentos de medición con propiedades invariantes entre poblaciones. Si dos individuos presentan idéntico nivel de rasgo medido, ambos tendrán igual probabilidad de dar la misma respuesta, independientemente de la población de pertenencia.”. (Attorresi, Lozzia, Abal, Galibert, & Aguerri, 2009) Según Martinez Arias y otros (Martínez Arias, Hernández Lloreda, & Hernández Lloreda, 2014), la TRI parte de la premisa de que el comportamiento de un sujeto ante un ítem puede explicarse en términos de una o varias características del sujeto denominadas rasgos o aptitudes latentes y que lo que se puede estimar son las puntuaciones de los sujetos en esos rasgos y utilizar esos valores para explicar la puntuación que tendrá un sujeto en una prueba. Las mismas investigadoras (Martínez Arias, Hernández Lloreda, & Hernández Lloreda, 2014) indican que, al realizar una revisión rápida de la TCT, se evidencia una serie de desventajas que intenta superar la TRI; a continuación, las desventajas más relevantes citadas por las autoras: 6 a) Dependencia de los estadísticos del ítem de la población y/o muestra en la que se calculan: los estadísticos del ítem de la TCT dependen de la tendencia central y de la variabilidad del rasgo en la muestra y en la población; los índices de dificultad serán más altos (representando ítems más fáciles) cuando los participantes están por encima del promedio; los índices de discriminación tienden a ser más elevados en grupos de mayor variabilidad como efecto de la heterogeneidad del grupo sobre el coeficiente de correlación en el que se basa. b) Dependencia de los estadísticos de la prueba, de la población y/o muestra: los diferentes estadísticos como el coeficiente de fiabilidad, dependen de la variabilidad de los grupos en los que se calculan. c) Dependencia de las puntuaciones del conjunto particular de ítems utilizado en la prueba: la puntuación empírica total depende de los ítems específicos que componen la prueba y como resultado, no se puede hablar en términos generales de la aptitud del sujeto, sino que se debe especificar siempre la prueba con la que fue determinada esa puntuación determinada. d) La TCT no proporciona un modelo teórico para las respuestas a los ítems: no permite determinar el comportamiento del participante en función de la cantidad del rasgo latente que posee cuando responde a un ítem. En contraposición con estas desventajas, las investigadoras Rojas y Montero (Rojas & Montero, 2021) indican una serie de ventajas de la TRI (refiriéndose específicamente al modelo de Rasch que es el utilizado en este trabajo), de las cuales las más relevantes se mencionan a continuación:  A partir de la puntuación obtenida por el modelo de Rasch se puede establecer a nivel sustantivo los logros del estudiante en cuanto a procesos y contenidos presentes la prueba que se esté evaluando, así como las áreas de oportunidad en términos del constructo objeto de medición.  Se puede generar una estimación del error para cada puntuación estimada en el constructo de interés, que se traduce la posibilidad de generación de pruebas de mayor calidad al contar con mejores herramientas de análisis del rasgo latente del participante así como la dificultad del ítem. 7  El modelo de Rasch permite también permite establecer a nivel de los examinados si las respuestas brindadas en el examen sugieren posibilidad de respuestas al azar o con evidente descuido, así como la posibilidad de copia, información que a nivel investigativo y operativo puede ser de gran interés en torno a las posibles causas de estas situaciones y las formas de evitarlas.  En el modelo de Rasch se cumple que diferencias iguales en la puntuación representan diferencias iguales en el constructo. Es decir, diferencias del mismo tamaño en las puntuaciones, representan diferencias del mismo tamaño en el constructo.  El modelo de Rasch siempre es estimable, a diferencia de otros modelos TRI, lo cual es una ventaja para trabajos de toma de decisiones y no investigativos (como es el caso de las pruebas de aplicación en el aula), lo cual asegura que siempre se puede estimar el modelo y obtener resultados. 2.2 Fundamentos del modelo de Rasch El modelo de Rasch es un caso particular de los modelos de TRI. Con base en los trabajos de Wind y Hua (2022), se indica que el modelo dicotómico de Rasch es el más simple de los modelos de la familia de Rasch y fue diseñado para utilizarse con situaciones en las que los ítems tienen como respuesta dos categorías, usualmente 0 y 1, las cuales indican el hecho de que una persona responda a un ítem particular, de forma incorrecta o de forma correcta respectivamente. Este modelo utiliza la suma de los puntajes de las respuestas para calcular estimaciones de la posición de las personas (en cuanto a su habilidad o nivel de competencia) y posición de los ítems (en cuanto al nivel de dificultad para contestarlo de forma correcta), por medio de una escala que representa la variable latente (escala de “log-odds” o escala “logit”). La diferencia entre la localización de una persona y un ítem se utiliza para calcular la probabilidad de obtener una respuesta correcta (x =1), en lugar de una respuesta incorrecta (x =0). La ecuación del modelo dicotómico de Rasch se expresa por medio de la siguiente fórmula: 8 𝑃(𝑥𝑛𝑖 = 1) = 𝑒(θ𝒏−𝛿𝑖) 1 + 𝑒(θ𝒏−𝛿𝑖) Donde: 𝑃(𝑥𝑛𝑖 = 1), se refiere a la probabilidad de contestar de forma correcta el ítem i por el sujeto n, θ𝒏 se refiere al nivel de habilidad del sujeto n, 𝛿𝑖 se refiere al nivel de dificultad del ítem i El modelo de Rasch, también se puede expresar como una función logística, como se muestra a continuación: 𝑙𝑛 [ 𝜙𝑛𝑖1 𝜙𝑛𝑖0 ] = θ𝒏 − 𝛿𝑖 Donde: 𝜙𝑛𝑖1: es la probabilidad que la persona n conteste de forma correcta (x=1), al ítem i 𝜙𝑛𝑖0: es la probabilidad que la persona n conteste de forma incorrecta (x=0), al ítem i y que equivale a 1-𝜙𝑛𝑖1 θ𝒏: se refiere a la habilidad o nivel de competencia de la persona n 𝛿𝑖: se refiere al nivel de dificultad del ítem i Siguiendo a Prieto y Delgado (Prieto & Delgado, 2003), se pueden mencionar muchas ventajas que presenta el modelo de Rasch y entre las más relevantes que mencionan estos autores están:  Medición conjunta: esto significa que los parámetros de las personas y los parámetros de los ítems se pueden expresar en las mismas unidades y se localizan en un mismo continuo. Esto hace que el modelo de Rasch sea más realista que el modelo propuesto por la TCT, ya que no es razonable pensar que todos los ítems miden la misma cantidad del constructo en evaluación. Además, esta condición de medición conjunta permite analizar la interacción entre individuos e ítems, lo que permite un análisis de 9 mayor posibilidad diagnóstica en cuanto a ítems en los que un individuo particular puede presentar mayor o menor habilidad y así no limitar el análisis al grupo como tal.  Objetividad específica: esta condición establece que la diferencia entre dos personas en un atributo no debe depender de los ítems específicos con los que se estima esa diferencia y de igual manera, la diferencia entre dos ítems no debería depender de las personas específicas que se toman en cuenta para medirla. Con el modelo de Rasch se puede mostrar partiendo de dos personas con diferente nivel que contestan el mismo ítem, de la siguiente forma: 𝑙𝑛 [ 𝜙1𝑖1 𝜙1𝑖0 ] = θ𝟏 − 𝛿𝑖 y 𝑙𝑛 [ 𝜙2𝑖1 𝜙2𝑖0 ] = θ𝟐 − 𝛿𝑖 Entonces, la diferencia entre las dos personas se estima con base habilidad de cada una, independientemente del ítem que contestaron: 𝑙𝑛 [ 𝜙1𝑖1 𝜙1𝑖0 ] − 𝑙𝑛 [ 𝜙2𝑖1 𝜙2𝑖0 ] = (θ𝟏 − 𝛿𝑖) − (θ𝟐 − 𝛿𝑖) = (θ𝟏 − θ𝟐) Por otro lado, si la misma persona contestara dos ítems de diferente dificultad, la diferencia entre los ítems no toma en cuenta a la persona que los contesta: 𝑙𝑛 [ 𝜙𝑛11 𝜙𝑛10 ] − 𝑙𝑛 [ 𝜙𝑛21 𝜙𝑛20 ] = (θ𝒏 − 𝛿1) − (θ𝒏 − 𝛿2) = (𝛿𝟐 − 𝛿𝟏) Con lo expuesto anteriormente se puede decir que, si los datos se ajustan al modelo, la habilidad de las personas se puede estimar y comparar independientemente de la dificultad del ítem; por otro lado, la estimación del parámetro de dificultad de un ítem es independiente del nivel de habilidad de las personas a las cuales se les aplica. (Prieto & Delgado, 2003)  Propiedades de intervalo: la escala logit que presenta el modelo de Rasch tiene 10 propiedad de intervalo, debido a que la interpretación de las diferencias en la escala es la misma a lo largo del atributo que se está midiendo. Esto es, que a diferencias iguales entre un sujeto y un ítem le corresponden probabilidades idénticas de una respuesta correcta.  Especificidad del error típico de medida: una ventaja del modelo de Rasch sobre el modelo propuesto por la TCT, radica en el hecho que este último supone que los tests miden con la misma fiabilidad en todas las regiones de la variable en cuestión; en cambio el modelo de Rasch no asume esta situación sino que permite cuantificar la cantidad de información con la que se mide en cada punto de la dimensión analizada y permite seleccionar los ítems que incrementan la información en regiones del atributo específicas. 2.3 “The Examiner”: un programa informático para la construcción automatizada de pruebas de aula Como indica Torres-Rojas (2008), en las labores de docencia existe un alto consumo de horas tanto en la preparación como en la revisión de exámenes. Esta situación puede resultar de alguna forma tediosa para las personas que los preparan y podría derivar en el reciclaje de exámenes anteriores, construcción de ítems demasiado difíciles o fáciles y es hasta un momento posterior a la aplicación de las pruebas, cuando la persona que lo diseñó se percata que su examen estuvo bien o mal planteado. En el caso de aplicación de pruebas de aula, una vez realizada la revisión de los exámenes, el docente consignará probablemente las notas en algún medio como una hoja de cálculo y la información que obtendrá se limitará al promedio general de calificaciones del grupo, la desviación estándar de esas calificaciones, tal vez la moda, podrá graficar un histograma para visualizar el comportamiento del grupo y en cuanto a los ítems utilizados, típicamente no se registrará un récord del comportamiento de los mismos. Entonces, según explica Torres-Rojas, no se aprovecha la oportunidad de realizar análisis detallados de la información subyacente en cada examen, no se realiza un análisis a nivel de cada uno de los ítems utilizados en las pruebas, no se establecen relaciones con datos históricos previos, no existen mecanismos para advertir sobre la presencia de preguntas mal diseñadas o mal 11 planteadas, no se pueden identificar preguntas que discriminen de forma efectiva y no se asimilan lecciones que permitan diseñar mejores exámenes para el futuro. Circunscritos al ámbito de herramientas para la creación de exámenes de selección única, se puede comprobar que sí existen opciones a nivel comercial o libre que incluyen funcionalidades como la administración de bancos de preguntas para la generación aleatoria de pruebas y su calificación automática, hasta programas informáticos especializados para el análisis del resultado de las pruebas con un enfoque de TRI. Ahora bien, siendo que la tarea docente incluye en la actualidad la construcción de exámenes, es deseable contar con herramientas y soluciones integrales que apoyen para: (1) gestionar bancos de preguntas segmentados por materia, temas y subtemas, (2) confeccionar pruebas automatizadas y aleatorizadas, visibilizando algunos indicadores de desempeño previo, (3) consignar la calificación de las pruebas de cada estudiante y mantener estadísticas de los exámenes aplicados, (4) mantener un histórico de cada uno de los ítems utilizados, (5) calcular indicadores de consistencia de la prueba y de los ítems, (6) calcular la discriminación individual de cada ítem, (7) presentar el comportamiento general del banco de preguntas que se han ido alimentado en una base de datos. Siguiendo el trabajo de investigación de Torres-Rojas, sí se encuentran disponibles herramientas que automatizan partes del proceso de exámenes de aula 1 , pero no una herramienta que integre la generación del examen, el registro de datos históricos, la construcción de indicadores predictivos del comportamiento de los exámenes, análisis estadístico asociado y es en este contexto en el que se desarrolló “The Examiner” como una alternativa. 1 Algunas opciones interesantes: (1) https://assess.com/xcalibre/ (2)https://autopsych.shinyapps.io/version_1_0_0/ (3) https://itemanalysis.com/jmetrik-download/ https://assess.com/xcalibre/ https://autopsych.shinyapps.io/version_1_0_0/ https://itemanalysis.com/jmetrik-download/ 12 CAPÍTULO III: METODOLOGÍA 3.1 Materiales En esta sección se describen los materiales que se requirieron para la instalación y puesta en marcha del sistema computacional. Además, se declara la población utilizada en términos de la base de datos disponible al momento de la realización de este trabajo. 3.1.1 Elementos requeridos para el sistema computacional “The Examiner” En el momento de realización de este documento, la versión actualizada del sistema computacional correspondió a la 0.6 del año 2019. Para lograr su funcionamiento, se requirió de la instalación de los siguientes elementos:  Computadora funcionando con sistema operativo Linux: se eligió la distribución Linux Mint 21, Cinnamon 64-bit.  Instalación de la base de datos Postgres en su versión 14+258.  Instalación completa de Latex para la creación de los exámenes admitiendo figuras y fórmulas matemáticas.  Instalación de la biblioteca GTK+2 y GTK+3 para creación de interfaces gráficas de usuario.  Instalación de Gnuplot como programa para la generación de gráficas en 2 y 3 dimensiones.  Instalación del compilador GCC.  Instalación de Evince como elemento para despliegue de archivos en formato PDF.  Compilación del archivo Examiner.tgz, con los paquetes de “The Examiner”.  Recuperación del respaldo de la base de datos ex.data.2021.tgz en Postgres.  Además, se utilizaron todos los archivos de código fuente desarrollados, para poder dar trazabilidad a las funcionalidades y cálculos internos del software. 13 3.1.2 Población Para los fines de este trabajo, se utilizó un respaldo de la base de datos con la siguiente información:  Cantidad de materias incluidas: 13 materias.  Cantidad de ítems incluidos: 3500 ítems.  Cantidad de exámenes aplicados: 158 exámenes.  Cantidad de alumnos evaluados: 1833 alumnos con evaluaciones procesadas. 3.2 Métodos En esta sección se explica de forma general el proceso necesario que se debe seguir para poder generar exámenes automáticos con el software, el flujo de tareas que se planteó para la realización de este trabajo, así como los métodos que se contemplaron para el análisis desde la perspectiva de la TCT y la TRI. 3.2.1 Funcionamiento general del software Partiendo de la correcta instalación del sistema computacional, en términos generales para poder generar exámenes automáticos el usuario debe completar dos procesos principales2: a) Proceso principal de entrada de datos: en la Figura No. 1 se presenta un esquema que menciona las entradas principales que se requieren a nivel de la interfaz de usuario para alimentar la base de datos. 2 En el Anexo No.1 se presenta una guía ilustrada del software, con el fin de que el lector tenga una mejor noción de cómo luce el software y cómo funciona. 14 FIGURA NO. 1: ENTRADA DE DATOS AL SOFTWARE Fuente: elaboración propia Siguiendo el flujo de la Figura No. 1, para comenzar a utilizar el software, se necesita incluir en el software un autor o profesor, quien es el actor que declara las materias para la base de datos. Estas materias contemplan a su vez temas y subtemas propios y una vez declarados esos temas y subtemas, se pueden incluyen ejercicios y preguntas, que son la base para la generación de exámenes. b) Proceso de generación de exámenes: en la Figura No. 2, se muestra un esquema sobre la generación de exámenes con “The Examiner”. 15 FIGURA NO. 2: PROCESO DE GENERACIÓN DE EXÁMENES Fuente: elaboración propia Con base en la Figura No. 2 y partiendo de la premisa que se ha construido una base de datos poblada con al menos una materia, con temas y subtemas, preguntas y ejercicios, el autor/profesor debe seguir con la creación de un elemento que se define como “esquema” del examen que desea generar. Un “esquema” es una estructura que se construye sobre la base de una determinada materia, para la cual se escogen los temas y subtemas que se quieren evaluar y que incluye además la cantidad de preguntas que se deseen evaluar para cada uno de esos temas y subtemas. Adicionalmente, el autor/profesor debe parametrizar las reglas de “sorteo” para el proceso interno de selección del banco de preguntas. El “sorteo” es un mecanismo por distribución aleatoria que utiliza el software para asignar a cada pregunta una determinada cantidad de “boletos” que le darán mayor o menor peso a la hora de ser elegidas en el proceso de selección automática para la construcción de exámenes. Estos “boletos” aplican para las siguientes características de cada pregunta: boletos por nivel de dificultad3, boletos por nivel de discriminación, boletos por novedad de la pregunta en la base de datos y boletos por la cantidad de estudiantes o usos que ha tenido la pregunta históricamente. Por defecto, el software asigna la misma cantidad de boletos al sorteo, pero en caso de querer parametrizarlo 3 Al ingresar una pregunta por primera vez, el criterio de dificultad es asignado por parte del autor/profesor y posteriormente se modifica con los valores reales de calificación del examen en el que la nueva pregunta sea utilizada. 16 de manera distinta, el autor/profesor podría manipular a discreción esas cantidades de “boletos”, dando mayor o menor cantidad de “boletos” a cualquiera de las características que se mencionaron. 3.2.2 Planteamiento del flujo de trabajo En la Figura No. 3, se muestra el flujo de tareas que se plantea para poder realizar el proceso de generación de información y análisis de este trabajo. FIGURA NO. 3: FLUJO DE TAREAS A REALIZAR Fuente: elaboración propia A continuación, el detalle de las tareas planteadas en la Figura No. 3:  Instalación del software: la instalación limpia del software requiere el ambiente del sistema operativo Linux y la instalación de los paquetes mencionados en la sección de materiales.  Comprensión de la base de datos y del código fuente: una vez instalado el software y el archivo de la base de datos, es necesario utilizar herramientas para 17 la visualización gráfica de las tablas, con el fin de comprender el funcionamiento en cuanto al almacenamiento de la información y adicionalmente, poder analizar de forma general el código fuente, para poder dar trazabilidad en cuanto a cálculos y funciones utilizadas a lo interno, con el fin de hacer comprobaciones y comparaciones de resultados posteriormente.  Recreación de notas, indicadores de exámenes reales y análisis descriptivo: una vez entendida la forma de relación de almacenamiento en tablas y funcionamiento general del software, se utilizarán herramientas como el software R, hojas electrónicas y el software Python, para conseguir la recreación de resultados de exámenes y generar estadísticas descriptivas.  Análisis de exámenes consignados en la base de datos con el enfoque de TCT: con un ambiente en el que se puedan recrear las notas de los exámenes reales, se procederá al análisis de parámetros con un enfoque de TCT.  Generación de exámenes simulados para análisis de captura de indicadores TCT: adicionalmente a la revisión de exámenes reales consignados en la base de datos, se simularán pruebas por materias, para realizar análisis adicionales del enfoque de la TCT.  Análisis de exámenes reales y simulados a partir de la TRI: se realizará el proceso de ajuste de los exámenes reales y simulados con un enfoque de la TRI, utilizando paquetes del software R (específicamente las librerías ltm, eRt, mirt). 18 3.2.3 Métodos relacionados con la TCT Los métodos descritos a continuación tienen relación directa con la TCT y son elementos que están contemplados en la versión del software “The Examiner” que se estudió para este trabajo. 3.2.3.1 Índice de dificultad del ítem Una de las medidas que contempla “The Examiner” es el índice de dificultad, que se interpreta como la probabilidad de que una persona conteste de forma correcta un ítem i. Entonces, este índice asume valores entre 0 y 1, donde valores más cercanos al 1 indican preguntas más fáciles (en las que la proporción de respuestas correctas es alta) y valores más cercanos a 0 indican preguntas más difíciles (en las que la proporción de respuestas correctas es menor) 3.2.3.2 El coeficiente alfa El coeficiente alfa fue desarrollado por Cronbach en 1951 como una de las formas para medir la fiabilidad de una prueba y se representa por medio de la siguiente fórmula (Martínez Arias, Hernández Lloreda, & Hernández Lloreda, 2014): 𝛼 = 𝑛 𝑛 − 1 (1 − ∑ 𝜎𝑗 2𝑛 𝑗=1 𝜎𝑥 2 ) Donde: n es el número de elementos de una prueba, 𝜎𝑗 2 es la varianza de un ítem (j = 1, 2, …, n), 𝜎𝑥 2 es la varianza total de la prueba. El coeficiente alfa varía entre 0 y 1, donde valores más cercanos a 1 indican mejores resultados de fiabilidad de la prueba. 19 3.2.3.3 Índice de correlación biserial puntual Se utiliza el índice de correlación biserial puntual (rpb) como medida de discriminación de un ítem. Se trata de un factor de correlación entre las respuestas dicotómicas de un ítem en relación con la calificación total de la prueba, donde puede asumir valores entre -1.0 y +1.0; valores cercanos a +1.0 indican que el ítem discrimina mejor entre las personas que tienen o no el conocimiento para responderlo de forma correcta. Un valor de 0 en el rpb es un indicador que el ítem no discrimina entre personas con o sin el conocimiento para responderlo. El rpb se calcula con la siguiente fórmula: 𝑟𝑝𝑏 = 𝑀1 − 𝑀0 𝑆𝑛 √ 𝑛1𝑛0 𝑛2 Donde: 𝑀1 es la media del puntaje global del examen incluyendo el grupo que contestó de manera correcta el ítem i, 𝑀0 es la media del puntaje global del examen incluyendo el grupo que contestó de forma incorrecta el ítem i, 𝑆𝑛 es la desviación estándar de la prueba, 𝑛 es la cantidad de personas que respondieron la prueba, 𝑛1 es la cantidad de personas que contestaron de forma correcta el ítem i, 𝑛0 es la cantidad de personas que contestaron de forma incorrecta el ítem i. 3.2.4 Métodos relacionados con la TRI: modelo de Rasch Anteriormente se abordaron los fundamentos del modelo de Rasch. En esta sección se mencionan los aspectos más de uso práctico del modelo como tal. Se ha mencionado que el modelo de Rasch permite la medición conjunta de un rango latente de un individuo y un nivel de dificultad de un ítem. 20 Según el modelo de Rasch una persona que responda a un ítem equivalente a su umbral de competencia tendrá la misma probabilidad de responder de forma correcta o incorrecta, es decir que P(x=1) = P(x=0) = 0,50 lo que significaría que: 𝑙𝑛 [ 0,5 1 − 0,5 ] = θ𝒏 − 𝛿𝑖 𝑙𝑛[1] = θ𝒏 − 𝛿𝑖 0 = θ𝒏 − 𝛿𝑖 Entonces, si la competencia del sujeto es mayor que la requerida por el ítem se cumple que (θ𝒏 − 𝛿𝑖) > 0; y entonces la probabilidad de respuesta correcta sería mayor que la de respuesta incorrecta. Por otro lado, si la competencia del sujeto es menor que la requerida por el ítem se cumple que (θ𝒏 − 𝛿𝑖) < 0 y por consiguiente la probabilidad de respuesta correcta sería menor que la de respuesta incorrecta. En los siguientes ejemplos gráficos se muestra el comportamiento de lo que se conoce como curvas características de los ítems, que son gráficos que muestran en el eje horizontal los valores de habilidad del individuo en escala logit y en el eje vertical la probabilidad de responder a un ítem de forma correcta. 21 GRÁFICO NO. 1: EJEMPLO DE UNA CURVA CARACTERÍSTICA DE UN ÍTEM (CON DIFICULTAD DEL ITEM Y HABILIDAD IGUAL A 0) Fuente: elaboración propia En el Gráfico No.1 se presenta el caso en el que una persona que presente un nivel de habilidad cero (θ = 0) en la escala logit y que el nivel de dificultad de la pregunta también sea cero (𝛿 = 0), al aplicar la ecuación del modelo de Rasch, se genera una probabilidad de que su respuesta sea correcta de un 0.5. Esta es la situación “ideal” de discriminación de un ítem, en el que las personas en el umbral de su habilidad tienen 50% de probabilidad de contestar de forma correcta un ítem. Por otro lado, suponiendo que la misma persona con nivel de habilidad o rasgo latente cero (θ = 0) se expone a una pregunta con nivel de dificultad -2 (𝛿 = -2), aumenta la probabilidad de que su respuesta sea correcta a un valor de 0.88, como se muestra en el Gráfico No.2: 22 GRÁFICO NO. 2: EJEMPLO DE UNA CURVA CARACTERÍSTICA DE UN ÍTEM (CON DIFICULTAD DEL ITEM = -2 Y HABILIDAD = 0) Fuente: elaboración propia Finalmente, si la misma persona con nivel de habilidad o rasgo latente cero (θ = 0) se expone a un ítem con un nivel de dificultad 2 (𝛿 = 2), disminuye la probabilidad de que su respuesta sea correcta a un valor de 0,12 como se muestra en el gráfico No.3: GRÁFICO NO. 3: : EJEMPLO DE UNA CURVA CARACTERÍSTICA DE UN ÍTEM (CON DIFICULTAD DEL ITEM = 2 Y HABILIDAD = 0) Fuente: elaboración propia 23 CAPÍTULO IV: RESULTADOS En esta sección se presentan los resultados para cada una de las tareas consignadas en el flujo de tareas a realizar de la figura No.3. 4.1 Instalación del software El software en su versión actual requiere un sistema operativo Linux para lograr la instalación de los elementos requeridos, mencionados en apartados anteriores. El resultado de esta tarea fue positivo y se logró poner en funcionamiento el programa, así como la restauración del archivo de respaldo de la base de datos suministrada a la fecha. En la Figura No. 4 se muestra la pantalla de inicio del software en funcionamiento: FIGURA NO. 4: PANTALLA PRINCIPAL DEL SOFTWARE EN FUNCIONAMIENTO Fuente: “The Examiner” 24 4.2 Comprensión de la base de datos y del código fuente Con el software en funcionamiento, el siguiente paso consistió en explorar la construcción de la base de datos, con el fin de identificar las tablas clave para el análisis de la información histórica de los exámenes aplicados, así como el funcionamiento a lo interno del sistema. 4.2.1 Resumen del modelo de la base de datos El modelo de la base de datos cuenta con 17 tablas. En la Figura No. 5 se puede observar un diagrama del modelo de la base de datos. Esta tarea fue necesaria para poder entender los flujos de la información en el software, tanto para la construcción de exámenes, así como su almacenamiento de datos, con el fin de comprender los algoritmos del sistema y poder recrear calificaciones. FIGURA NO. 5: MODELO DE LA BASE DE DATOS Fuente: base de datos “The Examiner” 25 A continuación, se agrupan las tablas según su utilidad y se presenta una descripción breve de las mismas:  Tablas para el almacenamiento de información de ejercicios y preguntas: o bd_personas: almacena la información del usuario del sistema (autor o profesor). o bd_materias: almacena las materias, temas y subtemas ingresados por el usuario. o bd_ejercicios y bd_texto_ejercicios: almacenan la información de los ejercicios, ligados a la tabla de materias. o bd_texto_preguntas: almacena los detalles de las preguntas asociadas a los ejercicios. o bd_estadisticas_preguntas: almacena la información de las preguntas conforme se registran datos históricos de los exámenes aplicados.  Tablas para la creación de esquemas: o ex_esquemas y ex_esquemas_lineas: almacenan los esquemas o estructuras de los exámenes que el autor/profesor desea construir (materia, temas y subtemas a evaluar, así como la cantidad de preguntas)  Tablas para la creación de preexámenes y exámenes o ex_pre_examenes y ex_pre_examenes_lineas: almacenan la información de los preexámenes que el autor/profesor decide fijar como candidatos a ser transformados en exámenes o ex_examenes, ex_examenes_preguntas, ex_versiones: almacenan la información identificación de los exámenes, la estructura de las preguntas que incluyen y en el caso de versiones, las diferentes posiciones en las que el software baraja las opciones de respuesta. o ex_examenes_respuestas: almacena las respuestas de los estudiantes para construir las calificaciones. o ex_examenes_ajustes: almacena en caso de ser necesario, ajustas a los exámenes debidos a situaciones particulares de las preguntas. 26  Tablas misceláneas no utilizadas para este análisis: o pa_parametros: almacena parámetros principales para el funcionamiento del software o bd_objetivos: almacena información opcional de objetivos de aprendizaje o bd_excluyentes: tabla de uso interno del sistema 4.2.2 Comprensión de la organización y estructura del código fuente: La siguiente tarea preparatoria y fundamental para la realización de análisis de datos, consistió en comprender la organización y estructura de los códigos fuente del software, con el fin de poder dar trazabilidad a los algoritmos. Los archivos fuente están desarrollados en lenguaje C. A continuación, se presenta un listado de los nombres de los archivos fuente y una descripción breve de cada una de sus funcionalidades:  Archivo EX: Archivo principal  Archivo EX100: Actualización de Parámetros  Archivo EX1010: Respalda la base de datos  Archivo EX1020: Instala nuevas versiones  Archivo EX2000: Actualización Archivo de Materias  Archivo EX2010: Actualización Objetivos de Cursos  Archivo EX2020: Actualización Archivo de Personas  Archivo EX2030: Actualización Archivo de Ejercicios  Archivo EX2040: Actualización Archivo de Preguntas  Archivo EX2050: Recorre Preguntas por Materia, Tema Y Subtema  Archivo EX2060: Copia Ejercicios  Archivo EX2070: Crea ligas entre ejercicios  Archivo EX3000: Crea un esquema de examen  Archivo EX3010: Actualiza parámetros para la asignación de boletos a cada pregunta  Archivo EX3020: Genera un preexamen a partir de un esquema predefinido  Archivo EX3030: Refina un preexamen  Archivo EX3040: Convierte un preexamen en examen  Archivo EX3050: Imprime versiones de un examen  Archivo EX4000: Revisa exámenes  Archivo EX4010: Analiza exámenes  Archivo EX4020: Actualiza base de datos de preguntas con la información de un examen ya ejecutado  Archivo EX5000: Lista materias, temas y subtemas “The Examiner”  Archivo EX5010: Lista ejercicios registrados 27  Archivo EX5020: Análisis de la base de datos  Archivo EX5030: Cruza dos variables asociadas a las preguntas y permite listar las preguntas en cada cruce (de momento limitado a dificultad vs. Discriminación)  Archivo EX5040: Lista esquemas, preexámenes y exámenes  Archivo EX6000: Borra exámenes viejos, revisa estado del examen y ofrece opciones de borrado  Archivo EX6010: Elimina preexámenes viejos  Archivo EX6020: Elimina esquemas viejos  Archivo EX6030: Borra todos los ejercicios de un subtema, un tema o una materia 4.3 Análisis descriptivos, recreación de notas e indicadores de exámenes reales Partiendo de la comprensión de las relaciones entre las tablas de la base de datos y una idea clara de la estructura de desarrollo del software, el siguiente paso consistió en explorar la base de datos y recrear un examen, para validación de los elementos de cálculo de notas. 4.3.1 Análisis descriptivos En el Cuadro No. 1 se muestra un resumen de la base de datos en cuanto a materias4, cantidad de exámenes por cada materia y total de calificaciones consignadas en la base de datos. CUADRO NO. 1: MATERIAS, EXÁMENES Y CALIFICACIONES EN LA BASE DE DATOS Fuente: información consignada en la base de datos “The Examiner” 4 Las materias en cuestión corresponden a cursos de programas impartidos por el Instituto Tecnológico de Costa Rica como Ingeniería en Computación y Maestría en Computación, así como del programa de Maestría en Bioinformática de la Universidad de Costa Rica. 28 En el Gráfico No. 4 se puede apreciar la cantidad de alumnos que respondieron por examen. El promedio de estudiantes evaluados por examen es de 13 estudiantes, el 84% de los exámenes se aplicaron a 20 o menos estudiantes por grupo. GRÁFICO NO. 4: HISTOGRAMA ALUMNOS POR EXAMEN Fuente: generado a partir de información de la base de datos “The Examiner”. 29 4.3.2 Recreación de notas del primer examen consignado en la base de datos e indicadores de referencia generados por el software para un examen de prueba. 4.3.2.1 Recreación de notas del primer examen consignado en la base de datos. Como punto de partida, se realizó la trazabilidad del primer examen consignado en la base de datos, aplicado a 9 estudiantes del curso de Biología Molecular Computacional. Dicho examen contó con 55 preguntas y tres versiones. Básicamente, una vez realizada la prueba, el autor/profesor ingresa las respuestas de los estudiantes por medio de una interfaz, que va alimentando la base de datos. En este punto se va construyendo en la tabla de respuestas para cada estudiante, una hilera de caracteres, que almacena las respuestas que el estudiante contestó. Cada pregunta tiene 5 opciones de respuesta (A, B, C, D, E), de forma que la hilera contará con la cantidad de letras igual a la cantidad de preguntas que respondió el estudiante en el examen. Adicionalmente, se tuvo que tomar en consideración que el examen que responde cada estudiante puede tener versiones diferentes, por lo que se tuvo que desarrollar un procedimiento utilizando el programa R para conectarse a la base de datos Postgres, con el fin de poder extractar información de las tablas que incluyen exámenes, versiones de exámenes y respuestas, para poder identificar la posición de las respuestas de acuerdo a la versión específica que responde un alumno particular y así poder con eso reconstruir la calificación del alumno para su validación. En el Anexo No.2 se presenta el código desarrollado para el procedimiento mencionado. Con el procedimiento, se lograron recrear las calificaciones de los estudiantes para el examen específico, independientemente de la versión, con una media general del examen de 75,96 puntos. Con esta validación, lo siguiente fue generar un examen de prueba, para poder dar trazabilidad a los cálculos de indicadores que genera el software, como se presenta en el siguiente apartado. 30 4.3.2.2 Indicadores de referencia generados por el software para un examen de prueba. Cuando se crea un examen, el software presenta una salida a través de la interfaz gráfica en la que se muestran algunos valores que sirven de referencia para tomar decisiones en cuanto a cuáles preexámenes son de interés por parte del autor/profesor para convertirlos en exámenes, los cuales son: media, desviación estándar, coeficiente alfa y coeficiente biserial puntual (rpb). Entonces, se realizó un análisis para entender cómo calcula el software esos indicadores y para esto, se creó un usuario y se generó un nuevo examen de prueba en la base de datos. El examen de prueba tiene como identificador el número 163 y en este caso se diseñó con una única versión y 5 preguntas escogidas a discreción. Luego, siguiendo la lógica del software (1) se creó un esquema de examen, (2) se creó de preexamen, (3) se convirtió el preexamen en examen. El software le calculó una media esperada de 75.41 puntos, una desviación esperada de referencia de 16.7, un coeficiente alfa general de referencia de 0.964 y un rpb de referencia de 0.21. En la Figura No. 6, se muestra la salida gráfica del software una vez generada la estructura del examen; adicionalmente, el anexo No.3 se presenta el archivo que se genera en PDF que ilustra cómo se visualizaría el examen. FIGURA NO. 6: VISTA EXAMEN DE PRUEBA PARA CÁLCULO DE INDICADORES Fuente: imagen generada a partir de la creación de un examen en “The Examiner”. Con esta información, una tarea clave consistió en poder verificar los métodos de cálculo del software a nivel del código fuente, con el fin de poder generar análisis. A continuación, se muestra cómo se realizaron estas verificaciones. 31 a) Confirmación del cálculo de la media esperada: El examen de prueba incluyó los ítems 000415, 002897, 002893 002891 y 002894. Se realizó su ubicación en la tabla de estadísticas de preguntas, con la siguiente información utilizada para el cálculo de la media esperada y que se presenta en el Cuadro No. 2: CUADRO NO. 2: VALORES PARA CÁLCULO DE MEDIA ESPERADA PARA EXAMEN DE PRUEBA Fuente: información extractada de la tabla de estadísticas de preguntas de “The Examiner”, para el examen de prueba. La media esperada para el examen, el software la calcula de la siguiente forma: 𝑚𝑒𝑑𝑖𝑎 𝑒𝑠𝑝𝑒𝑟𝑎𝑑𝑎 = [ 𝑠𝑢𝑚𝑎 𝑑𝑒 𝑑𝑖𝑓𝑖𝑐𝑢𝑙𝑡𝑎𝑑𝑒𝑠 𝑑𝑒 í𝑡𝑒𝑚𝑠 𝑡𝑜𝑡𝑎𝑙 𝑑𝑒 í𝑡𝑒𝑚𝑠 ] ∗ 100 Donde: dificultad del ítem para cada ítem, se calcula dividiendo la cantidad de respuestas correctas entre el número total de respuestas. Entonces en este caso, la media esperada que se calcula es de 75,40 replicando el cálculo que se presenta en la interfaz gráfica de forma automática. Pregunta Ultimo examen Año último uso Estudiantes que la han respondido Cantidad respuestas correctas Cantidad respuestas incorrectas Dificultad ítem Coeficiente alpha Coeficiente biserial puntal 000415 00090 2018 67 58 9 0,866 0,940148 0,148506 002897 00081 2018 19 18 1 0,947 0,983496 -0,00905 002893 00110 2019 41 29 12 0,707 0,980746 0,447343 002891 00122 2019 66 59 7 0,894 0,966793 0,189257 002894 00110 2019 59 21 38 0,356 0,969093 0,208742 32 b) Confirmación de la desviación estándar de referencia de los ítems a partir de la información histórica de la base de datos: Como una medida de referencia, el software calcula una desviación estándar del conjunto de ítems escogidos para la prueba. Realizando la búsqueda de su procedimiento y forma de cálculo en los archivos de código fuente, se determinó que utiliza un escalamiento que se ejecuta de la siguiente forma: 𝑑𝑒𝑠𝑣𝑖𝑎𝑐𝑖ó𝑛_𝑒𝑠𝑡_𝑐𝑜𝑛𝑗𝑢𝑛𝑡𝑜_í𝑡𝑒𝑚𝑠 = √[∑ 𝑝𝑖(1 − 𝑝𝑖) 𝑛 𝑖=1 ] ∗ [ 100 𝑛 ] 2 Donde: pi es el índice de dificultad de cada ítem y n se refiere a la cantidad total de ítems. En este caso, con base en la información que se extrajo de la base de datos para los ítems del examen de prueba y la fórmula anterior, se calcula una desviación estándar de referencia para el conjunto de los 5 ítems elegidos de 16.69, que equivale efectivamente al valor presentado de forma automática en la interfaz gráfica del software. c) Confirmación del coeficiente alfa de referencia para el examen de prueba: Conforme se ingresan calificaciones al software, la base de datos va almacenando los valores del coeficiente alfa para cada examen e ítem incluido y genera un cálculo de referencia que se confirmó con el procedimiento en el código fuente y que se realiza de la siguiente forma: 𝑐𝑜𝑒𝑓𝑖𝑐𝑖𝑒𝑛𝑡𝑒 𝑎𝑙𝑓𝑎 𝑟𝑒𝑓𝑒𝑟𝑒𝑛𝑐𝑖𝑎 = ∑ [(𝑥𝑖 + 1) ∗ 𝛼𝑖 ] 𝑛 𝑖=1 ∑ (𝑥𝑖 + 1𝑛 𝑖 ) Donde: xi equivale a la cantidad de personas x que han respondido al ítem i, α corresponde al coeficiente alfa histórico del examen incluido el ítem y n es la cantidad de ítems incluidos en el examen. 33 En este caso, se confirmó que, con base en la información de los 5 ítems escogidos para el examen de prueba, el valor del coeficiente alfa mostrado en la salida de la interfaz gráfica efectivamente se calculó con un valor de 0.964. d) Confirmación del valor de rpb de los ítems a partir de la información histórica de la base de datos: De forma similar al cálculo del valor de referencia del coeficiente alfa, el software calcula un valor de referencia del rpb, que se comprobó a nivel del código fuente y que se puede expresar con la siguiente fórmula: 𝑟𝑝𝑏_𝑟𝑒𝑓𝑒𝑟𝑒𝑛𝑐𝑖𝑎 = ∑ [(𝑥𝑖 + 1) ∗ (𝑟𝑝𝑏)𝑖] 𝑛 𝑖=1 ∑ (𝑥𝑖 + 1𝑛 𝑖 ) Donde xi equivale a la cantidad de personas x que han respondido al ítem i, el valor de rpb corresponde al valor del coeficiente biserial puntual histórico del ítem i consignado en la base de datos y n la cantidad de ítems incluidos en el examen de prueba. El valor calculado de rpb de referencia fue de 0,21 de forma que se pudo confirmar que es el mismo valor que presenta el software de forma automática en la interfaz gráfica. 34 4.3.3 Análisis de exámenes reales consignados en la base de datos con un enfoque de TCT. Con la comprensión de los cálculos internos de software, se procedió con el análisis de los exámenes reales consignados en la base de datos. Aquí cabe mencionar que una situación que se valoró fue la cantidad de alumnos que contestaron cada prueba, ya que hay que tomar en consideración que, por tratarse de pruebas de aula, el grupo que participa podría tratarse de un grupo con pocos estudiantes. Luego, con la exploración de la base de datos se tomó la decisión de incluir los 50 exámenes con mayor cantidad de estudiantes evaluados, que corresponden a exámenes con 15 o más estudiantes. Como se mencionó, esta situación es comprensible debido a la cantidad de alumnos por curso que típicamente se matriculan en un curso de carrera para un periodo académico determinado. A continuación, se presenta un histograma que refleja esta segmentación de los 50 exámenes con mayor cantidad de estudiantes: GRÁFICO NO. 5: HISTOGRAMA 50 EXÁMENES CON MAYOR PARTICIPACIÓN DE ESTUDIANTES Fuente: base de datos de “The Examiner”, 35 4.3.3.1 Análisis de la media real vs. media esperada para los 50 exámenes con mayor participación de estudiantes. Con los 50 exámenes de 15 o más alumnos, se calcularon intervalos de confianza del 95% para la media de las calificaciones reales y se ubicó el valor de la media esperada que se generó por medio del software, con el fin de verificar qué porcentaje de esos valores se ubicaron dentro del intervalo de confianza construido, como una forma de evaluar el indicador pronosticado y se comprobó que en 42 exámenes de los 50 (es decir en el 84% de los casos), el valor de la media esperada quedó contenido en el intervalo de confianza para el examen particular y en el resto de los casos, es decir 8 de 50 exámenes ( o lo mismo que el 16%) quedaron por fuera de los límites de los intervalos de confianza correspondientes5. En el Cuadro No. 3 se presenta un resumen de los resultados anteriores: 5 En el anexo No.4, se presenta el código del procedimiento utilizado para esta sección. 36 CUADRO NO. 3: RESULTADOS INTERVALOS DE CONFIANZA EXÁMENES REALES ANALIZADOS Fuente: intervalos construidos a partir de información de la base de datos de “The Examiner”, para los 50 exámenes con mayor participación de estudiantes. examen Límite Inferior IC Media Examen Límite superior IC Desviación Estándar Media esperada En intervalo ex00002 62,4 68,3 74,2 13,1 68,6 Sí ex00004 62,2 68,5 74,8 13,6 66,6 Sí ex00008 62,5 69,1 75,7 13,9 68,8 Sí ex00009 61,6 67,4 73,2 12,3 65,9 Sí ex00039 66,2 69,6 73,1 10,9 66,5 Sí ex00044 62,0 66,0 70,1 9,9 68,7 Sí ex00048 63,2 67,9 72,7 9,3 69,3 Sí ex00050 67,8 71,4 74,9 7,0 69,8 Sí ex00065 60,3 65,1 69,9 10,7 65,9 Sí ex00068 59,3 64,4 69,4 10,3 69,0 Sí ex00075 57,8 66,0 74,2 16,1 65,9 Sí ex00080 56,9 62,0 67,1 11,8 65,0 Sí ex00081 52,0 58,0 64,0 13,4 52,6 Sí ex00083 62,4 69,0 75,7 14,4 67,3 Sí ex00085 62,6 68,1 73,6 12,2 66,7 Sí ex00089 56,5 61,4 66,3 12,0 61,8 Sí ex00090 55,5 60,1 64,7 11,2 60,1 Sí ex00091 55,9 62,7 69,5 13,9 66,7 Sí ex00092 58,7 64,6 70,5 11,7 67,6 Sí ex00095 52,1 58,7 65,2 14,6 58,2 Sí ex00098 67,8 72,6 77,4 9,9 70,7 Sí ex00101 52,1 58,1 64,1 13,0 56,8 Sí ex00103 65,3 70,4 75,5 11,5 66,4 Sí ex00105 60,2 66,1 71,9 15,1 67,4 Sí ex00106 50,3 56,4 62,5 15,6 62,0 Sí ex00108 59,1 65,8 72,4 14,8 64,0 Sí ex00112 61,4 64,5 67,5 8,5 64,0 Sí ex00120 55,9 63,2 70,4 16,6 64,5 Sí ex00121 62,3 66,7 71,2 12,4 66,3 Sí ex00124 60,5 66,5 72,5 12,2 66,2 Sí ex00125 55,6 61,6 67,7 13,8 65,5 Sí ex00126 60,0 65,7 71,4 12,3 69,5 Sí ex00127 65,5 70,7 75,9 10,6 68,4 Sí ex00128 59,4 64,6 69,8 11,8 61,3 Sí ex00130 59,4 67,6 75,9 17,9 72,9 Sí ex00131 65,5 71,8 78,0 15,0 74,8 Sí ex00137 63,4 66,8 70,3 6,8 65,1 Sí ex00138 53,2 57,2 61,3 9,5 61,4 Sí ex00139 56,8 61,3 65,9 11,8 63,9 Sí ex00140 70,0 75,9 81,7 11,9 70,9 Sí ex00146 53,8 59,4 65,0 12,8 61,6 Sí ex00147 47,0 57,5 68,1 21,6 62,6 Sí ex00060 67,4 72,7 77,9 12,3 66,2 No ex00096 49,1 54,6 60,0 12,7 63,2 No ex00102 50,6 54,6 58,7 10,6 60,4 No ex00110 45,4 50,5 55,7 12,7 59,9 No ex00113 50,3 54,2 58,1 10,4 61,4 No ex00117 52,5 57,5 62,5 13,1 63,6 No ex00122 50,0 55,1 60,2 12,0 67,4 No ex00135 58,9 63,2 67,4 11,1 67,9 No 37 4.3.3.2 Análisis del coeficiente alfa real vs. coeficiente alfa de referencia para los 50 exámenes con mayor participación de estudiantes. Para la construcción de intervalos del 95% de confianza del coeficiente alfa, se utilizó la librería Cronbach de R, específicamente con su función cron.ci y se detectó que el 100% de los valores esperados estaban por fuera de los intervalos de confianza. Dado lo anterior, se procedió a realizar una validación a nivel de código fuente sobre el mecanismo de cálculo del coeficiente alfa, con el siguiente hallazgo: el cálculo en el coeficiente alfa generado por el software, utiliza la varianza de las notas obtenidas por los estudiantes, en el lugar de la varianza total del instrumento con base en la cantidad de respuestas correctas eliminando los ítems que no presentan variabilidad. Esto se confirmó con una corrida de cálculo del coeficiente alfa para el primer examen de la base de datos. En el Cuadro No. 4 se presentan los insumos para el cálculo del coeficiente alfa real y para el coeficiente alfa según el software: CUADRO NO. 4: VARIANZA SEGÚN CANTIDAD DE RESPUESTAS BUENAS POR ESTUDIANTE Y VARIANZA SOBRE NOTA BASE 100 Fuente: cálculo sobre examen 001 de la base de datos de “The Examiner” Estudiante Cantidad respuestas buenas Nota base 100 1 26 70,3 2 24 64,9 3 27 73,0 4 30 81,1 5 26 70,3 6 22 59,5 7 30 81,1 8 16 43,2 9 22 59,5 Varianza por columna 17,3 126,3 38 Entonces, aplicando la fórmula para cálculo del coeficiente alfa: 𝛼 = 𝑛 𝑛 − 1 (1 − ∑ 𝜎𝑗 2 𝜎𝑥 2 ) Donde: n es el número de elementos de una prueba, 𝜎𝑗 2 es la varianza de un ítem (j = 1,2, … , n), 𝜎𝑥 2 es la varianza total de la prueba. Sabiendo que la sumatoria de las varianzas individuales de los ítems es de 6,247 tenemos que el coeficiente alfa calculado por el software a partir de la varianza de las notas con base 100 de los estudiantes es de: 𝛼 = 37 37 − 1 (1 − 6,247 126,3 ) 𝛼 = 0,977 Y si se realiza el cálculo del coeficiente alfa tomando en consideración la varianza calculada a partir de la cantidad de respuestas correctas, el valor corregido es de: 𝛼 = 37 37 − 1 (1 − 6,247 17,3 ) 𝛼 = 0,656 Cabe mencionar que este valor de 0,656 también se comparó con la salida de cálculo de coeficiente alfa del paquete Cronbach de R, como forma de validación del cálculo manual. 39 A partir de este hallazgo, se realizó se corrió un procedimiento para la construcción de intervalos de confianza del coeficiente alfa para los 50 exámenes analizados (en el anexo No.4) se presenta el código del procedimiento utilizado para esta sección) y se categorizaron sus valores centrales según Sheu et. Al (2005), donde valores superiores a 0,9 se consideran excelentes, valores en 0,8 y 0,9 se consideran buenos, entre 0,7 y 0,8 aceptables, entre 0,6 y 0,7 cuestionables, entre 0,5 y 0,6 pobre y menos de 0,5 inaceptables. Los resultados se muestran en el Cuadro No. 5: CUADRO NO. 5: CATEGORÍA COEFICIENTES ALFA CORREGIDOS Fuente: cálculos a partir de base de datos “The Examiner” Se puede ver que sumando los exámenes con coeficientes alfa corregidos que se pueden categorizar como buenos o aceptables, el resultado es de 36 exámenes (es decir el 72%), 11 de los exámenes (o lo que significa el 22%) presentan una condición cuestionable y el resto, es decir 3 de los 50 exámenes (equivalente a un 6%) presentan una condición de pobre o inaceptable. Con esta revisión se puede concluir que a pesar del hallazgo sobre el cálculo de los coeficientes alfa a nivel del software, el resultado de los coeficientes alfa corregidos, arrojan resultados bastante positivos. Categoría coeficiente alpha Cantidad de exámenes Porcentaje Acumulado Bueno (0,8 < α < 0,9) 18 36% Aceptable (0,7 < α < 0,8) 18 36% Cuestionable (0,6 < α < 0,7) 11 22% Pobre (0,5 < α < 0,6) 1 2% Inaceptable (0,5 < α) 2 4% Total 50 100% 40 4.3.3.3 Análisis de la desviación estándar como valor de referencia para la generación de exámenes: La desviación estándar de las calificaciones de un examen, se han utilizado para la construcción de intervalos de confianza para la media y comparar ese segundo valor con el valor puntual de referencia que brinda el software. En cuanto al valor de referencia que genera el software respecto a la desviación estándar para un examen, el cálculo que se mostró en la sección 4.3.2.2 se trata de una forma de escalar una magnitud utilizando la sumatoria de los valores de varianza del ítem calculados por medio de las proporciones de aciertos y desaciertos de un ítem y luego calculándole la raíz cuadrada a esa sumatoria de varianzas, lo cual no es comparable con la desviación estándar producto de las calificaciones obtenidas por los estudiantes que participaron en el test. Es por lo que, no se realizará mayor profundización del valor de la desviación estándar como aspecto puntual para la generación de exámenes y toma de decisiones a la hora de escogencia de un preexamen particular. 4.3.3.4 Análisis del coeficiente de correlación biserial puntual. Según (Martínez Arias, Hernández Lloreda, & Hernández Lloreda, 2014), una situación frecuente en análisis de ítems es relacionar el resultado del ítem dicotómico con la puntuación del test por medio del coeficiente de correlación biserial puntual y según (Menenses, y otros, 2013), “es muy sencillo ver que una alta correlación, cercana a 1,indica una gran discriminación del ítem, que valores cercanos a –1 indican lo contrario (donde los buenos fallan el ítem y los malos lo aciertan) y que valores cercanos a 0 indican que nada tiene que ver acertar este ítem con el conocimiento que mide el conjunto de la prueba”. Ahora, cuando se genera un examen en el software, los ítems muestran sus valores históricos del rpb , ya sean valores positivos o negativos. Esto se comprobó con el examen de prueba y se confirmó que uno de los ítems (00081), mostró un valor de correlación biserial puntual de -0,00905, que implicaría ser un ítem para no tomar en consideración. Luego, el valor de referencia de rpb que se presenta como parte de la toma de decisiones para la elección de un examen, pondera de forma general los ítems como se mostró en secciones anteriores, lo cual aporta una referencia a nivel general para la comparación de preexámenes que se pueden generar con el software. Por medio de la función cor.bis del paquete ltm de R, se 41 analizó un examen real (el examen 00004, con el código que se puede observar en el anexo No.4), para fines de evaluación de ese grupo de ítems. Se utilizó como criterio de decisión, un valor de rpb de 0,2 para determinar si un ítem es aceptable o no en términos de discriminación. Los resultados de la revisión de los valores de rpb de ese examen particular de 55 ítems son: 40 ítems con rpb mayor a 0,2 (lo que significa el 73% de los casos), 14 ítems con valores menores a 0,2 (lo que significa el 25% de los casos) y 1 caso que no se toma en cuenta porque fue respondido de forma correcta por el 100% de los participantes. Para la construcción de los preexámenes, cabe mencionar que el software habilita una serie de mensajes muy útiles a partir del rpb de cada ítem individual e inclusive para cada una de las opciones de cada pregunta, con el fin de que el autor/profesor cuente con información para gestionar las preguntas y así poder mejorar aspectos de redacción o inclusive eliminación de opciones. En la Figura No. 7 se muestra cómo se visualiza ese tipo de mensajes: FIGURA NO. 7: EJEMPLO DE MENSAJES SOBRE INDICES DE CORRELACION BISERIAL PUNTUAL POR PREGUNTA Fuente: “The Examiner” 42 4.4 Generación y análisis de exámenes simulados con TCT A partir de los resultados del análisis de los 50 exámenes reales con mayor cantidad de alumnos evaluados, se procedió a aumentar el estudio, realizando una comprobación por medio de la generación de 18 exámenes simulados. El procedimiento para la generación de esas pruebas simuladas fue la siguiente:  Utilizando la base de datos, se identificaron las preguntas con mayor cantidad de respuestas, tomando como referencia un mínimo de 50 estudiantes por pregunta. Esta selección arrojó un total de 523 preguntas agrupadas, como se muestra en el Gráfico No. 6: GRÁFICO NO. 6: CANTIDAD DE ALUMNOS POR PREGUNTA PARA EXÁMENES SIMULADOS Fuente: “The Examiner” 43 La distribución de esas 523 preguntas con 50 o más respuestas, se agrupan por materia como se muestra en el Cuadro No. 6 : CUADRO NO. 6: DISTRIBUCIÓN POR MATERIA DE PREGUNTAS CON 50 O MÁS RESPUESTAS Fuente: “The Examiner”  Partiendo del enfoque por cada materia como premisa de mismo contenido evaluado, se creó un procedimiento para extractar de la base de datos preguntas, estudiantes y sus respuestas, convirtiéndolas en matrices binarias para poder realizar los cálculos necesarios (el procedimiento se puede observar en el anexo No.5)  Se configuraron 3 exámenes por materia, escogiendo conjuntos de preguntas contestadas por un mismo grupo de estudiantes que hubieran cursado la materia en cualquier momento del tiempo.  Se realizó el análisis para los exámenes simulados (en el anexo No.6 se presenta el código del procedimiento desarrollado) Código materia Cantidad de preguntas COMP 156 FOC 117 ININ 97 AA 49 IO 37 BMC 34 PCB 18 CG 15 Total 523 44 Los resultados de la simulación se resumen en el Cuadro No. 7 : CUADRO NO. 7: RESULTADOS EXÁMENES SIMULADOS Fuente: elaboración propia a partir de base de datos “The Examiner” Con el cuadro No.7 se puede observar que, en el 100% de los casos de la media predicha por el software, se ubicó dentro del intervalo de confianza simulado En cuanto al coeficiente alfa, tomando en consideración que la fórmula que aplica internamente el software presenta un error de cálculo, no se realizarán comparaciones con los valores predichos por el software. Sin embargo, como se puede revisar en la tabla No.8, las magnitudes capturadas para el coeficiente alfa no sean del todo las deseables, sí pueden brindar información útil a nivel de conjunto. Por ejemplo, utilizando un gráfico de jerarquías se puede visualizar el comportamiento por materia, como se muestra en el Gráfico No. 7 : Código examen simulado Cantidad alumnos Cantidad de preguntas Media predicha por el software Límite inferior intervalo de confianza media simulada (95%) media simulada Límite superior intervalo de confianza media simulada (95%) Coeficiente Alpha examen simulado AA_01 25 22 52,14 41,63 49,45 57,28 0,80 AA_02 18 12 59,64 50,79 60,19 69,58 0,65 AA_03 18 12 64,76 58,35 68,06 77,77 0,77 BCM_01 17 15 59,19 51,23 61,57 71,91 0,78 BCM_02 9 11 59,45 50,13 60,61 71,08 0,52 BCM_03 16 7 73,10 66,34 75,00 83,66 0,44 COM_01 9 26 64,32 59,65 69,66 79,67 0,77 COM_02 21 36 63,44 63,39 69,58 75,76 0,79 COM_03 19 22 61,48 56,96 64,83 72,70 0,76 FOC_01 21 22 59,45 53,06 58,66 64,25 0,58 FOC_02 15 26 67,24 53,78 61,03 68,27 0,66 FOC_03 15 18 65,22 53,65 60,00 66,35 0,36 INN_01 19 33 64,64 61,94 68,26 74,58 0,76 INN_02 16 29 64,96 59,34 65,52 71,70 0,67 INN_03 30 24 58,07 56,38 61,25 66,12 0,59 IO_01 26 10 54,44 51,83 58,85 65,86 0,46 IO_02 15 10 64,72 56,65 64,00 71,35 0,03 IO_03 10 13 56,44 40,19 48,46 56,73 0,13 45 GRÁFICO NO. 7: GRÁFICO DE JERARQUÍA PARA COEFICIENTES ALFA 18 EXÁMENES SIMULADOS Fuente: elaboración propia a partir de base de datos “The Examiner Tomando en consideración el Gráfico No. 7, su pueden generar observaciones interesantes por materia, como por ejemplo que la materia COM (Compiladores e intérpretes) y la materia AA (Análisis de algoritmos) presentan los mejores resultados de coeficientes alfa a nivel global, mientras que la materia IO (Investigación de operaciones) es la que presenta peores desempeños a nivel de fiabilidad de las pruebas simuladas. 46 4.5 Análisis de exámenes reales y simulados a partir de un enfoque de la TRI 4.5.1 Bondad de ajuste del modelo de Rasch en exámenes reales y simulados De igual forma que para el análisis con un enfoque de TCT, se utilizaron los mismos 50 exámenes reales con mayor participación de estudiantes, con el fin de comprobar si el modelo de Rasch se adecuaba a los datos por medio de una prueba de bondad de ajuste6. Los resultados muestran que el modelo ajustó en 33 de los 50 exámenes (que equivale al 66%). Hubo 8 casos en los que el modelo no se ajustó presentando valores de p de 0,04 (que equivale al 16%) y 9 exámenes en los que el modelo no se ajustó presentando valores de p menores a 0,02 (que equivale al 18%). Para los 18 exámenes simulados, también se utilizó una prueba de bondad de ajuste para evaluar el modelo de Rasch y se obtuvo que el modelo se ajustó en 16 de los 18 exámenes simulados (que equivale al 89%) y en los otros 2 no se logró ajustar el modelo (que equivale al 11%) Si se toman en consideración ambos grupos de exámenes, tanto los reales como los simulados, se puede ver que el modelo se ajustó en un 72% de los casos. 4.5.2 Ajuste de ítems y personas 4.5.2.1 Ajuste de ítems y personas en exámenes reales Una vez realizadas las pruebas de bondad de ajuste, se utilizó el estadístico Infit para valorar el ajuste de los ítems y estudiantes de los exámenes reales y simulados. Partiendo del criterio de (Azpilicueta, Cupani, Ghío, Morán, & Garrido, 2019) sobre valores Infit en un rango de 0,5 a 1,5, para el caso de los exámenes reales, se pudo comprobar que 32 de los 50 (que equivale al 64%), se ajustaron tanto a nivel de bondad del ajuste general, sujetos e ítems. Hubo 9 exámenes, que generaron valores de ajuste aceptables tanto para ítems como para estudiantes, sin embargo, a nivel de bondad de ajuste del modelo no alcanzaron el valor de p esperado. Estos exámenes se sometieron a revisión de ajuste, eliminándoles ítems y/o sujetos 6 Se utilizó para este fin el paquete eRm y su función GoF.rasch(), en el anexo No.6 se puede observar el código desarrollado para este fin. 47 que no ajustan al modelo. En el Cuadro No. 8 se muestran los restantes 9 exámenes reales que se sometieron a revisión con el fin de eliminar ítems y/o sujetos que no presentaron buen ajuste y volver a valorar el nivel de ajuste. CUADRO NO. 8: EXÁMENES A REVISAR POR AJUSTE DE ÍTEMS Y/O ESTUDIANTES Fuente: elaboración propia a partir de datos The Examiner Se realizó una depuración de ítems y/o estudiantes que no cumplieran con el valor de referencia del estadístico Infit, con los resultados del Cuadro No. 9: CUADRO NO. 9: RESULTADO DE ELIMINACIÓN POR INFIT NO ADECUADO Fuente: elaboración propia a partir de datos The Examiner INFIT mínimo INFIT máximo INFIT mínimo INFIT máximo ex00008 0,02 0,6 1,5 0,7 1,3 ex00050 0,04 0,9 1,1 0,7 1,6 ex00083 0,02 0,6 1,4 0,6 1,6 ex00098 0,02 0,8 1,3 0,7 1,7 ex00103 0,04 0,7 1,3 0,5 1,5 ex00105 0,02 0,6 1,4 0,6 1,5 ex00110 0,04 0,8 1,1 0,8 1,5 ex00130 0,16 0,5 1,4 0,5 1,9 ex00147 0,02 0,5 1,6 0,6 1,5 Item Persona Examen Valor de p, bondad de ajuste INFIT mínimo INFIT máximo INFIT mínimo INFIT máximo ex00008 0,02 0,58 1,38 0,73 1,30 ex00050 0,04 0,92 1,08 0,69 1,46 ex00083 0,02 0,64 1,39 0,64 1,46 ex00098 0,02 0,75 1,34 0,67 1,29 ex00103 0,04 0,74 1,28 0,53 1,48 ex00105 0,02 0,63 1,38 0,56 1,48 ex00110 0,04 0,81 1,13 0,82 1,48 ex00130 0,48 0,55 1,34 0,54 1,27 ex00147 0,44 0,53 1,50 0,55 1,46 Persona Examen Valor de p, bondad de Item 48 En el examen ex00008, se eliminó un ítem, pero no impactó el resultado de la bondad de ajuste. En los casos que se eliminaron personas que sobrepasaban el valor superior del estadístico de Infit tampoco se obtuvo mejores resultados en la bondad de ajuste del modelo. Sin embargo, en el caso de los exámenes ex00130 y ex00147, que presentaron valores de Infit inferiores y superiores en ítems y estudiantes a la misma vez, al eliminar esos casos y volver a generar el procedimiento de bondad de ajuste, sí se registró una mejoría en el valor de p, convirtiéndose en exámenes que se ajustan al modelo de Rasch. 4.5.2.2 Ajuste de ítems y personas en exámenes simulados Se realizó el mismo ejercicio para los exámenes simulados. Resultando que, de los 18 ejemplares, 8 de los mismos (o lo que equivale al 44%) presentaron valores adecuados en cuanto al resultado de la prueba de bondad de ajuste, el ajuste de los ítems y el ajuste de personas. Hubo 8 casos de exámenes que presentaron valores adecuados en la bondad de ajuste, pero presentaron valores menores o mayores a los esperados a nivel del estadístico de Infit. Lo mismo ocurrió en los casos de los exámenes con valores que no apoyan el resultado de la prueba de bondad de ajuste. Además, los dos casos que no generaron valores de p adecuado en la prueba de bondad de ajuste también presentaron valores de Infit por encima o por debajo del indicador esperado. Esos 10 casos se sometieron a revisión y son los que se presentan en la siguiente tabla: CUADRO NO. 10: EXÁMENES SIMULADOS PARA REVISIÓN DE VALORES INFIT Fuente: elaboración propia a partir de datos The Examiner INFIT mínimo INFIT máximo INFIT mínimo INFIT máximo AA_02.csv 0,44 0,66 1,08 0,46 1,26 AA_03.csv 0,32 0,54 1,25 0,22 1,66 BCM_01.csv 0,04 0,62 1,43 0,25 1,69 BCM_02.csv 0,44 0,72 1,22 0,4 1,27 BCM_03.csv 0,32 0,76 1,05 0,31 1,67 COM_01.csv 0,44 0,66 1,61 0,24 1,35 COM_03.csv 0,06 0,69 1,24 0,46 1,37 FOC_01.csv 0,04 0,79 1,19 0,61 1,73 IO_01.csv 0,24 0,81 1,13 0,42 1,62 IO_02.csv 0,32 0,96 1 0,68 1,54 Item Persona Examen Valor de p, bondad de ajuste 49 Al realizar la eliminación de ítems o sujetos con valores fuera del rango de 0,5 a 1,5, se generan los resultados en el Cuadro No. 11: CUADRO NO. 11: RESULTADO DE ELIMINAR ITEMS/SUJETOS CON VALORES DE ESTADÍSTICO INFIT FUERA DE VALOR ESPERADO. Fuente: elaboración propia a partir de datos The Examiner Con los resultados tabulados anteriormente, se puede ver que se logró que el 100% de los exámenes se ajustaran al modelo, al eliminar valores altos o bajos a nivel de estadístico Infit. En los exámenes que ya presentaban valor de p no significativo en la prueba de bondad de ajuste, aunque sufrieron alguna modificación en ese valor, mantuvieron esa condición de apoyar la hipótesis de ajuste al modelo de Rasch. INFIT mínimo INFIT máximo INFIT mínimo INFIT máximo AA_02.csv 0,48 0,68 1,07 0,51 1,26 AA_03.csv 0,14 0,53 1,34 0,50 1,60 BCM_01.csv 0,14 0,63 1,48 0,38 1,65 BCM_02.csv 0,44 0,72 1,22 0,40 1,27 BCM_03.csv 0,32 0,76 1,05 0,31 1,67 COM_01.csv 0,44 0,72 1,60 0,44 1,26 COM_03.csv 0,06 0,69 1,24 0,46 1,37 FOC_01.csv 0,06 0,69 1,23 0,50 1,37 IO_01.csv 0,32 0,83 1,14 0,53 1,48 IO_02.csv 0,12 0,96 1,00 0,68 1,50 Item Persona Examen Valor de p, bondad de 50 4.5.3 Construcción de una base de datos de ítems con índices de dificultad Los resultados del apartado anterior reflejan la realidad y limitación de las pruebas en el aula, que pueden no generarse sobre la aplicación de gran cantidad de participantes, sin embargo, el ejercicio con respecto a la TRI, si se cuenta con el apoyo computacional adecuado, puede comenzar a generar información útil como lo es el ajuste en el cálculo de indicadores de dificultad de los ítems. Entonces, el siguiente paso consistió precisamente en capturar en una base de datos el resultado de los indicadores de dificultad de los ítems utilizados en los exámenes reales, así como los índices de dificultad de los ítems utilizados en los exámenes simulados, con el fin de identificar el grado de correlación de esos índices. Haciendo una revisión de la base de datos en conjunto, en el Gráfico No. 8: Ítems utilizados en exámenes reales vs. índice de dificultad, se puede observar una representación de los 1428 ítems que se utilizaron en los 50 exámenes con mayor participación, respecto al ajuste en sus índices de dificultad. GRÁFICO NO. 8: ÍTEMS UTILIZADOS EN EXÁMENES REALES VS. ÍNDICE DE DIFICULTAD Fuente: elaboración propia a partir de datos The Examiner 51 Haciendo un resumen de los elementos que conforman la figura No.15, tenemos como resultado el Cuadro No. 12: CUADRO NO. 12: ÍNDICES DE DIFICULTAD POR RANGOS Entonces, se puede ver que la base de datos de índices de dificultad para los ítems utilizados en las pruebas reales (incluyendo todas las materias), el 49% se ubican en el rango de -1 a 1 en la escala logit y que se refieren a ítems con una buena capacidad de discriminación. Un 42% de los ítems presentan índices menores a -1, lo que significa un grupo de ítems de menor capacidad de discriminación, ya que su dificultad es menor y finalmente un 8% de ítems con valores superiores a 1 en escala logit que incluirían un grupo de ítems que tampoco tienen mejor discriminan, debido a sus mayores índices de dificultad. Rango dificultad Frecuencia ítems Porcentaje d > 2 31 2% 1 < d < 2 90 6% -1 < d < 1 703 49% -2 < d < -1 349 24% d < -2 255 18% Total 1428 100% 52 4.5.4 Análisis de correlación entre índices de dificultad de la base de datos creada y los índices de dificultad de los exámenes simulados En el Cuadro No. 13 se pueden ver observar las medidas calculadas para los indicadores de los exámenes simulados, como lo es el coeficiente alfa, los índices de dificultad mínimos y máximos para el grupo de ítems contemplados en cada prueba y se incluye el cálculo del coeficiente de correlación entre los ítems de la base de datos generada como histórica (a partir de los ítems que conforman los 50 exámenes reales con mayor cantidad de estudiantes) y los índices de dificultad capturados con el ajuste de los exámenes simulados: CUADRO NO. 13: RESULTADOS DE EXÁMENES SIMULADOS Fuente: elaboración propia a partir de datos The Examiner Se puede observar que el valor predicho de la media del examen está incluido en el intervalo de confianza para el 100% de los casos, lo que hace ver que este indicador es información útil para la construcción de pruebas con el software. Código examen simulado Cantidad alumnos Cantidad de preguntas Media predicha por el software Límite inferior int.conf. media simulada (95%) Límite superior int.conf. media simulada (95%) Coeficiente Alpha examen simulado Dificultad Mínima ítems (histórico) Dificultad Máxima ítems ítems (histórico) Dificultad Mínima ítems (prueba simulada) Dificultad Máxima ítems ítems (prueba simulada) Coeficiente de correlación entre índices de dificultad AA_01 25 22 52,14 41,63 57,28 0,80 -2,20 2,28 -1,67 2,35 0,89 AA_02 18 12 59,64 50,79 69,58 0,65 -2,36 0,73 -1,03 1,02 0,82 AA_03 18 12 64,76 58,35 77,77 0,77 -2,20 2,28 -2,11 2,69 0,91 BCM_01 17 15 59,19 51,23 71,91 0,78 -3,16 1,63 -3,26 3,21 0,89 BCM_02 9 11 59,45 50,13 71,08 0,52 -2,96 1,40 -2,35 1,44 0,83 BCM_03 16 7 73,10 66,34 83,66 0,44 -1,09 0,28 -1,27 0,28 0,62 COM_01 9 26 64,32 59,65 79,67 0,77 -3,09 2,34 -2,15 2,15 0,82 COM_02 21 36 63,44 63,39 75,76 0,79 -3,26 1,94 -3,28 1,05 0,92 COM_03 19 22 61,48 56,96 72,70 0,76 -3,05 1,94 -3,26 1,56 0,85 FOC_01 21 22 59,45 53,06 64,25 0,58 -3,14 2,01 -3,18 1,93 0,96 FOC_02 15 26 67,24 53,78 68,27 0,66 -2,34 1,36 -1,10 1,10 0,54 FOC_03 15 18 65,22 53,65 66,35 0,36 -2,24 2,57 -2,98 1,98 0,80 INN_01 19 33 64,64 61,94 74,58 0,76 -3,07 0,91 -3,17 0,88 0,91 INN_02 16 29 64,96 59,34 71,70 0,67 -2,85 2,25 -2,91 2,92 0,91 INN_03 30 24 58,07 56,38 66,12 0,59 -2,94 1,04 -3,52 -0,29 0,86 IO_01 26 10 54,44 51,83 65,86 0,46 -2,40 0,95 -2,58 2,10 0,94 IO_02 15 10 64,72 56,65 71,35 0,03 -3,00 0,54 -2,65 -0,41 0,86 IO_03 10 13 56,44 40,19 56,73 0,13 -1,70 0,89 -1,40 2,22 0,83 53 En cuanto a los coeficientes alfa, ya se comentó anteriormente, que a pesar de que no en todos los casos la magnitud calculada presenta valores deseados (superiores a 0,7), en sí misma, la información generada permite observar comportamiento a nivel de materias y probablemente ajustando el cálculo a nivel de código fuente, permitirá información para depurar ítems que hasta este momento se tenían registrados con valores superiores a su valor real. Generando un gráfico de dispersión de los índices de dificultad ajustados para el grupo de los ítems utilizados en la construcción de los 18 exámenes simulados y graficarlos respecto a los valores de los índices correspondientes de la base de datos que se construyó para los índices de dificultad de los ítems de los 50 exámenes con mayor cantidad de alumnos (ordenados de menor a mayor dificultad), se puede generar una visualización de cuál es su comportamiento, como se muestra en el Gráfico No. 9: GRÁFICO NO. 9: ÍNDICES DE DIFICULTAD "ÍTEMS HISTÓRICOS" VS. ÍNDICES DE DIFICULTAD ÍTEMS EXÁMENES SIMULADOS El índice de correlación general para estos 348 ítems es de 0,87 lo cual evidencia que los ajustes de los índices de dificultad permitirían en una nueva funcionalidad del software, solicitar ítems en rangos de dificultad específica y con ello apoyar la construcción de exámenes. 54 Este tipo de gráfico puede ser una herramienta interesante a la hora de confeccionar exámenes con el software, pues con los índices de dificultad registrados en la base de datos, se pueden “solicitar” ítems en determinado rango. Por ejemplo, tomando en consideración los ítems de la materia de Compiladores e Intérpretes, a continuación, se presenta un filtro de 20 ítems (10 ítems con rango de dificultad de -0,41 a 0 y otros 10 ítems con rango de dificultad de 0 a 0,58). Esto significaría que se contaría con una prueba “balanceada” con ítems en el umbral de habilidad. En el Gráfico No. 10 , se muestra cómo se visualizaría la selección de los 20 ítems descrita: GRÁFICO NO. 10: SELECCIÓN DE 20 ÍTEMS POR ÍNDICE DE DIFICULTAD 55 CAPÍTULO V: CONCLUSIONES Y DISCUSION Utilizando el software “The Examiner” y su base de datos, el presente trabajo se enfocó en el análisis de la información que ofrece la herramienta para la construcción y parametrización de exámenes de aula, en principio desde el punto de vista de la TCT y luego generando información con un enfoque de TRI, con el fin de validar si el modelo de Rasch se ajusta tomando como base los indicadores históricos consignados en la base de datos y produciendo algunas simulaciones de exámenes para apoyar los resultados. Inicialmente se tuvo que realizar la instalación de los componentes del software en el ambiente requerido para su correcto funcionamiento. En este sentido, desde el punto de vista del usuario medio, sí se requiere cierto dominio de herramientas, por lo que una guía de instalación en versiones posteriores será de mucha utilidad para facilitar esa tarea. Una vez lograda la instalación, se debe comentar que el software es intuitivo y fácil de utilizar. El orden de los diferentes módulos implica el orden del flujo de procesos para la creación de exámenes, lo que facilita la comprens