Evaluación de la fiabilidad de los resultados obtenidos con diferentes modelos parametrizados en una prueba adaptativa computarizada

Mairena Jiménez, Alejandro José

Evaluación de la fiabilidad de los resultados obtenidos con diferentes modelos parametrizados en una prueba adaptativa computarizada

Files

TFIA_Mairena_Jimenez_Alejandro_2025_F.pdf (3.43 MB)

Date

2025

Authors

Mairena Jiménez, Alejandro José

Abstract

Las pruebas lineales son uno de los métodos de evaluación tradicionales más utilizados. En estas se presenta una serie de preguntas en orden a un examinado y su puntuación final se calcula basado en el número de respuestas correctas. Las pruebas adaptativas computarizadas (CAT por sus siglas en inglés) son una alternativa que ha estado ganando interés. Se trata de pruebas computarizadas en las que las preguntas (o ítems) se seleccionan dinámicamente durante la prueba según la habilidad del examinando. A medida que se responde cada pregunta, se calcula un nivel de habilidad basado en el historial de respuestas, de modo que las preguntas proporcionadas se adaptan a la habilidad del examinando. Una de las principales ventajas que tienen sobre las pruebas lineales es la capacidad de detener la prueba de acuerdo con condiciones de parada específicas y convertir la habilidad estimada en una puntuación final sin tener que responder un gran número de preguntas. En los últimos años, el proyecto PELEx de la Universidad de Costa Rica se ha dedicado a desarrollar una prueba CAT para el diagnóstico del dominio del idioma inglés, llamada PELExCAT. Durante su desarrollo, se han llevado a cabo múltiples pruebas piloto con diferentes modelos, más concretamente los modelos 3PL y Rasch, y diversos parámetros para la selección de las preguntas de calentamiento y las condiciones de parada. Este estudio se centra en validar la fiabilidad de los resultados obtenidos por los diferentes modelos parametrizados implementados en la prueba PELExCAT. La validación se realiza utilizando las respuestas dadas a una prueba lineal (por examinados reales), simulando su comportamiento con los modelos parametrizados de la CAT y comparando la fiabilidad de los resultados. Adicionalmente, se compara el número de respuestas necesarias para obtener un resultado final entre los modelos parametrizados.
Linear tests are one of the most commonly used traditional assessment methods, where a series of questions is presented, in order, to the examinee and the final score is calculated based on the number of correct answers. Computerized adaptive testing (CAT) is an alternative that has been gaining interest. These are computer-based tests in which the questions (or items) are dynamically selected during the test according to the examinee's ability. As each item is answered, an ability level is calculated based on the response history, thus the items provided adapt to the examinee’s ability. One of the main advantages over linear tests is the capability to stop the test based on specific stopping criteria and convert the ability into a score without having to answer a large number of items. In recent years, the PELEx project of the University of Costa Rica has dedicated efforts to develop a CAT test for proficiency assessment of the English language, called PELExCAT. During its development, multiple pilot tests have been carried out with different models, more precisely the 3PL and Rasch models, and various parameters for the selection of the initial items and the stopping criteria. This study focuses on validating the reliability of the results obtained by the different parameterized models implemented in the PELExCAT test. The validation is performed by using answers given to a linear test (by real examinees), simulating their behaviour with the parametrized models of the CAT and comparing the reliability of the results. Additionally, the number of items needed to obtain a final result is also compared between the parameterized models.

Keywords

CAT, prueba adaptativa, modelo de Rasch, modelo 3PL, fiabilidad paralela

URI

https://hdl.handle.net/10669/103704

Collections

Computación e informática

Full item page

Evaluación de la fiabilidad de los resultados obtenidos con diferentes modelos parametrizados en una prueba adaptativa computarizada

Files

Date

Authors

Journal Title

Journal ISSN

Volume Title

Publisher

Abstract

Description

Keywords

Citation

item.page.doi

URI

Collections

Endorsement

Review

Supplemented By

Referenced By