2019, Vol. 19, No. 2 
ISSN 1667-4545
Recuperado de https://revistas.unc.edu.ar/index.php/revaluar 
Laboratorio de Evaluación Psicológica y Educativa
Facultad de Psicología - Universidad Nacional de Córdoba
Proceso de construcción de pruebas educativas: 
El caso de la Prueba de Habilidades Cuantitativas
 Educational tests development process: The case of the Quantitative Abilities Test
Introducción
Luis Rojas-Torres * 1, Graciela Ordóñez-Gutiérrez 2 Construcción de una prueba
Etapas previas
1 - Universidad de Costa Rica, Costa Rica. PHC 2018
 Discusión
Referencias
Recibido: 08/05/2019   Revisado: 17/05/2019   Aceptado: 24/05/2019
Resumen Summary
La finalidad de este artículo es brindar una guía teó- The goal of this paper is to present a theoretical and 
rica y práctica de cómo construir una prueba educativa. En practical guide on how to develop an educational test. In the 
la primera parte del artículo se presenta una exposición de- first part of this paper, a detailed explanation of each stage 
tallada de las etapas que se deben seguir para construir una used in development of a written educational test is present-
prueba educativa escrita. En la segunda parte, se muestra ed. In the second part, it is shown how this process was ap-
cómo se aplicó cada una de estas etapas a la construcción plied to the development of the Quantitative Abilities Test 
de la Prueba de Habilidades Cuantitativas de la Universidad of the University of Costa Rica, which is an educational 
de Costa Rica, una prueba educativa con ítems de selección test with multiple choice items that uses the two parameter 
única que utiliza el modelo de medición de Teoría de Res- measurement model of the Item Response Theory. From 
puesta al Ítem de dos parámetros. A partir de la exposición, this exposition, it is concluded that the test development is 
se concluye que la construcción de pruebas es un proceso a rigorous process in which even a little mistake can cause 
riguroso, por lo que una elaboración deficiente provocaría wrong inferences about subjects’ abilities.
una generación de inferencias erróneas de las habilidades  
de los sujetos. 
Palabras clave: prueba educativa, construcción de prue- Keywords: educational test, test development, validity ev-
bas, evidencias de validez, Prueba de Habilidades Cuanti- idences, Quantitative Abilities Test, Item Response Theory
tativas, Teoría de Respuesta al Ítem
*Correspondencia a: Luis Rojas-Torres, E-mail: luismiguel.rojas@ucr.ac.cr
Cómo citar este artículo: Rojas-Torres, L., & Ordóñez-Gutierrez, G. (2019). Proceso de construcción de pruebas educativas: El caso de la Prueba de 
Habilidades Cuantitativas. Revista Evaluar, 19(2), 15-29. Recuperado de https://revistas.unc.edu.ar/index.php/revaluar/index
Rojas-Torres & Ordóñez-Gutiérrez, Evaluar, 2019, 19(2), 15-29
16
Introducción de cómo construir una prueba educativa escrita. 
Para este objetivo se presentan las etapas que ri-
Las pruebas o tests son instrumentos o dis- gen la construcción de una prueba educativa, de 
positivos de evaluación de un dominio específico acuerdo con lo establecido en la literatura; luego, 
que permiten medir el grado de acierto de las res- se presenta un ejemplo de la aplicación de esta 
puestas que los sujetos otorgan a un conjunto de guía en la construcción de la Prueba de Habili-
preguntas (American Educational Research Asso- dades Cuantitativas (PHC) de la Universidad de 
ciation, American Psychological Association, & Costa Rica (UCR), utilizada en el proceso de ad-
National Council on Measurement in Education misión del año 2018. 
[AERA, APA, & NCME], 2014; Castillo-Arre- Es importante mencionar que el proceso que 
dondo & Cabrerizo-Diago, 2010); además, son se describe en este artículo es aplicable tanto para 
los instrumentos de evaluación más utilizados en pruebas estandarizadas como para “pruebas de 
los sistemas educativos, ya que permiten la va- aula” (aquellas que utilizan los docentes para la 
loración de componentes educativos de manera evaluación del avance de los estudiantes durante 
directa; asimismo, los tests posibilitan califica- los ciclos lectivos). No obstante, la descripción de 
ciones estandarizadas a un corto plazo. los procesos de este documento se concentra en 
En particular, las pruebas educativas son las evaluaciones estandarizadas, las cuales dispo-
aquellas que evalúan elementos relacionados con nen de un tiempo de construcción más amplio que 
el proceso de enseñanza y aprendizaje de los es- el que tienen las pruebas de aula. La recomenda-
tudiantes, como el dominio de un contenido o ción para el docente el aula es que procure acer-
procesos de razonamiento en los que se recurre carse lo más que pueda a los estándares descritos 
al contenido aprendido. Los principales propó- en este documento.
sitos con que se usan estas pruebas son: a) para 
hacer inferencias de los resultados educativos es-
tudiantiles; b) para tomar decisiones con respec- Construcción de una prueba educativa
to a los estudiantes (certificaciones, diagnóstico, 
selección o ingreso a programas educativos); c) Son varios los investigadores y especialis-
para realizar inferencias sobre los procesos de en- tas en construcción de pruebas (Downing, 2006; 
señanza y aprendizaje (AERA, APA, & NCME, Embretson, 2017; Ferrara, Lai, Reilly, & Nichols, 
2014) y d) para evaluar la calidad de los sistemas 2017; Kane, 2013; Muñiz & Fonseca-Pedrero, 
educativos en pro de la mejora de estos (Casti- 2019; Villareal-Galera, Alfaro-Rojas, & Brizue-
llo-Arredondo & Cabrerizo-Diago, 2010; Tiana, la-Rodríguez, 2015) que indican que para elaborar 
1996). A pesar de que las pruebas educativas son un test se requiere una secuencia de etapas, pasos 
ampliamente utilizadas en diversas áreas de la o fases, de tal manera que se alcancen evidencias 
educación, su construcción muchas veces se rea- de validez y confiabilidad sobre las puntuaciones 
liza sin la rigurosidad técnica demandada por las obtenidas en estos. A continuación se presenta 
múltiples instancias especializadas en evaluación una explicación de las etapas fundamentales para 
y medición educativa y las consideraciones esta- la construcción de tests.
blecidas en los múltiples manuales que orientan 
su desarrollo. Por este motivo, este artículo tiene 
como objetivo brindar una guía teórica y práctica 
Rojas-Torres & Ordóñez-Gutiérrez, Evaluar, 2019, 19(2), 15-29
17
Plan general modelo de medición será la Teoría Clásica de los 
Tests (TCT), la Teoría de Respuesta de los Ítems 
La primera etapa en la construcción de una (TRI) u otro, según las propiedades del modelo 
prueba es definir el qué y para qué se quiere me- que beneficien al objetivo de medición (Muñiz & 
dir. El qué medir determina el constructo, lo cual Fonseca-Pedrero, 2019). Por ejemplo, si la fina-
implica efectuar un abordaje teórico de este y una lidad es maximizar la discriminación en un nivel 
explicación de cómo la medición del constructo de habilidad se puede recurrir a la TRI; pero, si 
permite el alcance del objetivo establecido o el se quiere medir un constructo en una población 
propósito de la medición. Hay objetivos que se pequeña se puede recurrir a la TCT.
explican directamente, como la obtención de los Cabe resaltar que el plan general es indis-
niveles de conocimiento en el constructo de los pensable para alcanzar un grado aceptable de va-
miembros de una población, pero hay otros que lidez de los usos de las puntuaciones de un test, 
son más complejos como es el uso de una prue- donde validez se entiende como “el grado en que 
ba de razonamiento con figuras para la selección la evidencia empírica y las justificaciones teóricas 
de los estudiantes de una carrera universitaria. El apoyan la pertinencia de las acciones e interpreta-
para qué medir implica establecer una explicación ciones de las puntuaciones de las pruebas” (Mes-
detallada y precisa de las razones por las cuales se sick, 1989, p. 6). Si una prueba se construye sin 
elabora el test (Muñiz & Fonseca-Pedrero, 2019). tener en cuenta cuáles interpretaciones se harán 
Además, se debe especificar el contexto en el cual con sus puntajes o qué usos se les darán a sus pun-
se aplicará la prueba, el cual incluye la población tuaciones, difícilmente tendrá interpretaciones o 
a la que se medirá y las circunstancias de la apli- usos válidos desde la perspectiva de la rigurosi-
cación. También es importante tomar en cuenta dad de la evaluación y medición educativa.
qué decisiones se tomarán con respeto a las per-
sonas de acuerdo con las puntuaciones obtenidas, 
ya que la calificación en un test puede servir para Definición del contenido
propósitos varios como seleccionar, diagnosticar, 
clasificar, entre otros. En esta etapa se establece cuáles son los ele-
Las respuestas al qué y para qué medir deter- mentos, componentes o dimensiones del construc-
minarán todos los elementos que se considerarán to a evaluar. La definición de estos componentes 
en la construcción. De esta forma los reactivos de se realiza a partir de la revisión teórica sobre el 
la prueba serán de respuesta cerrada si se pretende constructo o mediante la construcción de una teo-
evaluar el producto final de un proceso, o serán de ría acerca del mismo (Embretson, 2017; Muñiz & 
respuesta abierta si es para evaluar todo el proceso Fonseca-Pedrero, 2019). Esto con la finalidad de 
(Castillo-Arredondo & Cabrerizo-Diago, 2010; constituir una definición operativa del constructo 
Mateo & Martínez, 2008). Además, el modelo y lograr obtener medidas de manera empírica. En 
de interpretación de los puntajes será con base en esta etapa se empieza el desarrollo de una de las 
normas si se pretende comparar a los sujetos con primeras fuentes de evidencias de validez de los 
el resto de la población, o será con base en crite- usos de las puntuaciones: evidencias de validez 
rios si lo que se quiere es establecer estándares basadas en el contenido, las cuales buscan que to-
de dominio (Martínez-Arias, Hernández-Lloreda, dos los elementos relevantes del constructo sean 
& Hernández-Lloreda, 2006). Por otro lado, el considerados (AERA, APA, & NCME, 2014).
Rojas-Torres & Ordóñez-Gutiérrez, Evaluar, 2019, 19(2), 15-29
18
Especificaciones del test el instrumento. Así, una construcción deficiente 
incidirá en las propiedades métricas del test, lo 
En esta etapa se define cómo deben ser las que repercutirá mucho en las inferencias que se 
características del instrumento con el que se eva- realicen sobre las puntuaciones que se obtengan. 
luará el constructo pretendido, por lo que se debe En este sentido, para la elaboración de los ítems 
construir una tabla de especificaciones, ya que es indispensable capacitar a las personas que rea-
esta es un elemento indispensable a la hora de lizarán esta labor. Esto demanda generar el perfil 
elaborar los ítems del test. En la tabla se asigna el de los constructores, contactar a personas con ese 
puntaje que se debe otorgar a cada combinación perfil dispuestas a colaborar en la construcción, 
de categorías de distintos aspectos del test como brindar una capacitación detallada de los elemen-
procesos, contenidos, dificultades, entre otros. El tos que se desean evaluar en los ítems, asignar 
uso riguroso de la tabla de especificaciones per- tareas específicas de cómo y qué incluir en la ela-
mitirá que la prueba presente evidencias de vali- boración de los reactivos. Luego se debe evaluar 
dez basadas en el contenido. la construcción. Con base en esta evaluación se 
Además, se debe decidir cuál será el forma- selecciona a los mejores constructores y se proce-
to de los ítems con los que se evaluarán los ele- de a la construcción de los ítems. Para esta etapa 
mentos de la tabla de especificaciones, esto es: el es recomendable otorgar y asignar los elementos 
tipo de ítem, la longitud y el tipo de alternativas particulares de la tabla de especificaciones a cada 
que se va a utilizar (Martínez-Arias et al., 2006; constructor. 
Muñiz & Fonseca-Pedrero, 2019). Igualmente, se Una vez construidos los reactivos, estos de-
debe dilucidar qué tiempo será necesario para re- ben ser evaluados por un grupo de expertos en 
solver la prueba, los materiales que se utilizarán el constructo a medir. En esta valoración se debe 
para la evaluación y los horarios en que se apli- analizar si los elementos pretendidos del cons-
cará la prueba. Cada uno de estos elementos se tructo están considerados y, también, se debe in-
selecciona considerando la finalidad de emplear dagar si no hay fuentes de varianza irrelevante al 
una prueba. Por otro lado, esta etapa es la base constructo, es decir, que en los ítems no se eva-
para alcanzar evidencias de validez basadas en la lúen elementos que no forman parte del construc-
estructura interna, que son aquellas evidencias de to en cuestión (Messick, 1989). Además, se debe 
que las dimensiones establecidas en la definición analizar si hay fuentes de dificultad diferenciales 
del constructo se reproducen en los datos de la por grupos relevantes de población. Por ejemplo, 
prueba. en una prueba realizada por dos culturas distintas 
no se deben agregar contextos familiares para una 
sola de ellas. En este mismo sentido, se solicita a 
Construcción de los ítems los expertos que juzguen si los ítems cumplen con 
los principios básicos que deben regir la construc-
De acuerdo con Muñiz y Fonseca-Pedrero ción de ítems, estos son de acuerdo con Muñiz 
(2019), la construcción de los ítems constituye y Fonseca-Pedrero (2019): representatividad, 
una de las fases más importantes en la confec- relevancia, diversidad, claridad y sencillez. Los 
ción de un instrumento de medición, particular- reactivos que se aprueban con este juzgamien-
mente en la elaboración de una prueba educativa; to pueden ser utilizados en el ensamblaje de la 
puesto que los reactivos son los que conforman prueba. Es importante resaltar que en esta etapa 
Rojas-Torres & Ordóñez-Gutiérrez, Evaluar, 2019, 19(2), 15-29
19
se rechazan muchos reactivos, sobre todo cuan- escolar, medidas de motivación, entre otras. Es 
do los constructores son novatos, debido a esto es importante que la evidencia empírica sobre las 
importante efectuar una construcción de al menos relaciones con otras variables sea consistente con 
el doble de la cantidad pretendida. los objetivos de medición para respaldar las evi-
dencias de contenido (Embretson, 2017). 
Para obtener evidencias de relación con 
Estudio piloto de los ítems otras variables se requiere construir una base de 
datos que incluya información relevante sobre 
Luego de la construcción de los reactivos, se los examinados, por ejemplo: cantidad de mate-
procede a ensamblar uno o varios formularios de rias matriculadas, promedios obtenidos en cursos 
aplicación según las características establecidas relevantes, etc. Por otro lado, se puede indagar 
en la tabla de especificaciones. Estos formularios sobre las evidencias de validez basadas en la es-
serán aplicados a una población con característi- tructura interna mediante la comprobación de la 
cas semejantes a la población a la que va dirigida estructura factorial propuesta (Martínez-Arias et 
la prueba con el fin de obtener una aproximación al., 2006; Mateo & Martínez, 2008). Las indaga-
de las propiedades psicométricas del instrumento ciones de evidencias de validez desde el pilotaje 
en la población meta, lo cual permitirá determinar permitirán que la prueba final presente las eviden-
cuáles ítems son aptos para ser utilizados en el cias de validez requeridas. 
instrumento final (Castillo-Arredondo & Cabreri-
zo-Diago, 2010; Mateo & Martínez, 2008; Muñiz 
& Fonseca-Pedrero, 2019; Villarreal-Galera et Ensamblaje de la prueba
al., 2015). En esta etapa se debe procurar mante-
ner las mismas condiciones de administración de En esta etapa se seleccionan los ítems que 
la prueba. En cuanto a los análisis estadísticos del serán utilizados en el examen. Para la selección 
test, se deben realizar los requeridos según el mo- de los ítems se deben seguir las condiciones es-
delo de medición seleccionado inicialmente. La tablecidas en la tabla de especificaciones. Ade-
explicación de la aplicación y el análisis de ítems, más, si en alguna de las condiciones establecidas 
se especifica en las etapas de la construcción de la hay un excedente de ítems, lo recomendable es 
prueba definitiva. seleccionar los ítems que, según los jueces, sean 
Con los datos de esta aplicación piloto, se más pertinentes para la evaluación del constructo 
pueden indagar evidencias de validez basadas en pretendido.
la relación con otras variables (Embretson, 2017; Posteriormente, se procede a generar el for-
Martínez-Arias et al., 2006; Villarreal-Galera et mulario de examen. Este formulario debe iniciar 
al., 2015), que es la comprobación de relaciones con unas instrucciones generales que señalen: a) 
teóricas del constructo pretendido con variables el tiempo requerido para resolver la prueba com-
externas. Esto se refiere a los patrones de rela- pleta; b) la forma en que debe resolverse; y, c) la 
ción de las puntuaciones de la prueba con otras estructura de la prueba en cuanto a cantidad de 
puntuaciones de rasgos y criterios empíricos que ítems. Luego del ensamblaje, se debe realizar una 
estén relacionadas con los rasgos representados revisión detallada del formulario para garantizar 
por la calificación obtenida por los examinados que los ítems no tengan errores de forma ni de 
en la prueba; por ejemplo, lugar de procedencia fondo. 
Rojas-Torres & Ordóñez-Gutiérrez, Evaluar, 2019, 19(2), 15-29
20
Aplicación de la prueba se esbocen las respuestas a esperar; y, b) se espe-
cifique la puntuación por cada una de las partes 
La planificación de la aplicación de la prue- de las respuestas consideradas correctas (Mateo 
ba es la etapa en la que se definen las condiciones & Martínez, 2008). Además, las guías deben ser 
necesarias para la administración del test en la po- lo más exhaustivas posible con respecto a las dis-
blación meta. Es por esto que esta etapa demanda tintas formas de resolución. Por otro lado, en la 
efectuar una logística rigurosa para asegurar di- calificación de las preguntas de respuesta abierta 
chas condiciones. Un punto importante es la ca- se deben desarrollar procesos de equiparación por 
pacitación de los aplicadores, quienes son los en- jueces para que las puntuaciones no estén sesga-
cargados de administrar el test a los examinados. das por las diferencias entre la severidad de los 
La capacitación implica brindar la informa- jueces. La variación en los criterios de califica-
ción sobre las labores importantes en la adminis- ción de los jueces es una amenaza a la validez, 
tración de la prueba; por ejemplo: el resguardo dado que lleva a que la puntuación considere ele-
del material, la revisión del aula, la organización mentos irrelevantes para la medición. 
de entrada de los postulantes a las instalaciones, Una vez calificados los ítems se debe reali-
la explicación correcta de las instrucciones, la zar el análisis estadístico de estos, con base en el 
supervisión de la aplicación y la devolución del modelo de medición establecido desde la primera 
material. En la capacitación se debe asegurar que etapa. En este sentido, se analizará la calidad psi-
los aplicadores puedan brindar las condiciones re- cométrica de las puntuaciones de cada ítem, por 
queridas para que los sujetos demuestren su ver- ejemplo discriminación y dificultad, y de la prue-
dadero nivel de habilidad en la prueba (Muñiz & ba en general según el modelo considerado. En 
Fonseca-Pedrero, 2019). Un error puede alterar caso de que existan ítems que no cumplan los es-
el significado de los resultados; por ejemplo, la tándares establecidos por la teoría, estos no deben 
aplicación de una prueba en un lugar sin ilumina- ser considerados en la calificación final (Ferrara 
ción adecuada o muy ruidoso puede producir que et al., 2017; Martínez-Arias et al., 2006; Muñiz & 
varios sujetos no logren tener un buen desempeño Fonseca-Pedrero, 2019).
en la prueba y llevarlos a no reflejar su verdadera Con el análisis de los ítems, se busca ge-
habilidad, lo que implicaría una inadecuada in- nerar evidencias de validez basadas en la estruc-
terpretación sobre las puntuaciones y, por ende, tura interna por medio de la comprobación de la 
los usos de las pruebas tendrían un bajo grado de configuración factorial establecida en la teoría. 
validez. También se buscan evidencias de precisión (o 
confiabilidad), es decir, que las puntuaciones de 
la prueba brinden una aproximación apropiada 
Calificación de los ítems de los niveles de habilidad de los sujetos en el 
constructo medido por la prueba (AERA, APA, & 
En esta etapa se requiere de una guía de ca- NCME, 2014). 
lificación. Los ítems cuyo formato de respuesta es 
cerrado son los más sencillos de calificar, ya que 
la guía solo debe contener las respuestas correc- Generación de conclusiones
tas. En el caso de las preguntas de respuesta abier-
ta se requiere de una rúbrica o escala en la que: a) Una vez calificados los exámenes, se proce-
Rojas-Torres & Ordóñez-Gutiérrez, Evaluar, 2019, 19(2), 15-29
21
de a la generación de interpretaciones con respec- Plan general
to al análisis de las puntuaciones, y a determinar 
parámetros para las inferencias pretendidas. Si el En esta etapa se determinó que el constructo 
objetivo es establecer niveles de dominio en las razonamiento cuantitativo (RC) es lo que se quie-
dimensiones de la prueba, se debe recurrir a un re medir con la PHC; mientras que el uso (para 
proceso de establecimiento de estándares con los qué) establecido fue brindar un criterio para la 
ítems seleccionados (standard setting). Si la fina- selección de los nuevos estudiantes que quisie-
lidad es comparar el rendimiento de los sujetos ran ingresar a carreras que requerían del uso de 
contra el resto de la población, se puede recurrir la matemática. Cabe mencionar que el RC se de-
al análisis de los percentiles de las puntuaciones fine como “la habilidad para analizar información 
obtenidas. Por último, se debe entregar un infor- cuantitativa y determinar cuáles destrezas y pro-
me de calificación a los sujetos, indicándoles el cedimientos pueden ser aplicados para obtener 
significado de estas, ya que una nota por sí misma la solución de un problema particular” (Dwyer, 
no dice nada con respecto a su desempeño en la Gallagher, Levin, & Morley, 2003, p. 1). Esta de-
prueba y puede crear nociones erróneas a los exa- finición indica que el RC está conformado por los 
minados, dado que culturalmente algunas notas procesos de razonamiento con contenidos mate-
se asocian a un buen rendimiento mientras que máticos que se deben realizar para llegar a la so-
otras a un bajo rendimiento. lución de un problema específico. En consecuen-
Dadas las etapas teóricas para la construc- cia, para la evaluación del RC se debe garantizar 
ción de una prueba educativa, a continuación se que los contenidos sobre los que se desarrollan 
presenta la descripción de cada una de ellas en la las tareas de RC sean conocidos por toda la po-
elaboración de la Prueba de Habilidades Cuanti- blación.
tativas en el caso específico del test del 2018. En línea con la definición del RC, se puede 
decir que este no es equivalente al conocimiento 
matemático, ya que en el primero no es importan-
Etapas de la construcción de la PHC previas a te qué cantidad de conocimiento matemático ten-
las aplicaciones regulares ga el sujeto, sino que este pueda determinar cómo 
utilizar el conocimiento que domina en situacio-
En el 2003, las autoridades de la UCR de- nes particulares. Entre los componentes más im-
cidieron que era necesario crear una prueba de portantes que demanda el RC de acuerdo con Niss 
ingreso a las carreras cuyas mallas curriculares y Højgaard (2011) están:
tenían varios cursos de matemática. La prueba - el pensamiento matemático: consiste en 
que se construyó para este propósito fue la PHC, utilizar las propiedades de los objetos matemáti-
la cual se aplica regularmente todos los años, des- cos para llegar a una conclusión;
de el 2015. La construcción de los formularios de - el abordaje de problemas: consiste en dise-
cada año se basa en las etapas iniciales de cons- ñar una estrategia para utilizar un concepto mate-
trucción de pruebas (desde el plan general hasta el mático en la resolución de un problema;
pilotaje), que se desarrollaron durante varios años - el razonamiento matemático: consiste en 
de investigación. A continuación, se describen los determinar la validez de proposiciones matemá-
elementos principales de cada una de esas etapas. ticas; y
- la representación: consiste en diseñar o in-
Rojas-Torres & Ordóñez-Gutiérrez, Evaluar, 2019, 19(2), 15-29
22
terpretar una representación necesaria para llegar Muñiz, 1997).
a la solución de un problema.
Con respecto al uso establecido para la 
PHC, se sostiene que el RC es necesario para des- Definición del contenido 
envolverse exitosamente en las profesiones que 
requieren de la matemática en su quehacer (Ma- Como se mencionó, los componentes del 
yes, 2019; Ryan & Gass, 2017) dado que los es- constructo RC establecidos en los ítems de la 
pecialistas en estas áreas deben determinar cómo prueba son: el pensamiento matemático, el abor-
utilizar la matemática para resolver un problema daje de problemas, el razonamiento matemático 
determinado. Contrario a los ejercicios matemá- y la representación (Niss & Højgaard, 2011). Por 
ticos clásicos de las carreras universitarias, en otro lado, los conocimientos base que se utili-
muchas tareas laborales no se indica qué algorit- zan en la prueba se estructuran de acuerdo con 
mo matemático se debe emplear, sino que el pro- las áreas temáticas de la educación primaria y 
fesional debe construir una estrategia eficiente y secundaria inicial de Costa Rica: análisis de da-
pertinente que permita el éxito en la tarea. Con tos, aritmética, álgebra y geometría. Solo se con-
este fin, los especialistas de diversas áreas deben sideran contenidos de la secundaria inicial, dado 
atender interrogantes utilizando gran variedad de que se asume que estos son los dominados por los 
información cuantitativa; esto los obliga a tomar estudiantes aspirantes a ingresar en las carreras 
decisiones sobre cuáles estadísticos brindan la in- mencionadas. La inclusión de contenidos poco 
formación más adecuada a la pregunta atendida. dominados puede generar una fuente de varianza 
En otros casos, se debe comparar fenómenos mo- irrelevante al constructo pretendido.
delados por medio de expresiones algebraicas, lo 
cual demanda que el profesional distinga cuál es 
la estrategia que le permite realizar la compara- Especificaciones del test
ción solicitada. Es por esto que se considera que 
los estudiantes de los programas de estudio que La tabla de especificaciones (Tabla 1) de la 
utilizan la matemática en su campo laboral deben prueba se planteó como una matriz de procesos, 
poseer un nivel aceptable de RC (Rojas, Mora, & según los componentes y áreas de contenido, con 
Ordóñez, 2018). una distribución homogénea. Es importante men-
Ahora bien, dado que con la PHC se preten- cionar que aunque se postulan distintos procesos, 
de discriminar a los sujetos con habilidad acep- estos no se conciben como independientes entre 
table de aquellos con habilidades menores, se sí (Niss & Højgaard, 2011), sino que el nombre 
estableció que se necesitaba generar un punto de del proceso refleja aquel que se considera más de-
corte que separara a estas dos poblaciones, el cual mandante en la solución del ítem. Por lo general 
puede ser representado en una escala de habilidad los cuatro componentes se emplean para la reso-
normal estándar como el valor (θ = 0). Esto impli- lución del reactivo en algún grado. Por lo tanto, 
có que se utilizara un modelo de interpretación de se considera que el modelo factorial que mejor 
puntajes con base a criterios y que se utilizara a la representa a los ítems es el unidimensional. 
TRI como modelo de medición, ya que esta teo- Por otro lado, como la población meta de la 
ría permite maximizar la precisión en un nivel de prueba era numerosa y el presupuesto limitado, se 
habilidad específico (Martínez-Arias et al., 2006; decidió recurrir a una prueba escrita de selección 
Rojas-Torres & Ordóñez-Gutiérrez, Evaluar, 2019, 19(2), 15-29
23
única, con una hoja adicional en la que se con-
signen las respuestas. Es importante destacar que 
aunque la información brindada por los reactivos Construcción de los ítems
de selección única es valiosa, las preguntas de 
respuesta abierta podrían brindar mayor informa- El perfil para las personas encargadas de 
ción de los procesos realizados por los sujetos, ya construir los ítems incluyó formación en ense-
que se podrían evaluar los pasos de razonamiento ñanza de la matemática y conocimientos de me-
efectuados para llegar a la respuesta o resolución dición. En las capacitaciones de los constructo-
del ítem. res se presentaron el objeto de medida (RC) y 
Por otra parte, se estableció que los ítems sus componentes. Asimismo, se proporcionaron 
debían tener una dificultad TRI promedio igual ejemplos de ítems en cada una de las categorías 
a 0, pues se buscaba maximizar la precisión en establecidas y se señalaron los elementos que 
el nivel de habilidad (θ = 0). Finalmente, por las agregaban varianza irrelevante al constructo: uso 
características de los ítems, se determinó que 40 de algoritmos extensos, preguntas semejantes a 
reactivos era una cantidad suficiente para alcan- las de contenido matemático, uso de tecnicismos 
zar una precisión adecuada y que la resolución y alta demanda de comprensión de lectura. Lue-
de una prueba de este tipo tomaría alrededor de go, a cada constructor se le solicitó que presentara 
dos horas. Cabe resaltar que se consideró que el un ítem de cada una de las casillas de la tabla de 
cansancio asociado a resolver más ítems podría especificaciones.
aumentar las fuentes de error de medición. Dos meses después de la capacitación, los 
Tabla 1 
Tabla de especificaciones pretendida para la PHC 2018.
Área de contenido
Procesos
Análisis de datos Aritmética Álgebra Geometría
Pensamiento matemático 2 a 3 ítems 2 a 3 ítems 2 a 3 ítems 2 a 3 ítems
Representación 2 a 3 ítems 2 a 3 ítems 2 a 3 ítems 2 a 3 ítems
Abordaje de problemas 2 a 3 ítems 2 a 3 ítems 2 a 3 ítems 2 a 3 ítems
Razonamiento matemático 2 a 3 ítems 2 a 3 ítems 2 a 3 ítems 2 a 3 ítems
constructores entregaron los reactivos y estos 
fueron juzgados individualmente por el resto de Pilotaje
los constructores y un juez adicional. En el juzga-
miento se evaluó si los ítems realmente se ajusta- Posteriormente, los ítems seleccionados 
ban a los componentes de la tabla de especifica- fueron ensamblados en formularios con las ca-
ciones establecida y se analizó si tenían alguna de racterísticas establecidas en la tabla de especifica-
las fuentes de varianza irrelevante al constructo ciones y se aplicaron en muestras de estudiantes 
mencionadas previamente; luego, se procedió universitarios de primer año. Estas aplicaciones 
a un juzgamiento grupal para determinar si los piloto permitieron desarrollar un banco de ítems 
ítems construidos podían ser considerados para el de aproximadamente 80 reactivos con propieda-
ensamblaje de la PHC. des psicométricas adecuadas, según el modelo 
de TRI de dos parámetros. Estas propiedades se-
Rojas-Torres & Ordóñez-Gutiérrez, Evaluar, 2019, 19(2), 15-29
24
rán explicadas en la etapa de calificación de los nalizar doblemente al sujeto que no logró deter-
ítems. Las puntuaciones de estas aplicaciones minar el proceso de resolución óptimo. También 
brindaron evidencias de validez basadas en la re- se descartaron los ítems cuyas dificultades TRI, 
lación con otras variables (específicamente, con registradas en las aplicaciones piloto, se alejaran 
el rendimiento académico, Bolaños-Barquero & de la dificultad promedio pretendida (θ = 0). Para 
Rojas-Torres, 2013; Rojas et al., 2018; Rojas-To- este formulario la dificultad TRI promedio fue de 
rres, 2014) y de estructura interna (Rojas, 2013). (θ = .123).
Para la administración de la PHC se propor-
cionaron varias sedes de aplicación en distintos 
Elaboración del formulario de la PHC 2018 edificios de entidades educativas ubicadas en zo-
nas estratégicas de Costa Rica. Cada una de estas 
La construcción del formulario final utili- sedes tuvo entre 2 y 11 aulas, según la cantidad de 
zado en el 2018 se realizó con 36 de los ítems personas inscritas en cada sede. Además, se coor-
incluidos en el banco y 4 ítems nuevos. El pilo- dinó con las autoridades de las entidades para que 
taje de estos ítems nuevos se llevó a cabo en la durante la administración de la prueba no hubiese 
aplicación real de la prueba. Lo anterior implicó personas ajenas a la aplicación cerca de las aulas 
que estos ítems no fueran tomados en cuenta en la y para que las aulas tuviesen iluminación y escri-
calificación. Se decidió bajar la cantidad de ítems torios en buen estado.
calificables para asegurar que los nuevos ítems Para cada sede se conformó un equipo de 
tuvieran estadísticas basadas en la situación real aplicación compuesto por un coordinador gene-
de evaluación en vez de basarse en una aplicación ral, aplicadores para cada aula y un asistente del 
piloto. coordinador. Cada coordinador fue capacitado por 
el equipo desarrollador de la PHC y, luego, los 
coordinadores de sede capacitaron a sus equipos. 
Ensamblaje de la prueba En la capacitación se indicaron las pautas que se 
debían seguir para la administración de la prueba, 
La selección final de los ítems tuvo la dis- por ejemplo: la forma de ordenar los muebles (pu-
tribución que se presenta en la Tabla 2. Entre los pitres) del aula, el protocolo para permitir el in-
criterios utilizados para seleccionar a los ítems de greso de los examinados a las aulas, las consultas 
la tabla de especificaciones se consideró que no que se podían responder y la vigilancia del grupo.
debían existir ítems con procesos de resolución El día de la aplicación de la prueba, se leyó 
muy semejantes entre sí, ya que esto podría pe- a los estudiantes unas instrucciones generales de 
Tabla 2 
Tabla de especificaciones final de la PHC 2018.
Área de contenido
Procesos
Análisis de datos Aritmética Álgebra Geometría
Pensamiento matemático 3 ítems 2 ítems 3 ítems 2 ítems
Representación 2 ítems 3 ítems 3 ítems 3 ítems
Abordaje de problemas 3 ítems 2 ítems 2 ítems 3 ítems
Razonamiento matemático 2 ítems 3 ítems 2 ítems 2 ítems
Rojas-Torres & Ordóñez-Gutiérrez, Evaluar, 2019, 19(2), 15-29
25
cómo resolverla. Algunas instrucciones se rela- metros. Se valoró que los ítems no tuvieran di-
cionaron con: los materiales que podían utilizar, ficultades extremas (menores que -3 o mayores 
el tiempo asignado para la resolución y la forma que 3). También, se analizó que su discriminación 
de rellenar la hoja para respuestas. El total de per- fuera mínimamente aceptable (mayor a .35) y que 
sonas que tomó la prueba fue de 2387 (1112 hom- brindaran información en el punto de interés (θ = 
bres y 1275 mujeres; 787 estudiantes de colegio 0; función de información mayor que .10; Martí-
privado y 1600 de público). En su mayoría eran nez-Arias et al., 2006).
estudiantes de secundaria que deseaban ingresar Luego, con los ítems que cumplieron todos 
a una de las carreras de la UCR que utilizaba la los criterios, se estimó la habilidad de los suje-
PHC para la selección de los nuevos estudiantes. tos. Seguidamente, se analizó el error estándar 
de la estimación para verificar si este era bajo en 
el punto que se pretendía establecer como punto 
Calificación de los ítems de corte (θ = 0). Finalmente, se concluyó cuántas 
personas estuvieron en los grupos de habilidad 
Dado el carácter empírico de esta etapa, se que se requería discriminar (θ > 0 y θ < 0).
utilizará una estructura clásica de análisis estadís-
tico (procedimiento-resultados) para explicar su Análisis estadístico. Todos los análisis estadísti-
implementación. Además, en esta etapa se pre- cos se realizaron en la plataforma de programa-
sentará el método de calificación utilizado para ción estadística R, en su versión 3.3.2 (R Core 
procesos de investigación, el cual no ha sido im- Team, 2016). Los paquetes utilizados fueron la-
plementado aún. Actualmente, se reportan las ca- vaan (Rosseel, 2012), para la estimación de AFC, 
lificaciones con el número de ítems correctos. y mirt (Chalmers, 2012), para la estimación del 
modelo TRI.
Procedimiento. Primeramente, se analizó la cali-
dad global del instrumento. Para esto se estimó el Resultados. El índice de confiabilidad de cons-
índice de confiabilidad de constructos de modelos tructos fue de .91, por lo cual se concluye que la 
de ecuaciones estructurales, el cual se considera prueba muestra evidencias de confiabilidad. Esta 
satisfactorio si es superior a .70 (Cea-D’Ancona, evidencia se basa en que los ítems son consisten-
2002). Además, se evaluó la hipótesis de la uni- tes en la evaluación del constructo, es decir, las 
dimensionalidad mediante un análisis factorial asociaciones de las puntuaciones de los ítems en-
confirmatorio (AFC), esta hipótesis representa la tre sí son semejantes. El indicador de consistencia 
estructura interna teorizada para la prueba. En el interna usual de la TCT es el alfa de Cronbach, el 
AFC se consideró que un buen ajuste era alcanza- cual fue de .85.
do si la raíz del error cuadrático medio de aproxi- La estimación del modelo unidimensional 
mación (RMSEA) era menor que .06, el índice de del AFC se ajustó aceptablemente a los ítems de 
Tucker-Lewis (TLI) era mayor que .95, el índice banco utilizados (CFI = .992, TLI = .992 y RM-
de ajuste comparativo (CFI) era mayor que .95 y SEA = .014). No obstante, hubo 3 ítems (28, 29 y 
las cargas factoriales de los ítems eran superiores 35) que presentaron cargas factoriales inferiores a 
a .30 (Hu & Bentler, 1999; Cea-D’Ancona, 2002). .30. El ajuste de este modelo brindó una evidencia 
Por otro lado, para evaluar la calidad de los de validez basada en la estructura interna.
ítems se estimó el modelo de TRI de dos pará- Posteriormente, se analizaron las propieda-
Rojas-Torres & Ordóñez-Gutiérrez, Evaluar, 2019, 19(2), 15-29
26
des de los ítems según el modelo de TRI de dos see la habilidad requerida, por tanto, los primeros 
parámetros. Se obtuvo que los mismos tres ítems no pueden concursar por aquellas carreras en la 
que presentaron cargas factoriales bajas presen- que se utiliza la PHC; mientras que los segundos 
taban problemas en la discriminación (lo cual es sí pueden participar. Con respecto al 44.7% de la 
esperable por la analogía de la carga factorial de población restante, no se pueden generar conclu-
un modelo unidimensional con la discriminación siones tan contundentes. 
de la TRI de dos parámetros) y en la información La generación de conclusiones implemen-
en θ = 0 (no solo fueron menores a .10, sino que tada oficialmente por la mayoría de las carreras 
fueron menores a .03). Hubo otros dos ítems (9 y se basa en un umbral asociado al porcentaje de 
13) que presentaron valores de información en θ respuestas correctas. Se considera que los suje-
= 0 ligeramente menores que el umbral estable- tos con notas menores a este umbral no poseen 
cido (.09 y .08), pero cumplieron el resto de los la habilidad requerida para cursar estas carreras. 
criterios establecidos. Por tanto, se decidió elimi- El umbral se estableció con el cuidado de que las 
nar únicamente a los primeros tres ítems para la personas con notas inferiores a este punto pre-
estimación de la habilidad. sentaran habilidades inferiores a 0. A los sujetos 
Finalmente, la calificación de los sujetos con notas debajo del umbral se les indicó que no 
correspondería a la habilidad de los sujetos a par- cumplían con el requisito para concursar en las 
tir de los ítems seleccionados. Se obtuvo que el carreras. La razón por la que no se usa la habili-
44.0% de la población (1311 sujetos) tenía una dad TRI como criterio oficial es que es difícil de 
habilidad mayor o igual a θ = 0. Por otro lado, se informar a los sujetos, ya que dos sujetos con la 
recurrió a una de las ventajas de la TRI: la esti- misma cantidad de aciertos no tendrán necesaria-
mación del error estándar de la habilidad, lo cual mente el mismo nivel de habilidad. 
permite la generación de intervalos de confianza. 
Se realizó la prueba de hipótesis para la hipótesis 
nula de θ ≥ 0, esta se rechazó con una significan- Discusión
cia del 5% para el 30.5% de la población (911 
personas); es decir, que el 30.5% de los sujetos Este artículo muestra que el proceso de 
presentaron una habilidad inferior a 0, con un construcción de una prueba educativa es comple-
95% de confianza. De forma análoga, se obtuvo jo y demandante. Es un proceso que no se puede 
que el 24.7% de la población (739 personas) tuvo realizar de manera ligera e irreflexiva. No obstan-
una habilidad superior a 0, con una confianza del te, la masificación del uso de estos instrumentos 
95%. de evaluación ha generado que muchas de las eta-
pas sean ignoradas. Esto induce a que las inferen-
cias y los usos de las puntuaciones de las pruebas 
Generación de conclusiones carezcan de validez. 
En el caso de la PHC, las etapas iniciales 
A partir de los datos de la calificación, la de plan general, definición del contenido y es-
generación de conclusiones con propósitos de pecificaciones del test requirieron un período de 
investigación determinaría que con un 95% de reflexión de aproximadamente dos años; en esta 
confianza, el 30.5% de la población no tiene la discusión estuvieron involucrados expertos en 
habilidad de RC requerida y que el 24.7% sí po- medición, representantes de las carreras intere-
Rojas-Torres & Ordóñez-Gutiérrez, Evaluar, 2019, 19(2), 15-29
27
sadas y autoridades universitarias. El período de relacionadas con su rendimiento, dado que mu-
tiempo puede parecer excesivo, pero cuando se chas veces hay creencias generalizadas sobre los 
considera el uso propuesto para las puntuaciones significados de las calificaciones que no corres-
de la prueba este tiende a ser razonable. En el ponden con el planteamiento teórico de la prue-
caso de las pruebas educativas utilizadas en los ba; por ejemplo, un buen rendimiento es superior 
salones de clase, se requiere que el tiempo dedi- a un 7 de la escala de 0 a 10. En el caso de la 
cado a estas etapas iniciales sea mucho menor, PHC, actualmente se está trabajando en crear un 
pero esto no es excusa para eliminar la reflexión informe de resultados que sea lo suficientemente 
sobre ¿qué se desea medir?, ¿para qué se desea informativo.
medir?, y ¿cómo se debe medir? Estas reflexiones La última etapa en la construcción de una 
pueden lograr evitar errores de medición clásicos prueba es una de las más fallidas, pocas veces 
de evaluación educativa. se le dice a un examinado qué significa la pun-
En las etapas de construcción de los ítems tuación que obtuvo. Esta omisión es un proble-
y ensamblaje de la prueba se debe procurar que ma ético importante, dado que se puede afectar 
el formulario a desarrollar responda a las pre- la autoestima de un sujeto por una interpretación 
guntas planteadas previamente. Además, en estas errónea, la cual es esperable debido a la atmósfera 
etapas, junto con la administración de la prueba, cultural. Debido a esto, en los estándares de eva-
se debe procurar que los examinados tengan las luación psicológica y educativa se enfatiza sobre 
condiciones necesarias para que logren mostrar la forma de entregar los informes de calificación 
su verdadero nivel de habilidad. En el caso de la (AERA, APA, & NCME, 2014). Ahora bien, la 
PHC se invierte un período de aproximadamente interpretación de los puntajes solo es posible si la 
ocho meses para el diseño de un formulario, este construcción de la prueba fue realizada siguiendo 
ciclo comienza con la construcción de los nuevos detalladamente las etapas de construcción de la 
ítems, luego, el juzgamiento de los ítems, el en- misma, por tanto, se hace evidente la importancia 
samblaje de la prueba y la revisión del contenido de los protocolos de construcción de pruebas. 
del formulario. Como ya se mencionó, para las Es importante mencionar que la construc-
pruebas de aula no se puede exigir estos periodos ción de una prueba es un proceso continuo. En 
de tiempo, pero no pueden ser eximidas de las re- el caso de la PHC, después de los resultados de 
flexiones sobre si los ítems utilizados y la prueba la aplicación del 2018, se concluyó que es nece-
en su totalidad miden lo que se desea medir y si sario desarrollar un ensamblaje con ítems cuyas 
las condiciones de aplicación realmente posibili- dificultades fueran cercanas a 0, en vez de que su 
tan que el examinado muestre su verdadera habi- promedio fuera cercano a 0, dado que esto permi-
lidad. tiría aumentar la discriminación en el punto de-
Con respecto a la calificación se debe tener seado y de esta manera disminuir el porcentaje de 
la flexibilidad de variar la puntuación en función sujetos que no se puede clasificar en habilidades 
de la calidad de los ítems, ya que los mecanismos mayores que 0 o menores que 0. El abandono del 
rígidos de calificación pueden llevar a interpreta- promedio de la dificultad TRI se debe a que los 
ciones erróneas, lo cual repercute drásticamente ítems maximizan su discriminación en el nivel 
en la generación de conclusiones, y por ende per- de dificultad; el promedio no implica ítems con 
judica a los examinados. Al menos, se debe pro- dificultades en el nivel deseado. Por otro lado, el 
curar brindar a los sujetos las conclusiones reales equipo constructor de la PHC está trabajando en 
Rojas-Torres & Ordóñez-Gutiérrez, Evaluar, 2019, 19(2), 15-29
28
una definición de procesos más específicos para Journal Of Statistical Software, 48(6), 1-29. doi: 
ciertos ítems de RC, en vez de los mencionados 10.18637/jss.v048.i06
en este artículo, que son más comunes a todos los Downing, S. M. (2006). Twelve steps for effective test 
ítems de la prueba (Jeannotte & Kieran, 2017). development. En S. M. Downing & T. M. Hala-
Finalmente, es importante mencionar que dyna (Eds.), Handbook of Test Development (pp. 
este artículo presenta un planteamiento general 3-26). Londres, Inglaterra: Lawrence Erlbaum. doi: 
de las etapas necesarias para la construcción de 10.4324/9780203874776.ch1 
una prueba educativa y que utiliza como ejem- Dwyer, C. A., Gallagher, A., Levin, J., & Morley, M. E. 
plo una prueba escrita de selección única, con (2003). What is quantitative reasoning? Defining the 
un modelo de interpretación de puntajes basado construct for assessment purposes. ETS Research 
en criterios y con modelo de medición de la TRI Report Series, 2003(2), 1-48. doi: 10.1002/j.2333-
de dos parámetros. Los detalles específicos para 8504.2003.tb01922.x 
cada variante de una prueba educativa no pueden Embretson, S. (2017). An integrative framework for con-
ser presentados en un artículo de revista, ya que struct validity. En A. A. Rupp & J. P. Leighton 
dependerán de la finalidad de la medición. No (Eds.), The Handbook of Cognition and Assess-
obstante, las etapas presentadas en este artículo ment, Frameworks, Methodologies and Applications 
incluyen los elementos mínimos que debe consi- (pp. 102-123). Oxford, MS: Willey Blackwell. doi: 
derar cualquier prueba educativa. 10.1002/9781118956588 
Ferrara, S., Lai, E., Reilly, A., & Nichols, P. D. (2017). 
Principled approaches to assessment design, devel-
Referencias opment and implementation. En A. A. Rupp & J. P. 
Leighton (Eds.), The Handbook of Cognition and 
American Educational Research Association, American Assessment, Frameworks, Methodologies and Appli-
Psychological Association, & National Council on cations (pp. 41-74). Oxford, MS: Willey Blackwell. 
Measurement in Education. (2014). Standards for doi: 10.1002/9781118956588 
Educational and Psychological Testing. Washington Hu, L., & Bentler, P. M. (1999). Cutoff criteria for fit in-
D. C.: American Educational Research Association. dexes in covariance structure analysis: Conventional 
Bolaños-Barquero, M., & Rojas-Torres, L. (2013). Compa- criteria versus new alternatives. Structural Equation 
ración entre los promedios de la Prueba de Aptitud Modeling: A Multidisciplinary Journal, 6(1), 1-55. 
Académica y la Prueba de Habilidades Cuantitativas doi: 10.1080/10705519909540118
de los estudiantes de la universidad de Costa Rica. Jeannotte, D., & Kieran, C. (2017). A conceptual model of 
Revista de Ciencias Sociales, 142(IV), 101-115. doi: mathematical reasoning for school mathematics. Ed-
10.15517/rcs.v0i142.14305 ucational Studies in Mathematics, 96(1), 1-16. doi: 
Castillo-Arredondo, S., & Cabrerizo-Diago, J. (2010). Eva- 10.1007/s10649-017-9761-8
luación educativa de aprendizajes y competencias. Kane, M. T. (2013). Validating the interpretations and uses 
Madrid, España: Pearson Educación. of test scores. Journal of Educational Measurement, 
Cea-D’Ancona, M. A. (2002). Análisis multivariable. Teo- 50(1), 1-73. doi: 10.1111/jedm.12000
ría y práctica en la investigación social. Madrid, Es- Martínez-Arias, M. R., Hernández-Lloreda, M. J., & Her-
paña: Síntesis. nández-Lloreda, M. V. (2006). Psicometría. Madrid, 
Chalmers, R. P. (2012). Mirt: A multidimensional item España: Alianza.
response theory package for the R environment. Mateo, J., & Martínez, F. (2008). Medición y evaluación 
Rojas-Torres & Ordóñez-Gutiérrez, Evaluar, 2019, 19(2), 15-29
29
educativa. Madrid, España: La Muralla. Rosseel, Y. (2012). lavaan: An R package for structural ec-
Mayes, R. (2019). Quantitative reasoning and its rôle in in- uation modeling. Journal for Statistical Software, 
terdisciplinarity. En B. Doig, J. Williams, D. Swan- 48(2), 1-36. doi: 10.18637/jss.v048.i02 
son, R. Borromeo-Ferri & P. Drake (Eds.), Interdisci- Ryan, A. M., & Gass, S. E. (2017). Quantitative reason-
plinary Mathematics Education. The State of the Art ing: Exploring troublesome thresholds’. Discussions 
and Beyond ICEM 13 Monographs (pp. 113-133). on University Science Teaching: Proceedings of the 
Cham, Suiza: Springer. doi: 10.1007/978-3-030- Western Conference on Science Education, 1(1), 
11066-6_8 1-16. Recuperado de https://ir.lib.uwo.ca/wcsedust 
Messick, S. (1989). Meaning and values in test val- Tiana, A. (1996). La evaluación de los sistemas educativos. 
idation: The science and ethics of assess- Revista Iberoamericana de Educación, 10, 37-61. 
ment. Educational Researcher, 18(2), 5-11. doi: Recuperado de https://rieoei.org/RIE
10.3102/0013189X018002005 Villareal-Galera, M. P., Alfaro-Rojas, L., & Brizuela-Rodrí-
Muñiz, J. (1997). Introducción a la Teoría de Respuesta a guez, A. (2015). Construcción de pruebas estandari-
los Ítems. Madrid, España: Pirámide. zadas en el ámbito de la medición educativa y psico-
Muñiz, J., & Fonseca-Pedrero, E. (2019). Diez pasos para lógica. Serie Cuadernos Metodológicos del IIP. San 
la construcción de un test. Psicothema, 31(1), 7-16. José, Costa Rica: Instituto de Investigaciones Psico-
Recuperado de http://www.psicothema.com lógicas. Recuperado de http://www.kerwa.ucr.ac.cr
Niss, M., & Højgaard, T. (2011). Competencies and Ma-
thematical Learning. Ideas and inspiration for the 
development of mathematics teaching and learning 
in Denmark. Roskilde, Dinamarca: IMFUFA. 
R Core Team. (2016). R: A Language and Environment for 
Statistical Computing. Vienna, Austria: R Founda-
tion for Statistical Computing. Recuperado de ht-
tps://www.R-project.org
Rojas, L. (2013). Predicción de la dificultad de la Prueba de 
Habilidades Cuantitativas de la Universidad de Costa 
Rica. Revista Digital Matemática, Educación e In-
ternet, 13(1), 1-14. Recuperado de https://tecdigital.
tec.ac.cr/revistamatematica
Rojas-Torres, L. (2014). Predicción de la reprobación de cur-
sos de matemática básicos en las carreras de Física, 
Meteorología, Matemática, Ciencias Actuariales y 
Farmacia. Revista Electrónica EDUCARE, 18(3), 
3-15. doi: 10.15359/ree.18-3.1 
Rojas, L., Mora, M., & Ordóñez, G. (2018). Asociación del 
razonamiento cuantitativo con el rendimiento aca-
démico en cursos introductorios de matemática de 
carreras STEM. Revista Digital Matemática, Educa-
ción e Internet, 19(1), 1-13. Recuperado de https://
tecdigital.tec.ac.cr/revistamatematica