2019, Vol. 19, No. 2 ISSN 1667-4545 Recuperado de https://revistas.unc.edu.ar/index.php/revaluar Laboratorio de Evaluación Psicológica y Educativa Facultad de Psicología - Universidad Nacional de Córdoba Proceso de construcción de pruebas educativas: El caso de la Prueba de Habilidades Cuantitativas Educational tests development process: The case of the Quantitative Abilities Test Introducción Luis Rojas-Torres * 1, Graciela Ordóñez-Gutiérrez 2 Construcción de una prueba Etapas previas 1 - Universidad de Costa Rica, Costa Rica. PHC 2018 Discusión Referencias Recibido: 08/05/2019 Revisado: 17/05/2019 Aceptado: 24/05/2019 Resumen Summary La finalidad de este artículo es brindar una guía teó- The goal of this paper is to present a theoretical and rica y práctica de cómo construir una prueba educativa. En practical guide on how to develop an educational test. In the la primera parte del artículo se presenta una exposición de- first part of this paper, a detailed explanation of each stage tallada de las etapas que se deben seguir para construir una used in development of a written educational test is present- prueba educativa escrita. En la segunda parte, se muestra ed. In the second part, it is shown how this process was ap- cómo se aplicó cada una de estas etapas a la construcción plied to the development of the Quantitative Abilities Test de la Prueba de Habilidades Cuantitativas de la Universidad of the University of Costa Rica, which is an educational de Costa Rica, una prueba educativa con ítems de selección test with multiple choice items that uses the two parameter única que utiliza el modelo de medición de Teoría de Res- measurement model of the Item Response Theory. From puesta al Ítem de dos parámetros. A partir de la exposición, this exposition, it is concluded that the test development is se concluye que la construcción de pruebas es un proceso a rigorous process in which even a little mistake can cause riguroso, por lo que una elaboración deficiente provocaría wrong inferences about subjects’ abilities. una generación de inferencias erróneas de las habilidades de los sujetos. Palabras clave: prueba educativa, construcción de prue- Keywords: educational test, test development, validity ev- bas, evidencias de validez, Prueba de Habilidades Cuanti- idences, Quantitative Abilities Test, Item Response Theory tativas, Teoría de Respuesta al Ítem *Correspondencia a: Luis Rojas-Torres, E-mail: luismiguel.rojas@ucr.ac.cr Cómo citar este artículo: Rojas-Torres, L., & Ordóñez-Gutierrez, G. (2019). Proceso de construcción de pruebas educativas: El caso de la Prueba de Habilidades Cuantitativas. Revista Evaluar, 19(2), 15-29. Recuperado de https://revistas.unc.edu.ar/index.php/revaluar/index Rojas-Torres & Ordóñez-Gutiérrez, Evaluar, 2019, 19(2), 15-29 16 Introducción de cómo construir una prueba educativa escrita. Para este objetivo se presentan las etapas que ri- Las pruebas o tests son instrumentos o dis- gen la construcción de una prueba educativa, de positivos de evaluación de un dominio específico acuerdo con lo establecido en la literatura; luego, que permiten medir el grado de acierto de las res- se presenta un ejemplo de la aplicación de esta puestas que los sujetos otorgan a un conjunto de guía en la construcción de la Prueba de Habili- preguntas (American Educational Research Asso- dades Cuantitativas (PHC) de la Universidad de ciation, American Psychological Association, & Costa Rica (UCR), utilizada en el proceso de ad- National Council on Measurement in Education misión del año 2018. [AERA, APA, & NCME], 2014; Castillo-Arre- Es importante mencionar que el proceso que dondo & Cabrerizo-Diago, 2010); además, son se describe en este artículo es aplicable tanto para los instrumentos de evaluación más utilizados en pruebas estandarizadas como para “pruebas de los sistemas educativos, ya que permiten la va- aula” (aquellas que utilizan los docentes para la loración de componentes educativos de manera evaluación del avance de los estudiantes durante directa; asimismo, los tests posibilitan califica- los ciclos lectivos). No obstante, la descripción de ciones estandarizadas a un corto plazo. los procesos de este documento se concentra en En particular, las pruebas educativas son las evaluaciones estandarizadas, las cuales dispo- aquellas que evalúan elementos relacionados con nen de un tiempo de construcción más amplio que el proceso de enseñanza y aprendizaje de los es- el que tienen las pruebas de aula. La recomenda- tudiantes, como el dominio de un contenido o ción para el docente el aula es que procure acer- procesos de razonamiento en los que se recurre carse lo más que pueda a los estándares descritos al contenido aprendido. Los principales propó- en este documento. sitos con que se usan estas pruebas son: a) para hacer inferencias de los resultados educativos es- tudiantiles; b) para tomar decisiones con respec- Construcción de una prueba educativa to a los estudiantes (certificaciones, diagnóstico, selección o ingreso a programas educativos); c) Son varios los investigadores y especialis- para realizar inferencias sobre los procesos de en- tas en construcción de pruebas (Downing, 2006; señanza y aprendizaje (AERA, APA, & NCME, Embretson, 2017; Ferrara, Lai, Reilly, & Nichols, 2014) y d) para evaluar la calidad de los sistemas 2017; Kane, 2013; Muñiz & Fonseca-Pedrero, educativos en pro de la mejora de estos (Casti- 2019; Villareal-Galera, Alfaro-Rojas, & Brizue- llo-Arredondo & Cabrerizo-Diago, 2010; Tiana, la-Rodríguez, 2015) que indican que para elaborar 1996). A pesar de que las pruebas educativas son un test se requiere una secuencia de etapas, pasos ampliamente utilizadas en diversas áreas de la o fases, de tal manera que se alcancen evidencias educación, su construcción muchas veces se rea- de validez y confiabilidad sobre las puntuaciones liza sin la rigurosidad técnica demandada por las obtenidas en estos. A continuación se presenta múltiples instancias especializadas en evaluación una explicación de las etapas fundamentales para y medición educativa y las consideraciones esta- la construcción de tests. blecidas en los múltiples manuales que orientan su desarrollo. Por este motivo, este artículo tiene como objetivo brindar una guía teórica y práctica Rojas-Torres & Ordóñez-Gutiérrez, Evaluar, 2019, 19(2), 15-29 17 Plan general modelo de medición será la Teoría Clásica de los Tests (TCT), la Teoría de Respuesta de los Ítems La primera etapa en la construcción de una (TRI) u otro, según las propiedades del modelo prueba es definir el qué y para qué se quiere me- que beneficien al objetivo de medición (Muñiz & dir. El qué medir determina el constructo, lo cual Fonseca-Pedrero, 2019). Por ejemplo, si la fina- implica efectuar un abordaje teórico de este y una lidad es maximizar la discriminación en un nivel explicación de cómo la medición del constructo de habilidad se puede recurrir a la TRI; pero, si permite el alcance del objetivo establecido o el se quiere medir un constructo en una población propósito de la medición. Hay objetivos que se pequeña se puede recurrir a la TCT. explican directamente, como la obtención de los Cabe resaltar que el plan general es indis- niveles de conocimiento en el constructo de los pensable para alcanzar un grado aceptable de va- miembros de una población, pero hay otros que lidez de los usos de las puntuaciones de un test, son más complejos como es el uso de una prue- donde validez se entiende como “el grado en que ba de razonamiento con figuras para la selección la evidencia empírica y las justificaciones teóricas de los estudiantes de una carrera universitaria. El apoyan la pertinencia de las acciones e interpreta- para qué medir implica establecer una explicación ciones de las puntuaciones de las pruebas” (Mes- detallada y precisa de las razones por las cuales se sick, 1989, p. 6). Si una prueba se construye sin elabora el test (Muñiz & Fonseca-Pedrero, 2019). tener en cuenta cuáles interpretaciones se harán Además, se debe especificar el contexto en el cual con sus puntajes o qué usos se les darán a sus pun- se aplicará la prueba, el cual incluye la población tuaciones, difícilmente tendrá interpretaciones o a la que se medirá y las circunstancias de la apli- usos válidos desde la perspectiva de la rigurosi- cación. También es importante tomar en cuenta dad de la evaluación y medición educativa. qué decisiones se tomarán con respeto a las per- sonas de acuerdo con las puntuaciones obtenidas, ya que la calificación en un test puede servir para Definición del contenido propósitos varios como seleccionar, diagnosticar, clasificar, entre otros. En esta etapa se establece cuáles son los ele- Las respuestas al qué y para qué medir deter- mentos, componentes o dimensiones del construc- minarán todos los elementos que se considerarán to a evaluar. La definición de estos componentes en la construcción. De esta forma los reactivos de se realiza a partir de la revisión teórica sobre el la prueba serán de respuesta cerrada si se pretende constructo o mediante la construcción de una teo- evaluar el producto final de un proceso, o serán de ría acerca del mismo (Embretson, 2017; Muñiz & respuesta abierta si es para evaluar todo el proceso Fonseca-Pedrero, 2019). Esto con la finalidad de (Castillo-Arredondo & Cabrerizo-Diago, 2010; constituir una definición operativa del constructo Mateo & Martínez, 2008). Además, el modelo y lograr obtener medidas de manera empírica. En de interpretación de los puntajes será con base en esta etapa se empieza el desarrollo de una de las normas si se pretende comparar a los sujetos con primeras fuentes de evidencias de validez de los el resto de la población, o será con base en crite- usos de las puntuaciones: evidencias de validez rios si lo que se quiere es establecer estándares basadas en el contenido, las cuales buscan que to- de dominio (Martínez-Arias, Hernández-Lloreda, dos los elementos relevantes del constructo sean & Hernández-Lloreda, 2006). Por otro lado, el considerados (AERA, APA, & NCME, 2014). Rojas-Torres & Ordóñez-Gutiérrez, Evaluar, 2019, 19(2), 15-29 18 Especificaciones del test el instrumento. Así, una construcción deficiente incidirá en las propiedades métricas del test, lo En esta etapa se define cómo deben ser las que repercutirá mucho en las inferencias que se características del instrumento con el que se eva- realicen sobre las puntuaciones que se obtengan. luará el constructo pretendido, por lo que se debe En este sentido, para la elaboración de los ítems construir una tabla de especificaciones, ya que es indispensable capacitar a las personas que rea- esta es un elemento indispensable a la hora de lizarán esta labor. Esto demanda generar el perfil elaborar los ítems del test. En la tabla se asigna el de los constructores, contactar a personas con ese puntaje que se debe otorgar a cada combinación perfil dispuestas a colaborar en la construcción, de categorías de distintos aspectos del test como brindar una capacitación detallada de los elemen- procesos, contenidos, dificultades, entre otros. El tos que se desean evaluar en los ítems, asignar uso riguroso de la tabla de especificaciones per- tareas específicas de cómo y qué incluir en la ela- mitirá que la prueba presente evidencias de vali- boración de los reactivos. Luego se debe evaluar dez basadas en el contenido. la construcción. Con base en esta evaluación se Además, se debe decidir cuál será el forma- selecciona a los mejores constructores y se proce- to de los ítems con los que se evaluarán los ele- de a la construcción de los ítems. Para esta etapa mentos de la tabla de especificaciones, esto es: el es recomendable otorgar y asignar los elementos tipo de ítem, la longitud y el tipo de alternativas particulares de la tabla de especificaciones a cada que se va a utilizar (Martínez-Arias et al., 2006; constructor. Muñiz & Fonseca-Pedrero, 2019). Igualmente, se Una vez construidos los reactivos, estos de- debe dilucidar qué tiempo será necesario para re- ben ser evaluados por un grupo de expertos en solver la prueba, los materiales que se utilizarán el constructo a medir. En esta valoración se debe para la evaluación y los horarios en que se apli- analizar si los elementos pretendidos del cons- cará la prueba. Cada uno de estos elementos se tructo están considerados y, también, se debe in- selecciona considerando la finalidad de emplear dagar si no hay fuentes de varianza irrelevante al una prueba. Por otro lado, esta etapa es la base constructo, es decir, que en los ítems no se eva- para alcanzar evidencias de validez basadas en la lúen elementos que no forman parte del construc- estructura interna, que son aquellas evidencias de to en cuestión (Messick, 1989). Además, se debe que las dimensiones establecidas en la definición analizar si hay fuentes de dificultad diferenciales del constructo se reproducen en los datos de la por grupos relevantes de población. Por ejemplo, prueba. en una prueba realizada por dos culturas distintas no se deben agregar contextos familiares para una sola de ellas. En este mismo sentido, se solicita a Construcción de los ítems los expertos que juzguen si los ítems cumplen con los principios básicos que deben regir la construc- De acuerdo con Muñiz y Fonseca-Pedrero ción de ítems, estos son de acuerdo con Muñiz (2019), la construcción de los ítems constituye y Fonseca-Pedrero (2019): representatividad, una de las fases más importantes en la confec- relevancia, diversidad, claridad y sencillez. Los ción de un instrumento de medición, particular- reactivos que se aprueban con este juzgamien- mente en la elaboración de una prueba educativa; to pueden ser utilizados en el ensamblaje de la puesto que los reactivos son los que conforman prueba. Es importante resaltar que en esta etapa Rojas-Torres & Ordóñez-Gutiérrez, Evaluar, 2019, 19(2), 15-29 19 se rechazan muchos reactivos, sobre todo cuan- escolar, medidas de motivación, entre otras. Es do los constructores son novatos, debido a esto es importante que la evidencia empírica sobre las importante efectuar una construcción de al menos relaciones con otras variables sea consistente con el doble de la cantidad pretendida. los objetivos de medición para respaldar las evi- dencias de contenido (Embretson, 2017). Para obtener evidencias de relación con Estudio piloto de los ítems otras variables se requiere construir una base de datos que incluya información relevante sobre Luego de la construcción de los reactivos, se los examinados, por ejemplo: cantidad de mate- procede a ensamblar uno o varios formularios de rias matriculadas, promedios obtenidos en cursos aplicación según las características establecidas relevantes, etc. Por otro lado, se puede indagar en la tabla de especificaciones. Estos formularios sobre las evidencias de validez basadas en la es- serán aplicados a una población con característi- tructura interna mediante la comprobación de la cas semejantes a la población a la que va dirigida estructura factorial propuesta (Martínez-Arias et la prueba con el fin de obtener una aproximación al., 2006; Mateo & Martínez, 2008). Las indaga- de las propiedades psicométricas del instrumento ciones de evidencias de validez desde el pilotaje en la población meta, lo cual permitirá determinar permitirán que la prueba final presente las eviden- cuáles ítems son aptos para ser utilizados en el cias de validez requeridas. instrumento final (Castillo-Arredondo & Cabreri- zo-Diago, 2010; Mateo & Martínez, 2008; Muñiz & Fonseca-Pedrero, 2019; Villarreal-Galera et Ensamblaje de la prueba al., 2015). En esta etapa se debe procurar mante- ner las mismas condiciones de administración de En esta etapa se seleccionan los ítems que la prueba. En cuanto a los análisis estadísticos del serán utilizados en el examen. Para la selección test, se deben realizar los requeridos según el mo- de los ítems se deben seguir las condiciones es- delo de medición seleccionado inicialmente. La tablecidas en la tabla de especificaciones. Ade- explicación de la aplicación y el análisis de ítems, más, si en alguna de las condiciones establecidas se especifica en las etapas de la construcción de la hay un excedente de ítems, lo recomendable es prueba definitiva. seleccionar los ítems que, según los jueces, sean Con los datos de esta aplicación piloto, se más pertinentes para la evaluación del constructo pueden indagar evidencias de validez basadas en pretendido. la relación con otras variables (Embretson, 2017; Posteriormente, se procede a generar el for- Martínez-Arias et al., 2006; Villarreal-Galera et mulario de examen. Este formulario debe iniciar al., 2015), que es la comprobación de relaciones con unas instrucciones generales que señalen: a) teóricas del constructo pretendido con variables el tiempo requerido para resolver la prueba com- externas. Esto se refiere a los patrones de rela- pleta; b) la forma en que debe resolverse; y, c) la ción de las puntuaciones de la prueba con otras estructura de la prueba en cuanto a cantidad de puntuaciones de rasgos y criterios empíricos que ítems. Luego del ensamblaje, se debe realizar una estén relacionadas con los rasgos representados revisión detallada del formulario para garantizar por la calificación obtenida por los examinados que los ítems no tengan errores de forma ni de en la prueba; por ejemplo, lugar de procedencia fondo. Rojas-Torres & Ordóñez-Gutiérrez, Evaluar, 2019, 19(2), 15-29 20 Aplicación de la prueba se esbocen las respuestas a esperar; y, b) se espe- cifique la puntuación por cada una de las partes La planificación de la aplicación de la prue- de las respuestas consideradas correctas (Mateo ba es la etapa en la que se definen las condiciones & Martínez, 2008). Además, las guías deben ser necesarias para la administración del test en la po- lo más exhaustivas posible con respecto a las dis- blación meta. Es por esto que esta etapa demanda tintas formas de resolución. Por otro lado, en la efectuar una logística rigurosa para asegurar di- calificación de las preguntas de respuesta abierta chas condiciones. Un punto importante es la ca- se deben desarrollar procesos de equiparación por pacitación de los aplicadores, quienes son los en- jueces para que las puntuaciones no estén sesga- cargados de administrar el test a los examinados. das por las diferencias entre la severidad de los La capacitación implica brindar la informa- jueces. La variación en los criterios de califica- ción sobre las labores importantes en la adminis- ción de los jueces es una amenaza a la validez, tración de la prueba; por ejemplo: el resguardo dado que lleva a que la puntuación considere ele- del material, la revisión del aula, la organización mentos irrelevantes para la medición. de entrada de los postulantes a las instalaciones, Una vez calificados los ítems se debe reali- la explicación correcta de las instrucciones, la zar el análisis estadístico de estos, con base en el supervisión de la aplicación y la devolución del modelo de medición establecido desde la primera material. En la capacitación se debe asegurar que etapa. En este sentido, se analizará la calidad psi- los aplicadores puedan brindar las condiciones re- cométrica de las puntuaciones de cada ítem, por queridas para que los sujetos demuestren su ver- ejemplo discriminación y dificultad, y de la prue- dadero nivel de habilidad en la prueba (Muñiz & ba en general según el modelo considerado. En Fonseca-Pedrero, 2019). Un error puede alterar caso de que existan ítems que no cumplan los es- el significado de los resultados; por ejemplo, la tándares establecidos por la teoría, estos no deben aplicación de una prueba en un lugar sin ilumina- ser considerados en la calificación final (Ferrara ción adecuada o muy ruidoso puede producir que et al., 2017; Martínez-Arias et al., 2006; Muñiz & varios sujetos no logren tener un buen desempeño Fonseca-Pedrero, 2019). en la prueba y llevarlos a no reflejar su verdadera Con el análisis de los ítems, se busca ge- habilidad, lo que implicaría una inadecuada in- nerar evidencias de validez basadas en la estruc- terpretación sobre las puntuaciones y, por ende, tura interna por medio de la comprobación de la los usos de las pruebas tendrían un bajo grado de configuración factorial establecida en la teoría. validez. También se buscan evidencias de precisión (o confiabilidad), es decir, que las puntuaciones de la prueba brinden una aproximación apropiada Calificación de los ítems de los niveles de habilidad de los sujetos en el constructo medido por la prueba (AERA, APA, & En esta etapa se requiere de una guía de ca- NCME, 2014). lificación. Los ítems cuyo formato de respuesta es cerrado son los más sencillos de calificar, ya que la guía solo debe contener las respuestas correc- Generación de conclusiones tas. En el caso de las preguntas de respuesta abier- ta se requiere de una rúbrica o escala en la que: a) Una vez calificados los exámenes, se proce- Rojas-Torres & Ordóñez-Gutiérrez, Evaluar, 2019, 19(2), 15-29 21 de a la generación de interpretaciones con respec- Plan general to al análisis de las puntuaciones, y a determinar parámetros para las inferencias pretendidas. Si el En esta etapa se determinó que el constructo objetivo es establecer niveles de dominio en las razonamiento cuantitativo (RC) es lo que se quie- dimensiones de la prueba, se debe recurrir a un re medir con la PHC; mientras que el uso (para proceso de establecimiento de estándares con los qué) establecido fue brindar un criterio para la ítems seleccionados (standard setting). Si la fina- selección de los nuevos estudiantes que quisie- lidad es comparar el rendimiento de los sujetos ran ingresar a carreras que requerían del uso de contra el resto de la población, se puede recurrir la matemática. Cabe mencionar que el RC se de- al análisis de los percentiles de las puntuaciones fine como “la habilidad para analizar información obtenidas. Por último, se debe entregar un infor- cuantitativa y determinar cuáles destrezas y pro- me de calificación a los sujetos, indicándoles el cedimientos pueden ser aplicados para obtener significado de estas, ya que una nota por sí misma la solución de un problema particular” (Dwyer, no dice nada con respecto a su desempeño en la Gallagher, Levin, & Morley, 2003, p. 1). Esta de- prueba y puede crear nociones erróneas a los exa- finición indica que el RC está conformado por los minados, dado que culturalmente algunas notas procesos de razonamiento con contenidos mate- se asocian a un buen rendimiento mientras que máticos que se deben realizar para llegar a la so- otras a un bajo rendimiento. lución de un problema específico. En consecuen- Dadas las etapas teóricas para la construc- cia, para la evaluación del RC se debe garantizar ción de una prueba educativa, a continuación se que los contenidos sobre los que se desarrollan presenta la descripción de cada una de ellas en la las tareas de RC sean conocidos por toda la po- elaboración de la Prueba de Habilidades Cuanti- blación. tativas en el caso específico del test del 2018. En línea con la definición del RC, se puede decir que este no es equivalente al conocimiento matemático, ya que en el primero no es importan- Etapas de la construcción de la PHC previas a te qué cantidad de conocimiento matemático ten- las aplicaciones regulares ga el sujeto, sino que este pueda determinar cómo utilizar el conocimiento que domina en situacio- En el 2003, las autoridades de la UCR de- nes particulares. Entre los componentes más im- cidieron que era necesario crear una prueba de portantes que demanda el RC de acuerdo con Niss ingreso a las carreras cuyas mallas curriculares y Højgaard (2011) están: tenían varios cursos de matemática. La prueba - el pensamiento matemático: consiste en que se construyó para este propósito fue la PHC, utilizar las propiedades de los objetos matemáti- la cual se aplica regularmente todos los años, des- cos para llegar a una conclusión; de el 2015. La construcción de los formularios de - el abordaje de problemas: consiste en dise- cada año se basa en las etapas iniciales de cons- ñar una estrategia para utilizar un concepto mate- trucción de pruebas (desde el plan general hasta el mático en la resolución de un problema; pilotaje), que se desarrollaron durante varios años - el razonamiento matemático: consiste en de investigación. A continuación, se describen los determinar la validez de proposiciones matemá- elementos principales de cada una de esas etapas. ticas; y - la representación: consiste en diseñar o in- Rojas-Torres & Ordóñez-Gutiérrez, Evaluar, 2019, 19(2), 15-29 22 terpretar una representación necesaria para llegar Muñiz, 1997). a la solución de un problema. Con respecto al uso establecido para la PHC, se sostiene que el RC es necesario para des- Definición del contenido envolverse exitosamente en las profesiones que requieren de la matemática en su quehacer (Ma- Como se mencionó, los componentes del yes, 2019; Ryan & Gass, 2017) dado que los es- constructo RC establecidos en los ítems de la pecialistas en estas áreas deben determinar cómo prueba son: el pensamiento matemático, el abor- utilizar la matemática para resolver un problema daje de problemas, el razonamiento matemático determinado. Contrario a los ejercicios matemá- y la representación (Niss & Højgaard, 2011). Por ticos clásicos de las carreras universitarias, en otro lado, los conocimientos base que se utili- muchas tareas laborales no se indica qué algorit- zan en la prueba se estructuran de acuerdo con mo matemático se debe emplear, sino que el pro- las áreas temáticas de la educación primaria y fesional debe construir una estrategia eficiente y secundaria inicial de Costa Rica: análisis de da- pertinente que permita el éxito en la tarea. Con tos, aritmética, álgebra y geometría. Solo se con- este fin, los especialistas de diversas áreas deben sideran contenidos de la secundaria inicial, dado atender interrogantes utilizando gran variedad de que se asume que estos son los dominados por los información cuantitativa; esto los obliga a tomar estudiantes aspirantes a ingresar en las carreras decisiones sobre cuáles estadísticos brindan la in- mencionadas. La inclusión de contenidos poco formación más adecuada a la pregunta atendida. dominados puede generar una fuente de varianza En otros casos, se debe comparar fenómenos mo- irrelevante al constructo pretendido. delados por medio de expresiones algebraicas, lo cual demanda que el profesional distinga cuál es la estrategia que le permite realizar la compara- Especificaciones del test ción solicitada. Es por esto que se considera que los estudiantes de los programas de estudio que La tabla de especificaciones (Tabla 1) de la utilizan la matemática en su campo laboral deben prueba se planteó como una matriz de procesos, poseer un nivel aceptable de RC (Rojas, Mora, & según los componentes y áreas de contenido, con Ordóñez, 2018). una distribución homogénea. Es importante men- Ahora bien, dado que con la PHC se preten- cionar que aunque se postulan distintos procesos, de discriminar a los sujetos con habilidad acep- estos no se conciben como independientes entre table de aquellos con habilidades menores, se sí (Niss & Højgaard, 2011), sino que el nombre estableció que se necesitaba generar un punto de del proceso refleja aquel que se considera más de- corte que separara a estas dos poblaciones, el cual mandante en la solución del ítem. Por lo general puede ser representado en una escala de habilidad los cuatro componentes se emplean para la reso- normal estándar como el valor (θ = 0). Esto impli- lución del reactivo en algún grado. Por lo tanto, có que se utilizara un modelo de interpretación de se considera que el modelo factorial que mejor puntajes con base a criterios y que se utilizara a la representa a los ítems es el unidimensional. TRI como modelo de medición, ya que esta teo- Por otro lado, como la población meta de la ría permite maximizar la precisión en un nivel de prueba era numerosa y el presupuesto limitado, se habilidad específico (Martínez-Arias et al., 2006; decidió recurrir a una prueba escrita de selección Rojas-Torres & Ordóñez-Gutiérrez, Evaluar, 2019, 19(2), 15-29 23 única, con una hoja adicional en la que se con- signen las respuestas. Es importante destacar que aunque la información brindada por los reactivos Construcción de los ítems de selección única es valiosa, las preguntas de respuesta abierta podrían brindar mayor informa- El perfil para las personas encargadas de ción de los procesos realizados por los sujetos, ya construir los ítems incluyó formación en ense- que se podrían evaluar los pasos de razonamiento ñanza de la matemática y conocimientos de me- efectuados para llegar a la respuesta o resolución dición. En las capacitaciones de los constructo- del ítem. res se presentaron el objeto de medida (RC) y Por otra parte, se estableció que los ítems sus componentes. Asimismo, se proporcionaron debían tener una dificultad TRI promedio igual ejemplos de ítems en cada una de las categorías a 0, pues se buscaba maximizar la precisión en establecidas y se señalaron los elementos que el nivel de habilidad (θ = 0). Finalmente, por las agregaban varianza irrelevante al constructo: uso características de los ítems, se determinó que 40 de algoritmos extensos, preguntas semejantes a reactivos era una cantidad suficiente para alcan- las de contenido matemático, uso de tecnicismos zar una precisión adecuada y que la resolución y alta demanda de comprensión de lectura. Lue- de una prueba de este tipo tomaría alrededor de go, a cada constructor se le solicitó que presentara dos horas. Cabe resaltar que se consideró que el un ítem de cada una de las casillas de la tabla de cansancio asociado a resolver más ítems podría especificaciones. aumentar las fuentes de error de medición. Dos meses después de la capacitación, los Tabla 1 Tabla de especificaciones pretendida para la PHC 2018. Área de contenido Procesos Análisis de datos Aritmética Álgebra Geometría Pensamiento matemático 2 a 3 ítems 2 a 3 ítems 2 a 3 ítems 2 a 3 ítems Representación 2 a 3 ítems 2 a 3 ítems 2 a 3 ítems 2 a 3 ítems Abordaje de problemas 2 a 3 ítems 2 a 3 ítems 2 a 3 ítems 2 a 3 ítems Razonamiento matemático 2 a 3 ítems 2 a 3 ítems 2 a 3 ítems 2 a 3 ítems constructores entregaron los reactivos y estos fueron juzgados individualmente por el resto de Pilotaje los constructores y un juez adicional. En el juzga- miento se evaluó si los ítems realmente se ajusta- Posteriormente, los ítems seleccionados ban a los componentes de la tabla de especifica- fueron ensamblados en formularios con las ca- ciones establecida y se analizó si tenían alguna de racterísticas establecidas en la tabla de especifica- las fuentes de varianza irrelevante al constructo ciones y se aplicaron en muestras de estudiantes mencionadas previamente; luego, se procedió universitarios de primer año. Estas aplicaciones a un juzgamiento grupal para determinar si los piloto permitieron desarrollar un banco de ítems ítems construidos podían ser considerados para el de aproximadamente 80 reactivos con propieda- ensamblaje de la PHC. des psicométricas adecuadas, según el modelo de TRI de dos parámetros. Estas propiedades se- Rojas-Torres & Ordóñez-Gutiérrez, Evaluar, 2019, 19(2), 15-29 24 rán explicadas en la etapa de calificación de los nalizar doblemente al sujeto que no logró deter- ítems. Las puntuaciones de estas aplicaciones minar el proceso de resolución óptimo. También brindaron evidencias de validez basadas en la re- se descartaron los ítems cuyas dificultades TRI, lación con otras variables (específicamente, con registradas en las aplicaciones piloto, se alejaran el rendimiento académico, Bolaños-Barquero & de la dificultad promedio pretendida (θ = 0). Para Rojas-Torres, 2013; Rojas et al., 2018; Rojas-To- este formulario la dificultad TRI promedio fue de rres, 2014) y de estructura interna (Rojas, 2013). (θ = .123). Para la administración de la PHC se propor- cionaron varias sedes de aplicación en distintos Elaboración del formulario de la PHC 2018 edificios de entidades educativas ubicadas en zo- nas estratégicas de Costa Rica. Cada una de estas La construcción del formulario final utili- sedes tuvo entre 2 y 11 aulas, según la cantidad de zado en el 2018 se realizó con 36 de los ítems personas inscritas en cada sede. Además, se coor- incluidos en el banco y 4 ítems nuevos. El pilo- dinó con las autoridades de las entidades para que taje de estos ítems nuevos se llevó a cabo en la durante la administración de la prueba no hubiese aplicación real de la prueba. Lo anterior implicó personas ajenas a la aplicación cerca de las aulas que estos ítems no fueran tomados en cuenta en la y para que las aulas tuviesen iluminación y escri- calificación. Se decidió bajar la cantidad de ítems torios en buen estado. calificables para asegurar que los nuevos ítems Para cada sede se conformó un equipo de tuvieran estadísticas basadas en la situación real aplicación compuesto por un coordinador gene- de evaluación en vez de basarse en una aplicación ral, aplicadores para cada aula y un asistente del piloto. coordinador. Cada coordinador fue capacitado por el equipo desarrollador de la PHC y, luego, los coordinadores de sede capacitaron a sus equipos. Ensamblaje de la prueba En la capacitación se indicaron las pautas que se debían seguir para la administración de la prueba, La selección final de los ítems tuvo la dis- por ejemplo: la forma de ordenar los muebles (pu- tribución que se presenta en la Tabla 2. Entre los pitres) del aula, el protocolo para permitir el in- criterios utilizados para seleccionar a los ítems de greso de los examinados a las aulas, las consultas la tabla de especificaciones se consideró que no que se podían responder y la vigilancia del grupo. debían existir ítems con procesos de resolución El día de la aplicación de la prueba, se leyó muy semejantes entre sí, ya que esto podría pe- a los estudiantes unas instrucciones generales de Tabla 2 Tabla de especificaciones final de la PHC 2018. Área de contenido Procesos Análisis de datos Aritmética Álgebra Geometría Pensamiento matemático 3 ítems 2 ítems 3 ítems 2 ítems Representación 2 ítems 3 ítems 3 ítems 3 ítems Abordaje de problemas 3 ítems 2 ítems 2 ítems 3 ítems Razonamiento matemático 2 ítems 3 ítems 2 ítems 2 ítems Rojas-Torres & Ordóñez-Gutiérrez, Evaluar, 2019, 19(2), 15-29 25 cómo resolverla. Algunas instrucciones se rela- metros. Se valoró que los ítems no tuvieran di- cionaron con: los materiales que podían utilizar, ficultades extremas (menores que -3 o mayores el tiempo asignado para la resolución y la forma que 3). También, se analizó que su discriminación de rellenar la hoja para respuestas. El total de per- fuera mínimamente aceptable (mayor a .35) y que sonas que tomó la prueba fue de 2387 (1112 hom- brindaran información en el punto de interés (θ = bres y 1275 mujeres; 787 estudiantes de colegio 0; función de información mayor que .10; Martí- privado y 1600 de público). En su mayoría eran nez-Arias et al., 2006). estudiantes de secundaria que deseaban ingresar Luego, con los ítems que cumplieron todos a una de las carreras de la UCR que utilizaba la los criterios, se estimó la habilidad de los suje- PHC para la selección de los nuevos estudiantes. tos. Seguidamente, se analizó el error estándar de la estimación para verificar si este era bajo en el punto que se pretendía establecer como punto Calificación de los ítems de corte (θ = 0). Finalmente, se concluyó cuántas personas estuvieron en los grupos de habilidad Dado el carácter empírico de esta etapa, se que se requería discriminar (θ > 0 y θ < 0). utilizará una estructura clásica de análisis estadís- tico (procedimiento-resultados) para explicar su Análisis estadístico. Todos los análisis estadísti- implementación. Además, en esta etapa se pre- cos se realizaron en la plataforma de programa- sentará el método de calificación utilizado para ción estadística R, en su versión 3.3.2 (R Core procesos de investigación, el cual no ha sido im- Team, 2016). Los paquetes utilizados fueron la- plementado aún. Actualmente, se reportan las ca- vaan (Rosseel, 2012), para la estimación de AFC, lificaciones con el número de ítems correctos. y mirt (Chalmers, 2012), para la estimación del modelo TRI. Procedimiento. Primeramente, se analizó la cali- dad global del instrumento. Para esto se estimó el Resultados. El índice de confiabilidad de cons- índice de confiabilidad de constructos de modelos tructos fue de .91, por lo cual se concluye que la de ecuaciones estructurales, el cual se considera prueba muestra evidencias de confiabilidad. Esta satisfactorio si es superior a .70 (Cea-D’Ancona, evidencia se basa en que los ítems son consisten- 2002). Además, se evaluó la hipótesis de la uni- tes en la evaluación del constructo, es decir, las dimensionalidad mediante un análisis factorial asociaciones de las puntuaciones de los ítems en- confirmatorio (AFC), esta hipótesis representa la tre sí son semejantes. El indicador de consistencia estructura interna teorizada para la prueba. En el interna usual de la TCT es el alfa de Cronbach, el AFC se consideró que un buen ajuste era alcanza- cual fue de .85. do si la raíz del error cuadrático medio de aproxi- La estimación del modelo unidimensional mación (RMSEA) era menor que .06, el índice de del AFC se ajustó aceptablemente a los ítems de Tucker-Lewis (TLI) era mayor que .95, el índice banco utilizados (CFI = .992, TLI = .992 y RM- de ajuste comparativo (CFI) era mayor que .95 y SEA = .014). No obstante, hubo 3 ítems (28, 29 y las cargas factoriales de los ítems eran superiores 35) que presentaron cargas factoriales inferiores a a .30 (Hu & Bentler, 1999; Cea-D’Ancona, 2002). .30. El ajuste de este modelo brindó una evidencia Por otro lado, para evaluar la calidad de los de validez basada en la estructura interna. ítems se estimó el modelo de TRI de dos pará- Posteriormente, se analizaron las propieda- Rojas-Torres & Ordóñez-Gutiérrez, Evaluar, 2019, 19(2), 15-29 26 des de los ítems según el modelo de TRI de dos see la habilidad requerida, por tanto, los primeros parámetros. Se obtuvo que los mismos tres ítems no pueden concursar por aquellas carreras en la que presentaron cargas factoriales bajas presen- que se utiliza la PHC; mientras que los segundos taban problemas en la discriminación (lo cual es sí pueden participar. Con respecto al 44.7% de la esperable por la analogía de la carga factorial de población restante, no se pueden generar conclu- un modelo unidimensional con la discriminación siones tan contundentes. de la TRI de dos parámetros) y en la información La generación de conclusiones implemen- en θ = 0 (no solo fueron menores a .10, sino que tada oficialmente por la mayoría de las carreras fueron menores a .03). Hubo otros dos ítems (9 y se basa en un umbral asociado al porcentaje de 13) que presentaron valores de información en θ respuestas correctas. Se considera que los suje- = 0 ligeramente menores que el umbral estable- tos con notas menores a este umbral no poseen cido (.09 y .08), pero cumplieron el resto de los la habilidad requerida para cursar estas carreras. criterios establecidos. Por tanto, se decidió elimi- El umbral se estableció con el cuidado de que las nar únicamente a los primeros tres ítems para la personas con notas inferiores a este punto pre- estimación de la habilidad. sentaran habilidades inferiores a 0. A los sujetos Finalmente, la calificación de los sujetos con notas debajo del umbral se les indicó que no correspondería a la habilidad de los sujetos a par- cumplían con el requisito para concursar en las tir de los ítems seleccionados. Se obtuvo que el carreras. La razón por la que no se usa la habili- 44.0% de la población (1311 sujetos) tenía una dad TRI como criterio oficial es que es difícil de habilidad mayor o igual a θ = 0. Por otro lado, se informar a los sujetos, ya que dos sujetos con la recurrió a una de las ventajas de la TRI: la esti- misma cantidad de aciertos no tendrán necesaria- mación del error estándar de la habilidad, lo cual mente el mismo nivel de habilidad. permite la generación de intervalos de confianza. Se realizó la prueba de hipótesis para la hipótesis nula de θ ≥ 0, esta se rechazó con una significan- Discusión cia del 5% para el 30.5% de la población (911 personas); es decir, que el 30.5% de los sujetos Este artículo muestra que el proceso de presentaron una habilidad inferior a 0, con un construcción de una prueba educativa es comple- 95% de confianza. De forma análoga, se obtuvo jo y demandante. Es un proceso que no se puede que el 24.7% de la población (739 personas) tuvo realizar de manera ligera e irreflexiva. No obstan- una habilidad superior a 0, con una confianza del te, la masificación del uso de estos instrumentos 95%. de evaluación ha generado que muchas de las eta- pas sean ignoradas. Esto induce a que las inferen- cias y los usos de las puntuaciones de las pruebas Generación de conclusiones carezcan de validez. En el caso de la PHC, las etapas iniciales A partir de los datos de la calificación, la de plan general, definición del contenido y es- generación de conclusiones con propósitos de pecificaciones del test requirieron un período de investigación determinaría que con un 95% de reflexión de aproximadamente dos años; en esta confianza, el 30.5% de la población no tiene la discusión estuvieron involucrados expertos en habilidad de RC requerida y que el 24.7% sí po- medición, representantes de las carreras intere- Rojas-Torres & Ordóñez-Gutiérrez, Evaluar, 2019, 19(2), 15-29 27 sadas y autoridades universitarias. El período de relacionadas con su rendimiento, dado que mu- tiempo puede parecer excesivo, pero cuando se chas veces hay creencias generalizadas sobre los considera el uso propuesto para las puntuaciones significados de las calificaciones que no corres- de la prueba este tiende a ser razonable. En el ponden con el planteamiento teórico de la prue- caso de las pruebas educativas utilizadas en los ba; por ejemplo, un buen rendimiento es superior salones de clase, se requiere que el tiempo dedi- a un 7 de la escala de 0 a 10. En el caso de la cado a estas etapas iniciales sea mucho menor, PHC, actualmente se está trabajando en crear un pero esto no es excusa para eliminar la reflexión informe de resultados que sea lo suficientemente sobre ¿qué se desea medir?, ¿para qué se desea informativo. medir?, y ¿cómo se debe medir? Estas reflexiones La última etapa en la construcción de una pueden lograr evitar errores de medición clásicos prueba es una de las más fallidas, pocas veces de evaluación educativa. se le dice a un examinado qué significa la pun- En las etapas de construcción de los ítems tuación que obtuvo. Esta omisión es un proble- y ensamblaje de la prueba se debe procurar que ma ético importante, dado que se puede afectar el formulario a desarrollar responda a las pre- la autoestima de un sujeto por una interpretación guntas planteadas previamente. Además, en estas errónea, la cual es esperable debido a la atmósfera etapas, junto con la administración de la prueba, cultural. Debido a esto, en los estándares de eva- se debe procurar que los examinados tengan las luación psicológica y educativa se enfatiza sobre condiciones necesarias para que logren mostrar la forma de entregar los informes de calificación su verdadero nivel de habilidad. En el caso de la (AERA, APA, & NCME, 2014). Ahora bien, la PHC se invierte un período de aproximadamente interpretación de los puntajes solo es posible si la ocho meses para el diseño de un formulario, este construcción de la prueba fue realizada siguiendo ciclo comienza con la construcción de los nuevos detalladamente las etapas de construcción de la ítems, luego, el juzgamiento de los ítems, el en- misma, por tanto, se hace evidente la importancia samblaje de la prueba y la revisión del contenido de los protocolos de construcción de pruebas. del formulario. Como ya se mencionó, para las Es importante mencionar que la construc- pruebas de aula no se puede exigir estos periodos ción de una prueba es un proceso continuo. En de tiempo, pero no pueden ser eximidas de las re- el caso de la PHC, después de los resultados de flexiones sobre si los ítems utilizados y la prueba la aplicación del 2018, se concluyó que es nece- en su totalidad miden lo que se desea medir y si sario desarrollar un ensamblaje con ítems cuyas las condiciones de aplicación realmente posibili- dificultades fueran cercanas a 0, en vez de que su tan que el examinado muestre su verdadera habi- promedio fuera cercano a 0, dado que esto permi- lidad. tiría aumentar la discriminación en el punto de- Con respecto a la calificación se debe tener seado y de esta manera disminuir el porcentaje de la flexibilidad de variar la puntuación en función sujetos que no se puede clasificar en habilidades de la calidad de los ítems, ya que los mecanismos mayores que 0 o menores que 0. El abandono del rígidos de calificación pueden llevar a interpreta- promedio de la dificultad TRI se debe a que los ciones erróneas, lo cual repercute drásticamente ítems maximizan su discriminación en el nivel en la generación de conclusiones, y por ende per- de dificultad; el promedio no implica ítems con judica a los examinados. Al menos, se debe pro- dificultades en el nivel deseado. Por otro lado, el curar brindar a los sujetos las conclusiones reales equipo constructor de la PHC está trabajando en Rojas-Torres & Ordóñez-Gutiérrez, Evaluar, 2019, 19(2), 15-29 28 una definición de procesos más específicos para Journal Of Statistical Software, 48(6), 1-29. doi: ciertos ítems de RC, en vez de los mencionados 10.18637/jss.v048.i06 en este artículo, que son más comunes a todos los Downing, S. M. (2006). Twelve steps for effective test ítems de la prueba (Jeannotte & Kieran, 2017). development. En S. M. Downing & T. M. Hala- Finalmente, es importante mencionar que dyna (Eds.), Handbook of Test Development (pp. este artículo presenta un planteamiento general 3-26). Londres, Inglaterra: Lawrence Erlbaum. doi: de las etapas necesarias para la construcción de 10.4324/9780203874776.ch1 una prueba educativa y que utiliza como ejem- Dwyer, C. A., Gallagher, A., Levin, J., & Morley, M. E. plo una prueba escrita de selección única, con (2003). What is quantitative reasoning? Defining the un modelo de interpretación de puntajes basado construct for assessment purposes. ETS Research en criterios y con modelo de medición de la TRI Report Series, 2003(2), 1-48. doi: 10.1002/j.2333- de dos parámetros. Los detalles específicos para 8504.2003.tb01922.x cada variante de una prueba educativa no pueden Embretson, S. (2017). An integrative framework for con- ser presentados en un artículo de revista, ya que struct validity. En A. A. Rupp & J. P. Leighton dependerán de la finalidad de la medición. No (Eds.), The Handbook of Cognition and Assess- obstante, las etapas presentadas en este artículo ment, Frameworks, Methodologies and Applications incluyen los elementos mínimos que debe consi- (pp. 102-123). Oxford, MS: Willey Blackwell. doi: derar cualquier prueba educativa. 10.1002/9781118956588 Ferrara, S., Lai, E., Reilly, A., & Nichols, P. D. (2017). Principled approaches to assessment design, devel- Referencias opment and implementation. En A. A. Rupp & J. P. Leighton (Eds.), The Handbook of Cognition and American Educational Research Association, American Assessment, Frameworks, Methodologies and Appli- Psychological Association, & National Council on cations (pp. 41-74). Oxford, MS: Willey Blackwell. Measurement in Education. (2014). Standards for doi: 10.1002/9781118956588 Educational and Psychological Testing. Washington Hu, L., & Bentler, P. M. (1999). Cutoff criteria for fit in- D. C.: American Educational Research Association. dexes in covariance structure analysis: Conventional Bolaños-Barquero, M., & Rojas-Torres, L. (2013). Compa- criteria versus new alternatives. Structural Equation ración entre los promedios de la Prueba de Aptitud Modeling: A Multidisciplinary Journal, 6(1), 1-55. Académica y la Prueba de Habilidades Cuantitativas doi: 10.1080/10705519909540118 de los estudiantes de la universidad de Costa Rica. Jeannotte, D., & Kieran, C. (2017). A conceptual model of Revista de Ciencias Sociales, 142(IV), 101-115. doi: mathematical reasoning for school mathematics. Ed- 10.15517/rcs.v0i142.14305 ucational Studies in Mathematics, 96(1), 1-16. doi: Castillo-Arredondo, S., & Cabrerizo-Diago, J. (2010). Eva- 10.1007/s10649-017-9761-8 luación educativa de aprendizajes y competencias. Kane, M. T. (2013). Validating the interpretations and uses Madrid, España: Pearson Educación. of test scores. Journal of Educational Measurement, Cea-D’Ancona, M. A. (2002). Análisis multivariable. Teo- 50(1), 1-73. doi: 10.1111/jedm.12000 ría y práctica en la investigación social. Madrid, Es- Martínez-Arias, M. R., Hernández-Lloreda, M. J., & Her- paña: Síntesis. nández-Lloreda, M. V. (2006). Psicometría. Madrid, Chalmers, R. P. (2012). Mirt: A multidimensional item España: Alianza. response theory package for the R environment. Mateo, J., & Martínez, F. (2008). Medición y evaluación Rojas-Torres & Ordóñez-Gutiérrez, Evaluar, 2019, 19(2), 15-29 29 educativa. Madrid, España: La Muralla. Rosseel, Y. (2012). lavaan: An R package for structural ec- Mayes, R. (2019). Quantitative reasoning and its rôle in in- uation modeling. Journal for Statistical Software, terdisciplinarity. En B. Doig, J. Williams, D. Swan- 48(2), 1-36. doi: 10.18637/jss.v048.i02 son, R. Borromeo-Ferri & P. Drake (Eds.), Interdisci- Ryan, A. M., & Gass, S. E. (2017). Quantitative reason- plinary Mathematics Education. The State of the Art ing: Exploring troublesome thresholds’. Discussions and Beyond ICEM 13 Monographs (pp. 113-133). on University Science Teaching: Proceedings of the Cham, Suiza: Springer. doi: 10.1007/978-3-030- Western Conference on Science Education, 1(1), 11066-6_8 1-16. Recuperado de https://ir.lib.uwo.ca/wcsedust Messick, S. (1989). Meaning and values in test val- Tiana, A. (1996). La evaluación de los sistemas educativos. idation: The science and ethics of assess- Revista Iberoamericana de Educación, 10, 37-61. ment. Educational Researcher, 18(2), 5-11. doi: Recuperado de https://rieoei.org/RIE 10.3102/0013189X018002005 Villareal-Galera, M. P., Alfaro-Rojas, L., & Brizuela-Rodrí- Muñiz, J. (1997). Introducción a la Teoría de Respuesta a guez, A. (2015). Construcción de pruebas estandari- los Ítems. Madrid, España: Pirámide. zadas en el ámbito de la medición educativa y psico- Muñiz, J., & Fonseca-Pedrero, E. (2019). Diez pasos para lógica. Serie Cuadernos Metodológicos del IIP. San la construcción de un test. Psicothema, 31(1), 7-16. José, Costa Rica: Instituto de Investigaciones Psico- Recuperado de http://www.psicothema.com lógicas. Recuperado de http://www.kerwa.ucr.ac.cr Niss, M., & Højgaard, T. (2011). Competencies and Ma- thematical Learning. Ideas and inspiration for the development of mathematics teaching and learning in Denmark. Roskilde, Dinamarca: IMFUFA. R Core Team. (2016). R: A Language and Environment for Statistical Computing. Vienna, Austria: R Founda- tion for Statistical Computing. Recuperado de ht- tps://www.R-project.org Rojas, L. (2013). Predicción de la dificultad de la Prueba de Habilidades Cuantitativas de la Universidad de Costa Rica. Revista Digital Matemática, Educación e In- ternet, 13(1), 1-14. Recuperado de https://tecdigital. tec.ac.cr/revistamatematica Rojas-Torres, L. (2014). Predicción de la reprobación de cur- sos de matemática básicos en las carreras de Física, Meteorología, Matemática, Ciencias Actuariales y Farmacia. Revista Electrónica EDUCARE, 18(3), 3-15. doi: 10.15359/ree.18-3.1 Rojas, L., Mora, M., & Ordóñez, G. (2018). Asociación del razonamiento cuantitativo con el rendimiento aca- démico en cursos introductorios de matemática de carreras STEM. Revista Digital Matemática, Educa- ción e Internet, 19(1), 1-13. Recuperado de https:// tecdigital.tec.ac.cr/revistamatematica