Minería de texto: comparación léxico-semántica del corpus lingüístico de las obras literarias latinoamericanas recomendadas en el tercer ciclo y educación diversificada en el sistema educativo costarricense con el corpus lingüístico de ítems de práctica para la Prueba de Aptitud Académica (PAA) de la Universidad de Costa Rica, 2018 -2020

Valverde Hernández, Melissa Edith

Minería de texto: comparación léxico-semántica del corpus lingüístico de las obras literarias latinoamericanas recomendadas en el tercer ciclo y educación diversificada en el sistema educativo costarricense con el corpus lingüístico de ítems de práctica para la Prueba de Aptitud Académica (PAA) de la Universidad de Costa Rica, 2018 -2020

Files

TFIA Melissa Edith Valverde Hernández Version Final -VB - Firmado-Completo.pdf (1.71 MB)

Date

2025

Authors

Valverde Hernández, Melissa Edith

Abstract

La comprensión lectora y el conocimiento del léxico son parte fundamental en el entendimiento de los textos. En este estudio se explora si el corpus lingüístico de diversas obras literarias latinoamericanas, recomendadas a nivel de secundaria en el sistema educativo costarricense, se asocian con el corpus lingüístico de ítems de práctica para la Prueba de Aptitud Académica (PAA) de la Universidad de Costa Rica. En este caso se realiza un análisis bajo el enfoque cuantitativo utilizando métricas y técnicas de minería de textos. En total se analizan 68 obras literarias y se toma en cuenta 150 ítems de práctica de la PAA. Al final, se obtiene un corpus general con más de 73 000 palabras. Según los resultados de asociación de los corpus lingüísticos, se muestra magnitudes de las asociaciones de la similitud de coseno y el índice de Jaccard superiores a 0.9, lo cual indica asociación entre los documentos y los corpus. Además, los modelos de clasificación obtienen precisiones mayores a 0.9 y precisiones equilibradas mayores a 0.5. Los modelos con asignación latente de Direchlet (ALD) presentan las mejores precisiones equilibradas. El modelo de bosques aleatorios clasifica con precisión mayor a 0.93 y precisiones equilibradas mayores a 0.6. Se concluye que existe una notable similitud en el vocabulario utilizado en las obras literarias recomendadas y los ítems de práctica de la PAA. El modelo de bosques aleatorios demostró ser el más eficaz para la clasificación léxica en este contexto. Estos hallazgos sugieren que la familiarización con el léxico de las obras literarias requeridas podría ser beneficiosa para las personas estudiantes al enfrentar la PAA. Sin embargo, se reconoce que la adquisición de vocabulario y la comprensión lectora dependen también de factores individuales (hábitos, actitudes, vivencias) y del enfoque pedagógico empleado en el aula por la persona docente.
Reading comprehension and lexical knowledge are fundamental for understanding texts. This study aims to determine whether the linguistic corpus of Latin American literary works recommended at the secondary level within the Costa Rican educational system is associated with the linguistic corpus of practice items for the University of Costa Rica's Academic Aptitude Test (PAA). The analysis was conducted using a quantitative approach employing text mining metrics and techniques. A total of 68 literary works and 150 PAA practice items were analyzed, resulting in a general corpus exceeding 73,000 words. According to the linguistic corpora association results, high magnitudes were observed for both cosine similarity and Jaccard index associations (both > 0.9), indicating an association between the documents and the corpora. Furthermore, the classification models achieved accuracy scores greater than 0.9 and balanced accuracy scores greater than 0.5. Models incorporating Latent Dirichlet Allocation (LDA) presented the best balanced accuracy scores. The Random Forest model performed best in classification, achieving an accuracy greater than 0.93 and a balanced accuracy greater than 0.6. It is concluded that there is a notable similarity in the vocabulary used in the recommended literary works and the PAA practice items. The Random Forest model proved to be the most effective for lexical classification in this context. These findings suggest that familiarity with the lexicon of the required literary works could be beneficial for students when facing the PAA. However, it is acknowledged that vocabulary acquisition and reading comprehension also depend on individual factors (such as habits, attitudes, and personal experiences) and the pedagogical approach employed by the teacher in the classroom.

Keywords

Corpus lingüístico, comprensión lectora, obras literarias, prueba de aptitud, minería de texto, Linguistic corpus, reading comprehension, literary works, aptitude test, text mining.

URI

https://hdl.handle.net/10669/103777

Collections

Estadística

Full item page

Files

Date

Authors

Journal Title

Journal ISSN

Volume Title

Publisher

Abstract

Description

Keywords

Citation

item.page.doi

URI

Collections

Endorsement

Review

Supplemented By

Referenced By