Actas BIREDIAL-ISTEC 2024 Coordinación general Meilyn Garro, Universidad de Costa Rica Coordinación general: Meilyn Garro, Universidad de Costa Rica Edición, maquetación y corrección de estilo: Meilyn Garro Diseño de tapa y contratapa: Meilyn Garro Revisión técnica: Marisa R. De Giusti, Universidad Nacional de la Plata; Marlem Uribe, Universidad del Norte Todos los derechos son de los autores. Este documento se distribuye bajo una licencia Creative Commons Attribution 4.0 International. Primera edición digital (PDF descarga y online): 2025. Ciudad Universitaria Rodrigo Facio, San José, Costa Rica. Hecho el depósito de ley. Edición digital de la Vicerrectoría de Investigación, Universidad de Costa Rica. Fecha de creación: marzo, 2025. CC.SIBDI.UCR - CIP/4243 Nombres: Conferencia Internacional sobre Bibliotecas y Repositorios Digitales (13 : 2024 : Santiago, Chile), autor. | Garro, Meylin, editora. Título: Actas BIREDIAL-ISTEC 2024 : Conferencia Internacional BIREDIAL-ISTEC, 22-24 de octubre de 2024, Santiago, Chile / coordinación general Meilyn Garro. Descripción: Primera edición digital. | San José, Costa Rica : Universidad de Costa Rica, Vicerrectoría de Investigación, 2025. | Algunos textos en portugués. Identificadores: ISBN 978-9968-08-017-0 (PDF) Materias: ARMARC: Bibliotecas digitales – Congresos, conferencias, etc. | Repositorios institucionales – Congresos, conferencias, etc. | Ciencia abierta – Congresos, conferencias, etc. | Inteligencia artificial – Congresos, conferencias, etc. | Acceso abierto – Congresos, conferencias, etc. Clasificación: CDD 027–ed. 23 TABLA DE CONTENIDO PRESENTACIÓN....................................................................................................................................................................6 Inteligencia artificial (IA) aplicada a la Ciencia Abierta.....................................................................................9 Prototipo para la clasificación de Proyectos de Ciencia Ciudadana utilizando inteligencia artificial: Experiencias en la Universidad del Rosario.............................................10 Malgorzata Lisowska, Blanco Castillo Humberto Detección de idiomas como tarea de curaduría de datos para repositorios institucionales: desempeño de bibliotecas disponibles y modelos de lenguaje ............16 Carlos Javier Nusch, Leticia Cecilia Cagnina, Marcelo Luis Errecalde, Leandro Antonelli, Marisa Raquel De Giusti BENANCIB: coletando, organizado, curando e preservando a memória do ENANCIB............................32 Rosa Helena Cunha Vidal, Rene Faustino Gabriel Junior Mejora en la Precisión de IA mediante Acceso Optimizado a Datos de OJS: Análisis de Conexión Directa a Base de datos vs. OAI-PMH...............................................................44 Rafael Castillo Guerrero, Francisco Garrido Sandoval Comunicación académica, científica y cultural en abierto..........................................................................51 Repositório bilíngue em língua de sinais: formação na perspectiva inclusiva ..........................................52 Tania Chalhub, Maria José Veloso da Costa Santos Formação Profissional em Repositórios Digitais: um curso criado para melhorar a gestão dos profissionais de Informação..................................................................................64 Claudete Fernandes de Queiroz, Leonardo Simonini Ferreira Compartir para generar nuevo conocimiento: construcción de una propuesta para el fortalecimiento de las prácticas en ciencia abierta para los grupos de Investigación de la Facultad de Odontología, Universidad de Antioquia..............71 Ana Isabel Correa-Orrego La ruta de la Ciencia Abierta en Uruguay: políticas, infraestructuras y actores.........................................83 Magela Cabrera Castiglioni, Carina Patrón, Mabel Seroubian Evaluación de estrategias de servicios de marcación y de publicación para artículos científicos......97 Santiago Soler, Dolores García, Gonzalo Luján Villarreal, Adela Ruiz Consideraciones y buenas prácticas en la aplicación de Inteligencia artificial en revistas diamante: caso de la revista Tecnología en marcha .................................................109 Alexa Ramírez-Vega Datos abiertos............................................................................................................................................................117 Análise das propostas de certificação de repositórios ao Core Trust Seal: o que podemos aprender com elas? ...........................................................................................................118 Samile Andrea de Souza Vanz, Rene Faustino Gabriel Junior, Marcel Garcia de Souza, Washington Segundo, Caterina Groposo Pavão Dados de pesquisa: percepções e práticas de compartilhamento de cientistas da Pequena Ciência...................................................................................................................................132 Rosane Teles Lins Castilho Evaluación y métricas alternativas......................................................................................................................145 HERA 2.0: Más Funcionalidad para la Evaluación de Recursos Académicos............................................146 Ezequiel Carletti, Enzo Rucci, Gonzalo Luján Villarreal Infraestructura tecnológica...................................................................................................................................163 Panorama dos repositórios de dados de pesquisa brasileiros......................................................................164 Carla Beatriz Marques Felipe, Raimunda Fernanda dos Santos Tecnologias livres utilizadas para construção de Repositórios e Bibliotecas Digitais no Brasil.........175 Diego José Macêdo, Ingrid Torres Schiessl, Mirele Carolina Souza Ferreira Costa, Lucas Ângelo Silveira, Fernando de Jesus Pereira, Elton Mártires Pinto, Milton Shintaku Creación y evaluación de una herramienta para la conversión por lote de archivos PDF/A.............188 Lorenzo Calamante, María Marta Vila, Mariano Ezequiel Villalba, Marisa Raquel De Giusti, Carlos Javier Nusch, Gonzalo Luján Villarreal Integración de HERA con Aplicaciones de Terceros. Oportunidades y Beneficios.................................203 Lautaro Josin Saller, Pablo Gabriel Terrone, Ezequiel Carletti, Enzo Rucci, Gonzalo Luján Villarreal El desarrollo de Sistemas de Gestión de la Investigación (CRIS) en América Latina y el Caribe: Estudio 2021-2024...................................................................................................217 Rosalina Vázquez Tapia Póster.............................................................................................................................................................................230 1. Guía de regulación de uso y reporte de Inteligencia Artificial en publicaciones científico- académicas en los roles de autoría, edición y revisión por pares. Una perspectiva desde la Ciencia Abierta. Liana Penabad-Camacho, María Morera-Castro, María Amalia Penabad-Camacho 2. Política de cambio de nombre de autoría para identidad de género. Enrique Muriel-Torrado, Lúcia da Silveira, Juliana Aparecida Gulka 3. Apoio técnico editorial a periódicos científicos: a atuação do Laboratório de Periódicos Científicos da UFSC. Enrique Muriel-Torrado, Patricia da Silva Neubert, Rosângela Schwarz Rodrigues, Edgar Edgar Bisset-Alvarez, Luiz Roberto Curtinaz Schifini 4. Situación actual de las revistas científicas nacionales en el proyecto SciELO Uruguay. Laura Machado 5. Relevamiento de publicaciones digitales y acervo documental de los centros de la Comisión de Investigaciones Científicas de la Provincia de Buenos Aires. Dolores García, Lorenzo Calamante, Gonzalo L. Villarreal, Lucas Eduardo Folegotto 6. Construcción de sitios web institucionales integrados con sistemas externos. Gonzalo L. Villarreal, Pablo G. Terrone, Lautaro Josin Saller 7. Ecossistema da educação aberta brasileira: mapeamento das tendências atuais e de seus elementos constituintes. Eva Priscila Vieira Dann, Caterina Groposo Pavão 8. Ciência aberta e o papel do Repositório Institucional Ninho. Kátia Simões, Robson Martins, Camila Belo, Mariana Teles 9. Acervo digital da Biblioteca de Obras Raras Fausto Castilho da Unicamp: estudo preliminar de conservação de livros raros e especiais. Danielle Thiago Ferreira, Isabella Nascimento Pereira 10. Impacto del uso de redes sociales para comunicar desde el Repositorio de Datos Académicos RDA-UNR. Paola Bongiovani 11. Ciência à vista no Repositório Institucional da UFSC. Sandra Sobrera Abella, Denise Machado, Marli Dias de Souza Pinto 12. Gestão de conteúdo em repositórios institucionais de universidades estrangeiras: análise de diretrizes a partir de boas práticas internacionais. Denise Machado, Marli Dias de Souza Pinto 13. Avaliação dos repositórios de dados em biodiversidade: uma análise com base nos princípios FAIR. Carla Marques Felipe 14. Modelo de depósito de dados assistido realizado por equipe multidisciplinar da área da Saúde: a experiência do Arca Dados (Fiocruz). Vanessa de Arruda 15. ¿En quién pienso cuando comparto mis datos de investigación? María Hidalgo, Meilyn Garro 16. Rede Moara para compartilhamento de códigos fonte no âmbito da Ciência Aberta. Diego José Macêdo, Bernardo Dionízio Vechi, Rebeca dos Santos de Moura, Lucas Rodrigues Costa, Ingrid Torres Schiessl, Milton Shintaku Conferencias magistrales y mesas de discusión............................................................................................232 Conferencia: Inteligencia Artificial, una revolución a plena marcha...........................................................233 Álvaro Soto Conferencia: Ciencias Sociales para Chile, una red de colaboración en Ciencia Abierta.....................234 Antonieta Urquieta Conferencia: Open Alex: Abordando las desigualdades en las fuentes bibliográficas.........................235 Juan Pablo Alperin Conferencia: Peace Engineering – Ingeniería para la Paz................................................................................236 Ramiro Jordan Conferencia: ¿La inteligencia artificial, es realmente inteligencia?.............................................................237 Jorge Solís Tovar Mesa de discusión: IA y sistemas de descubrimientos e interfaces.............................................................238 Mesa de discusión: Nuevas propuestas de evaluación de la actividad científica...................................239 XIII Conferencia Internacional BIREDIAL-ISTEC - Del 22 al 24 de octubre de 2024 - Santiago, Chile 6 PRESENTACIÓN La Conferencia Internacional BIREDIAL-ISTEC sobre Bibliotecas y Repositorios Digitales de América Latina conmemoró en 2024 su 13º edición y tuvo como sede la ciudad de Santiago de Chile. La organiza- ción estuvo a cargo de la Universidad de Chile, en colaboración con ISTEC – Consorcio Iberoamericano para la Educación en Ciencia y Tecnología, Universidad Nacional de la Plata, Universidad del Norte, Universidad del Rosario, UFRGS – Universidade Federal do Rio Grande do Sul, Universidad de Costa Rica, REMERI-Red Mexicana de Repositorios Institucionales y se llevó a cabo en la semana del 22 al 24 de octubre de 2024 en modalidad presencial y con asistencia abierta y gratuita. El evento se enfocó en la sinergia de la tecnología y la academia para conocer los avances regionales de la aplicación de Inteligencia Artificial en diferentes procesos relacionados con Ciencia Abierta. La Conferencia dio lugar a la presentación de ponencias, conferencias magistrales, pósteres y mesas de discusión todos las cuales se reúnen en estas Actas. Los trabajos en su totalidad cubrieron cinco ejes que abarcan aspectos fundamentales de la Ciencia Abierta o interaccionan con ella: inteligencia artificial, comunicación académica y científica, datos abiertos e infraestructura tecnológica, que abarcan aspectos fundamentales de la Ciencia Abierta. Esta edición contó con la coordinación del siguiente Comité Científico: • Caterina Groposo, Universidade Federal do Rio Grande do Sul (Brasil) • Malgorzata Lisowska, Universidad del Rosario (Colombia) • Marisa R. De Giusti, Universidad Nacional de La Plata (Argentina) • Marlem Uribe Marenco, Universidad del Norte (Colombia) • Meilyn Garro, Universidad de Costa Rica (Costa Rica) • Rosalina Vázquez, REMERI – Red Mexicana de Repositorios Institucionales (México) • Rafael Castillo, Universidad de Chile (Chile) El detalle de los Ejes fue el siguiente: Eje 0: Inteligencia artificial (IA) aplicada a la Ciencia Abierta: • Evaluación científica basada en inteligencia artificial: integra procesos de evaluación por pares, académica y medición de impacto utilizando aplicaciones basadas en IA. • Experiencias en la implementación de técnicas y aplicaciones basadas en IA para la optimización de flujos de trabajo y el desarrollo de servicios en el contexto de la Ciencia Abierta. • Formación de usuarios/as aplicada a servicios basados en inteligencia artificial: considera estrate- gias de integración y uso de la IA. • Responsabilidad en la IA: aborda buenas prácticas y consideraciones éticas en el uso de la IA. • Propiedad intelectual, buenas prácticas y consideraciones legales en el uso de la IA. • Futuro y desafíos de la IA en la Ciencia Abierta. XIII Conferencia Internacional BIREDIAL-ISTEC - Del 22 al 24 de octubre de 2024 - Santiago, Chile 7 Eje 1: Comunicación académica, científica y cultural en abierto: • Gestión y modelos de sostenibilidad de repositorios: destaca la importancia de la sostenibilidad y poblamiento de repositorios institucionales o temáticos. • Estrategias para mejorar la calidad, visibilidad y posicionamiento de la producción científica, aca- démica y cultural. • Estrategias de sensibilización, gestión del cambio, capacitación y formación de competencias so- bre comunicación de la ciencia. • Experiencias y buenas prácticas en la gestión de Recursos Educativos Abiertos (REA). • Experiencias y buenas prácticas en la gestión de contenido cultural. • Experiencias y buenas prácticas de proyectos de Ciencia ciudadana: metodologías, financiamiento, reconocimiento, propiedad intelectual. • Estrategias de integración de resultados de investigación que incluye manejo de objetos digitales complejos. Eje 2: Datos abiertos: • Gestión de datos de investigación: incluye la gestión integral de datos de investigación, desde data stewardship, aplicación de los principios FAIR y CARE hasta derechos de autor. • Gestión de repositorios de datos de investigación: abarca la curaduría de datos, normalización, datos enlazados y gestión de grandes volúmenes de datos. • Planes o estrategias de sensibilización de la comunidad investigadora sobre la importancia de ges- tionar datos de investigación. Eje 3: Evaluación y métricas alternativas: • Métricas alternativas o de última generación: explora nuevas formas de evaluar la actividad cientí- fica y su impacto. • Evaluación abierta por pares y metodologías abiertas: destaca la importancia de metodologías abiertas en la evaluación. • Herramientas y metodologías de tratamiento de datos de diversas fuentes para apoyar procesos de evaluación, tales como Google Scholar, Scopus, WoS, AmeliCA, Dimensions, Altmetric, DOAJ, entre otros. XIII Conferencia Internacional BIREDIAL-ISTEC - Del 22 al 24 de octubre de 2024 - Santiago, Chile 8 Eje 4: Infraestructura tecnológica: • Plataformas para la implementación de servicios de Ciencia Abierta: incluye repositorios de datos, Recursos Educativos Abiertos (REA), Sistemas de Gestión de Investigación (CRIS), libros electróni- cos y software libre o propietario. • Interoperabilidad e integración entre sistemas y servicios: reconoce la necesidad de interoperabi- lidad entre diversos sistemas de Ciencia Abierta, tales como CRIS, portales de revistas, repositorios de datos, identificadores persistentes, repositorios de recursos educativos y de patrimonio cultural, entre otros. • Tecnología para la preservación digital y extracción automática de datos: aborda aspectos tecnoló- gicos fundamentales para la preservación y análisis de datos, contenidos académicos y culturales. • Nueva generación de plataformas abiertas. Inteligencia artificial (IA) aplicada a la Ciencia Abierta XIII Conferencia Internacional BIREDIAL-ISTEC - Del 22 al 24 de octubre de 2024 - Santiago, Chile 10 Prototipo para la clasificación de Proyectos de Ciencia Ciudadana utilizando inteligencia artificial: Experiencias en la Universidad del Rosario Malgorzata Lisowska1, Blanco Castillo Humberto2 Palabras claves Ciencia ciudadana, inteligencia artificial, procesamiento de lenguaje natural, ciencia abierta Citizen science, artificial intelligence, Natural Language Processing, Technological Innovation Eje temático Inteligencia artificial (IA) aplicada a la Ciencia Abierta Resumen Este artículo examina un prototipo para evaluar y clasificar proyectos de ciencia ciudadana, integran- do una rúbrica de evaluación y un modelo de Procesamiento de Lenguaje Natural (PLN) personalizado. El enfoque, basado en la inteligencia artificial (IA), subraya su relevancia en la clasificación y abre nuevas perspectivas para la investigación en ciencia abierta. El análisis comienza revisando el estado global de la ciencia ciudadana y los avances tecnológicos que permiten la evaluación y procesamiento de estos proyectos. Se destaca especialmente la experiencia de la Universidad del Rosario en la implementación de su modelo de ciencia abierta, enfrentando desafíos en la clasificación de proyectos y utilizando la IA para desarrollar un prototipo que determina la pertinencia de los proyectos dentro de la ciencia ciudadana. Este prototipo utiliza una rúbrica complementada con preguntas dinámicas que facilitan una clasificación precisa. Se concluye discutiendo las ventajas de esta tecnología y su potencial para mejorar la evaluación de proyectos con soporte en inteligencia artificial. Introducción La ciencia ciudadana, caracterizada por la participación activa de no científicos en procesos de inves- tigación científica, ha ganado relevancia como un enfoque inclusivo y democratizador para la generación de conocimiento. Además, ha experimentado un crecimiento notable en la última década (Tabla 1), lo cual plantea desafíos significativos para su evaluación y clasificación efectiva. 1 CRAI Universidad del Rosario - Colombia margarita.lisowska@urosario.edu.co 2 CRAI Universidad del Rosario - Colombia humberto.blanco@urosario.edu.co Este documento se distribuye bajo una licencia Creative Commons Attribution 4.0 International XIII Conferencia Internacional BIREDIAL-ISTEC - Del 22 al 24 de octubre de 2024 - Santiago, Chile 11 Tabla 1 - Crecimiento de publicaciones de ciencia ciudadana Por una parte, el desarrollo de plataformas de ciencia ciudadana ha potenciado la participación ma- siva de voluntarios en proyectos científicos y mejorado los métodos para la recopilación y clasificación de datos. Plataformas como Zooniverse, la mayor del mundo, con más de 2,000 proyectos y más de 1.6 millo- nes de voluntarios en campos que van desde la astronomía hasta la zoología; iNaturalist, la cual permite mapear y compartir observaciones de biodiversidad, contabilizando más de 50 millones de observaciones hasta 2021; eBird, para registrar observaciones de aves, contribuyendo significativamente al modelado de distribuciones y patrones migratorios globales; Foldit, un juego en línea lanzado en 2008, que a través del juego ha logrado importantes avances en la biología de las proteínas. No solo demuestran el poder de la colaboración masiva y la tecnología para avanzar en la ciencia, sino que también subrayan cómo la par- ticipación pública puede transformar la investigación científica y aumentar el conocimiento colectivo de manera significativa y duradera. Por otro lado, La inteligencia artificial (IA) está revolucionando la ciencia ciudadana al automatizar y mejorar la recopilación y clasificación de grandes volúmenes de datos, especialmente en proyectos re- lacionados con la identificación de especies y el monitoreo ambiental. Los algoritmos de reconocimiento de imágenes, por ejemplo, facilitan la identificación automática de especies o condiciones ambientales a partir de fotografías cargadas por ciudadanos, aumentando la eficiencia y reduciendo la carga de trabajo manual. Además, los algoritmos de aprendizaje automático están permitiendo el descubrimiento de pa- trones y correlaciones en los datos que serían difíciles de detectar por humanos, contribuyendo a nuevos descubrimientos científicos y mejorando la comprensión de fenómenos complejos. Esta sinergia entre la participación humana y la inteligencia artificial no solo potencia la capacidad de campos de conocimiento donde los proyectos de ciencia ciudadana contribuyen a la ciencia formal, sino que también mejora la experiencia y aprendizaje de los participantes, como demuestran estudios de Ceccaroni, L. et al. (2019) y Rafner, J. et al. (2021). También, este potencial para introducir la ciencia ciudada- na en más campos del conocimiento, genera un nuevo reto, haciendo más lento el proceso de clasificación y evaluación manual de este tipo de proyectos. XIII Conferencia Internacional BIREDIAL-ISTEC - Del 22 al 24 de octubre de 2024 - Santiago, Chile 12 La Universidad del Rosario ha adoptado la ciencia abierta como parte esencial de su quehacer, en- focándose en una investigación de alta calidad que es inclusiva, colaborativa y transparente, destinada a impactar positivamente en la sociedad. Desde hace más de una década, ha participado activamente en el movimiento de acceso abierto, implementando herramientas clave como el repositorio E-docUR y el portal de revistas de acceso abierto, y fue pionera en Colombia al establecer una política institucional de acceso abierto en 2017. En 2020, la universidad intensificó sus esfuerzos creando un modelo de ciencia abierta orientado por ocho pilares fundamentales, enfocados en aspectos como la comunicación académica, los datos de investigación, las métricas de nueva generación, la integridad científica y la ciencia ciudadana. Además, ha desarrollado infraestructura y herramientas adicionales para facilitar la ciencia abierta, culmi- nando en la creación de un Portal Institucional de Ciencia Abierta que refleja su compromiso continuo y promueve la iniciativa a nivel regional. Luego de establecer el modelo se inició la realización de un diagnóstico en una unidad académica que sirviera como ejemplo para evidenciar la materialización de su modelo la ciencia abierta en la Universi- dad, con ello se identificaron iniciativas y alcances en los diferentes pilares del modelo incluyendo aquellas iniciativas de investigación que involucran la participación activa de la comunidad. En este proceso de diagnóstico se encontraron algunos desafíos al invitar a la comunidad académica a presentar sus proyectos de ciencia ciudadana, aun cuando se realizó una caracterización de la ciencia ciudadana en la UR. Para abordar esto desafíos, se propuso un prototipo para automatizar y mejorar el proceso de clasifi- cación y evaluación de proyectos de ciencia ciudadana mediante el uso de tecnologías de procesamiento de lenguaje natural, junto con una rúbrica de evaluación. Su objetivo es proporcionar una herramienta eficaz que permita a evaluar rápidamente si un proyecto cabe dentro de la categoría de ciencia ciudadana basado en una serie de criterios preestablecidos en la caracterización de este eje dentro del modelo de ciencia abierta. El prototipo propuesto Aprovechando las ventajas actuales de los modelos de aprendizaje para analizar y comprender el contenido de las propuestas de proyectos de ciencia ciudadana y, aprovechando además su capacidad para identificar objetivos clave, metodologías propuestas, y recursos necesarios descritos en los documen- tos de proyecto, se incorporó un sistema de clasificación basado en una rubrica predefinida que incluye criterios como innovación, impacto potencial, viabilidad técnica, y alineación con los objetivos de la ciencia ciudadana definidos en el modelo de ciencia abierta de la Universidad del Rosario; además de la clasifica- ción, ofrece retroalimentación y sugerencias de mejora basadas en el análisis realizado, para ayudar en el perfeccionamiento de las propuestas. Para ello, utilizando ChatGTP se personalizó GTP (RubrikCivitas), con un prompt en el que se define la rúbrica de evaluación basado en 5 criterios principales a los cuales se les otorgó un puntaje: - Diálogo de saberes entre academia y comunidades (20 puntos) - Investigación trans e interdisciplinar (20 puntos) - Fortalecimiento del trabajo investigativo (20 puntos) - Involucramiento de múltiples fuentes de información (20 puntos) - Promoción de la ciudadanía activa y la democratización del saber (20 puntos) XIII Conferencia Internacional BIREDIAL-ISTEC - Del 22 al 24 de octubre de 2024 - Santiago, Chile 13 Además, se configuró el prompt para que además del resultado de evaluación, el GTP indicara: - Identificación de las fortalezas y debilidades del proyecto en relación con cada criterio de la rúbrica. - Ejemplos específicos del proyecto que respalden las evaluaciones del GPT-4. - Recomendaciones para mejorar el proyecto. Los resultados preliminares indican una mejora significativa en la eficiencia y calidad de la evalua- ción de proyectos. Se espera que futuras iteraciones del prototipo integren capacidades de aprendizaje automático más avanzadas y que se expanda su uso a otras facultades y Escuelas. El prototipo implementado se encuentra en fase de exploración de manera privada, el objetivo final es automatizar el proceso, adicionando otras herramientas de tal manera que pueda ser accesible para cualquier usuario. Resultados Para realizar las validaciones se revisaron 17 proyectos (Tabla 2), 12 de los cuales se habían identifi- cado previamente como proyectos de ciencia ciudadana, se contó con un 52% de efectividad respecto a la clasificación de dichos proyectos, en todos los casos por no contar con información suficiente para deter- minar si los proyectos cumplen o no con los aspectos indicados en la rúbrica de evaluación. Tabla 2 - Resultados identificación de proyectos de ciencia ciudadana Número Proyecto ¿Es proyecto de ciencia ciudadana? 1 El impacto de estrategias de integración asistencial sobre redes integradas de ser- vicios de salud en distintos sistemas de salud de América Latina Sí 2 Herramientas para la construcción de paz y convivencia en contextos escolares Sí 3 Educación inicial saludable inclusiva y diversa en el sector El Codito en los cerros orientales de la UPZ 9 (Verbenal) localidad de Usaquén Sí 4 Modelo de formación en sexualidad y derechos sexuales y reproductivos para per- sonas con discapacidad intelectual Sí 5 La Colombia imaginada trazos de paz: la literatura infantil como experiencia peda- gógica en educación superior Sí 6 Relación entre contaminación del aire por material particulado (PM10) y morbili- dad respiratoria en niños menores de 5 años en la localidad de Kennedy No 7 Desarrollo de capacidades en jóvenes con discapacidad cognitiva para la gestión del riesgo No 8 Estrategias de manejo y gestión del riesgo en la localidad de San Cristóbal Sur No 9 Fortalecimiento de la red de prestadores de servicios de salud en la localidad de Bosa No 10 Impacto de los espacios de atención ciudadana en la salud mental comunitaria No XIII Conferencia Internacional BIREDIAL-ISTEC - Del 22 al 24 de octubre de 2024 - Santiago, Chile 14 11 Gestión integral de la calidad del agua en la localidad de Chapinero No 12 Promoción de hábitos saludables en la población escolar de la localidad de Fonti- bón No 13 Exploring precipitation toxoplasmosis in Colombia Si 14 Cuidadores final No 15 atlas.admon.latam No 16 Informality No 17 Replication Data for Network Topology in Decentralized Finance No Conclusiones y trabajo futuro El desarrollo y la implementación del prototipo basado en ChatGPT en la Universidad del Rosario han marca-do un avance significativo en la efectividad con la que se pueden evaluar y clasificar los proyectos de ciencia ciudadana, al facilitar un proceso más rápido y menos subjetivo. Al proporcionar evaluaciones detalladas y sugerencias constructivas basadas en una rúbrica estandarizada, el sistema puede incentivar a los proponen-tes a ajustar y mejorar sus propuestas en fases preliminares de la presentación del proyecto. Este tipo de iniciativas, se pueden incorporar a algoritmos de aprendizaje profundo de código abier- to, que puedan mejorar la capacidad del sistema para entender y procesar lenguaje natural, permitiendo una evaluación aún más precisa de las propuestas. La evaluación y clasificación de propuestas de ciencia ciudadana, es apenas una muestra del poten- cial de este tipo de modelos para explorar su efectividad en la evaluación en otros contextos de la ciencia abierta. Se debe automatizar el proceso y abrirlo a la comunidad a través de la creación de interfaces de usuario adaptadas a las necesidades específicas de diferentes grupos de evaluadores y proponentes, me- jorando la accesibilidad y usabilidad del sistema. En conclusión, la implementación del prototipo basado en ChatGPT en la Universidad del Rosario su- braya las ventajas significativas de integrar tecnologías avanzadas en la evaluación de proyectos de ciencia ciudadana. Este enfoque no solo mejora la precisión y la eficiencia en la evaluación de proyectos basados en rúbricas, sino que también demuestra el potencial de la inteligencia artificial para transformar procesos tradicionalmente manuales en sistemas automatizados y altamente eficaces. Según Ceccaroni et al. (2019) y Rafner et al. (2021), el uso de algoritmos avanzados permite una interpretación más profunda y una eva- luación más objetiva de los criterios establecidos en las rúbricas, facilitando así decisiones más informadas y justas. Este prototipo representa un paso adelante hacia la optimización de la evaluación de proyectos, ofreciendo un modelo replicable y escalable que puede ser adaptado a diferentes campos y disciplinas científicas, promoviendo una mayor inclusión y democratización en la generación de conocimiento cien- tífico. Bibliografía Portal institucional de Ciencia Abierta de la Universidad del Rosario. Accedido 29 de abril de 2024. https:// cienciaabierta.urosario.edu.co/ https://cienciaabierta.urosario.edu.co/ https://cienciaabierta.urosario.edu.co/ XIII Conferencia Internacional BIREDIAL-ISTEC - Del 22 al 24 de octubre de 2024 - Santiago, Chile 15 Ceccaroni, L., Bibby, J., Roger, E., Flemons, P., Michael, K., Fagan, L., & Oliver, J. (2019). Opportunities and Risks for Citizen Science in the Age of Artificial Intelligence. Citizen Science: Theory and Practice. https://doi.org/10.5334/cstp.241 Rafner, J., Gajdacz, M., Kragh, G., Hjorth, A., Gander, A., Palfi, B., Berditchevskaia, A., Grey, F., Gal, Y., Segal, A., Walmsley, M., Miller, J., Dellerman, D., Haklay, M., Michelucci, P., & Sherson, J. (2021). Revisiting Citi- zen Science Through the Lens of Hybrid Intelligence. ArXiv, abs/2104.14961. Malgorzata Lisowska, directora del Centro de Recursos para el Aprendizaje y la Investigación – CRAI, de la Universidad del Rosario en Bogotá. Magister en Bibliotecología e Información Científica, Universidad Jagiellona de Cracovia, Polonia. Especialista en Administración de Empresas, Universidad del Rosario. Especialista en Gerencia y Gestión Cultural, Universidad del Rosario. Amplia experiencia en bibliotecas públicas y universitarias, con énfasis en gestión y evaluación bibliotecaria y en implementación de nuevas tecnologías. investigadora en el proyec- to de la Creación De La Biblioteca Digital Colombiana BDCOL, coordinación de proyectos internacionales como CoLaBoRa (Comunidad Latinoamericana de Bibliotecas y Repositorios Digitales) y en “LA Referencia” patrocinado por de la RedClara y el BID. Humberto Blanco Castillo, jefe de Innovación y Proyectos del Centro de Recursos para el Aprendi- zaje y la Investigación – CRAI, de la Universidad del Rosario en Bogotá. Ingeniero de sistemas, especialista en gerencia de proyectos TIC. Experto en el desarrollo de proyec- tos enfocados a la implementación, visibilidad e interoperabilidad de repositorios institucionales, así como el desarrollo de soluciones basadas en software libre para la gestión de bibliotecas. Actualmente lidera las estrategias para promover la visibilidad de la producción institucional en acceso abierto, la generación iniciativas y gestión proyectos de base tecnológica que apoyan a los procesos de innovación del CRAI. https://doi.org/10.5334/cstp.241 XIII Conferencia Internacional BIREDIAL-ISTEC - Del 22 al 24 de octubre de 2024 - Santiago, Chile 16 Detección de idiomas como tarea de curaduría de datos para repositorios institucionales: desempeño de bibliotecas disponibles y modelos de lenguaje Carlos Javier Nusch1, Leticia Cecilia Cagnina2, Marcelo Luis Errecalde3, Leandro Antonelli4, Marisa Raquel De Giusti5 Palabras claves Repositorios Institucionales, tareas de curaduría de datos, herramientas de detección de idiomas, modelos mBERT para detección de idiomas, enfoque zero-shot Institutional Repositories, Data Curation Tasks, Language Detection Tools, mBERT Models for Lan- guage Detection, zero-shot approach Eje temático Inteligencia artificial (IA) aplicada a la Ciencia Abierta Resumen - Presentación del problema: El enorme volumen de recursos almacenados actualmente en los repositorios digitales representa una gran dificultad a la hora de supervisar y corregir errores o mejorar la calidad de los metadatos. El presente trabajo se enfoca en la corrección del metadato idioma en los regis- tros de resúmenes del repositorio institucional SEDICI. - Materiales y metodología: A partir de un dataset exportado del repositorio de unos 126.081 ítems se planificó una tarea de detección automática de idiomas utilizando diferentes bibliotecas existen- tes compatibles con el método zero-shot (langdetect, CLD3, fastText, Polyglot, langid y TextCat). Luego se compararon los resultados obtenidos con los datos de los idiomas registrados por el personal de cataloga- ción del repositorio. Para tratar de mejorar aún más la detección de idiomas se entrenó un modelo mBERT multilenguaje y se comparó su desempeño con el conjunto más pequeño de ítems cuya clasificación por idiomas era diferente entre humanos y la biblioteca Polyglot. - Resultados: En general, todas las bibliotecas de detección de idiomas mostraron alrededor de un 95% de coincidencia con los idiomas identificados y catalogados por los humanos. En el caso de los modelos mBERT entrenados las coincidencias obtenidas son bajas tanto para los idiomas detectados au- tomáticamente por Polyglot como los catalogados por humanos (78,7% y 19,6% respectivamente). Se en- contraron errores de catalogación atribuibles a humanos, pero también errores de las bibliotecas o de los modelos de lenguaje en la tarea de detección. 1 Universidad Nacional de La Plata, PREBI-SEDICI carlosnusch@prebi.unlp.edu.ar 2 Consejo Nacional de Investigaciones Científicas y Técnicas 3 Consejo Nacional de Investigaciones Científicas y Técnicas 4 Universidad Nacional de La Plata, LIFIA 5 Universidad Nacional de La Plata, PREBI-SEDICI Este documento se distribuye bajo una licencia Creative Commons Attribution 4.0 International mailto:carlosnusch@prebi.unlp.edu.ar XIII Conferencia Internacional BIREDIAL-ISTEC - Del 22 al 24 de octubre de 2024 - Santiago, Chile 17 Introducción Desde los inicios del movimiento de acceso abierto los repositorios institucionales han crecido enor- memente en número y volumen de publicaciones. Tal es el caso de SEDICI, el repositorio central de la Uni- versidad Nacional de La Plata, que ha pasado de tener 50 ítems a un año de su creación, 39.000 en 2014 y 156.299 recursos en la actualidad6. Entre las diferentes tareas de catalogación llevadas adelante dentro del repositorio está la de asignación del metadato idioma, tanto para el texto completo del material en cuestión como para el o los campos destinados al resumen del artículo, que puede presentarse en varios idiomas diferentes. Dada la cantidad de campos que el personal a cargo de la catalogación de materiales debe revisar y ajustar en atención a las buenas prácticas, normas y directrices del repositorio, y que dichos campos deben revisarse en cada uno de los ítems que se procesan a diario existe una alta probabilidad de que se cometan diferentes tipos de errores. El riesgo de cometer errores, además, se ha visto acrecentado porque el volumen de ítems que ingestan en el repositorio en tareas automáticas de importación se ha incremen- tado enormemente. Si bien se ha intentado simplificar y optimizar todas las tareas para llegar a reducir al mínimo estos errores, resulta imposible eliminarlos totalmente. En las pantallas de control de datos y catalogación del software DSpace existen múltiples campos y uno de ellos es el que se destina a indicar cuál es el idioma de los resúmenes que se están registrando para cada ítem. No es algo tan extraño que se pueda pasar por alto este pequeño campo (ver Figura 1), generalmente situado debajo del campo de resumen, o que se cometa un error de cliqueo al escoger el idioma con el mouse. Figura 1 - Vista de los campos de resumen para un catalogador en DSpace. 6 Datos accesibles desde: http://sedici.unlp.edu.ar/pages/estadisticasContenidoRepositorio http://sedici.unlp.edu.ar/pages/estadisticasContenidoRepositorio XIII Conferencia Internacional BIREDIAL-ISTEC - Del 22 al 24 de octubre de 2024 - Santiago, Chile 18 Con la finalidad de explorar el grado de corrección con el que se estaba catalogando el idioma del campo resumen se exportó un dataset en formato csv el 7 de abril de 2022. El conjunto de datos incluía información de 126.081 ítems, todos los presentes en el repositorio a esa fecha. El objetivo original era lle- var a cabo una tarea de curaduría automática aprovechando las diferentes herramientas de detección de idiomas disponibles en la actualidad. El marco general de las tareas llevadas a cabo puede inscribirse dentro de lo que se conoce como Descubrimiento de Conocimiento en Bases de Datos (KDD, del inglés Knowledge Discovery in Databases) (Fayyad et al., 1996); más comúnmente asociado con la Minería de Datos o extracción de conocimiento e información útiles desde datos crudos. En el caso de la extracción de nueva información y patrones desde de datos de texto se suele denominar Descubrimiento de Conocimiento en Texto (KDT) (Feldman & Dagan, 1995). Bibliotecas para la detección automática de idiomas En las tareas de detección automática de idiomas se utilizó el lenguaje Python salvo por el caso de TextCat que se ejecutó en R. Del dataset utilizado solo se analizaron, por obvias razones, los campos de textos de los resúmenes de los diferentes ítems y las etiquetas de idioma aplicadas sobre esos campos. Se utilizaron las bibliotecas langdetect, CLD3, fastText, Polyglot, langid y TextCat con un enfoque zero-shot, esto quiere decir que no se modificaron ni re entrenaron los parámetros del modelo original de la bibliote- ca. Simplemente se utilizó cada uno de ellos para predecir el idioma de los textos sin necesidad de entrena- miento adicional para el conjunto de datos específico con el que se trabajó. A continuación, se detallan so- meramente algunas de las características de las bibliotecas de detección automática de idiomas utilizadas. Langdetect La biblioteca langdetect7 es una herramienta de detección de idiomas para Python, inspirada en la biblioteca de Google Language Detection (Compact Language Detector 2) (Shuyo, 2010). Utiliza algorit- mos de aprendizaje automático para predecir el idioma de un fragmento de texto. Funciona con textos de diversos dominios y tiene soporte para múltiples idiomas (más de 55). Se trata de una herramienta relativa- mente ligera, que no requiere una gran cantidad de recursos para funcionar y ofrece resultados confiables en la detección de idiomas. CLD3 La biblioteca CLD38 (Compact Language Detector 3, sucesora de CLD1 y CLD2) es una herramienta de software desarrollada por Google que también emplea modelos de aprendizaje automático para pre- decir el idioma de un texto (Ooms & Google Inc, 2023). Posee soporte para más de 100 idiomas y puede procesar grandes volúmenes de texto rápidamente. Presenta una alta precisión en la detección de idiomas, inclusive con textos cortos. Puede requerir recursos computacionales mayores. 7 Disponible en: https://pypi.org/project/langdetect/ 8 Disponible en: https://github.com/ropensci/cld3 https://pypi.org/project/langdetect/ https://github.com/ropensci/cld3 XIII Conferencia Internacional BIREDIAL-ISTEC - Del 22 al 24 de octubre de 2024 - Santiago, Chile 19 Polyglot Polyglot9 es una biblioteca que soporta una amplia gama de tareas y lenguajes (Lui et  al., 2014). Puede manejar más de 100 idiomas y posee soporte para una serie de tareas de PLN que exceden la mera detección (como tokenización, reconocimiento de entidades nombradas, análisis de sentimiento, traduc- ción de palabras, etc.). Posee soporte integrado para embeddings de palabras y una serie de modelos pre entrenados lo que permite su uso inmediato sin la necesidad de entrenar modelos desde cero. Una de sus desventajas es que depende de varias bibliotecas y herramientas externas, lo que hace más ardua su ins- talación y configuración. Langid Langid10 es una herramienta de software libre y de código abierto que puede identificar entre 97 y más de 100 idiomas diferentes (Lui & Baldwin, 2011). Está optimizada para ser rápida y eficiente en tér- minos de uso de memoria y tiempo de procesamiento, inclusive en tareas de procesamiento de texto en tiempo real. Es autocontenida, no depende de servicios externos ni de bases de datos de idiomas, lo que la hace fácilmente instalable y desplegable en cualquier entorno. TextCat Textcat11 es un paquete en R diseñado para la clasificación automática de textos (Hornik et al., 2013). Utiliza patrones de n-gramas para identificar la lengua en la que está escrito un texto, basándose en carac- terísticas estadísticas derivadas de los n-gramas que son únicos o predominantes en idiomas específicos. Se suele utilizar en tareas de procesamiento de lenguaje natural (NLP) que requieren la identificación del idioma antes de realizar análisis más profundos. FastText FastText12 es una biblioteca de aprendizaje automático desarrollada por Facebook AI Research (FAIR) diseñada para la clasificación de textos y la representación de palabras (Bojanowski et al., 2017; Joulin, Gra- ve, Bojanowski, & Mikolov, 2016; Joulin, Grave, Bojanowski, Douze, et al., 2016; Mannes, 2016, 2017). Utiliza modelos de redes neuronales para comprender la representación de las palabras en grandes conjuntos de datos de texto. Una de sus características más sobresalientes es el tratamiento de las palabras como n-gra- mas de caracteres por lo que puede capturar mejor el significado de palabras cortas, prefijos y sufijos, sobre todo con idiomas de morfología más rica y versátil. Posee una alta precisión en la detección de idiomas, incluso en muestras cortas. FastText puede ser menos efectivo para algunas tareas de PLN avanzadas comparado con modelos de PLN basados en transformers, como BERT (Devlin et al., 2019), sin embargo suele desempeñarse muy eficientemente en tareas de detección de idiomas. 9 Disponible en: https://github.com/saffsd/polyglot 10 Disponible en: https://github.com/saffsd/langid.py 11 Disponible en: https://cran.r-project.org/web/packages/textcat 12 Disponible en: https://fasttext.cc/ https://github.com/saffsd/polyglot https://github.com/saffsd/langid.py https://cran.r-project.org/web/packages/textcat https://fasttext.cc/ XIII Conferencia Internacional BIREDIAL-ISTEC - Del 22 al 24 de octubre de 2024 - Santiago, Chile 20 Modelo mBERT entrenado para la detección de idiomas con el dataset de SEDICI El modelo mBERT13, o multilingual BERT (BERT multilingüe), es una variante del modelo BERT (Bi- directional Encoder Representations from Transformers) diseñado por Google. BERT marcó un hito en el área de procesamiento del lenguaje natural (NLP) por su capacidad para comprender mejor el contexto de las palabras en un texto, comparado con los modelos anteriores. mBERT está pre entrenado en los textos de Wikipedia de 104 idiomas y es capaz procesar y entender múltiples idiomas sin necesidad de entre- namiento específico del idioma. Al utilizar tecnología de transformers requiere una cantidad de recursos computacionales considerable. Este modelo no se utilizó con el enfoque zero-shot ni tampoco se aplicó a la detección de idiomas de todo el dataset. Se lo entrenó con los datos detectados correctamente por la biblioteca Polyglot para examinar la posibilidad de detectar correctamente idiomas en los casos en los que las otras bibliotecas parecían no responder de la mejor manera. Resultados preliminares El desempeño de las diferentes bibliotecas con las que se aplicó el enfoque zero-shot fue relativa- mente similar en cuanto a la coincidencia del idioma detectado respecto del idioma catalogado por los administradores humanos. Como en algunos casos, las tareas de PLN pueden requerir el uso de recursos importantes, se evaluó además el tiempo requerido para el procesamiento de los datos y la detección de idiomas (Tabla 1). En el caso de las bibliotecas langdetect, CLD3, fastText, Polyglot y langid, se ejecutaron en un entorno de CPU provisto por Google Colab salvo para el caso de TextCat que se ejecutó localmente utilizando los recursos de una notebook. La biblioteca que mayor coincidencia tuvo en la detección de idiomas con los catalogadores humanos fue langid y la de menor tiempo de procesamiento FastText, aun- que se trató de la que peores resultados obtuvo. Tabla 1 - Porcentaje de coincidencias en la detección de idiomas y desempeño de diferentes bibliotecas Biblioteca Igual al cataloga- dor humano Diferente al cata- logador humano Tiempo de ejecución langdetect 95.3 4.7 25 mins 9.53 secs CLD3 95.3 4.7 3 mins 56.60 secs fastText 64.8 35.2 2 mins 5.02 secs Polyglot 94.7 5.3 2 mins 37.24 secs langid 95.6 4.4 13 mins 42.24 secs TextCat 94.3 5.7 2 hours, 2 mins 39 secs14 13 Disponible en: https://github.com/google-research/bert/blob/master/multilingual.md 14 La discrepancia entre los tiempos de las otras bibliotecas y TextCat puede deberse a que fue ejecutada en una computadora local en R Studio mientras que las anteriores se corrieron en Google Colab con el lenguaje Python. https://github.com/google-research/bert/blob/master/multilingual.md XIII Conferencia Internacional BIREDIAL-ISTEC - Del 22 al 24 de octubre de 2024 - Santiago, Chile 21 Particularidades del dataset En las primeras pruebas de detección de idiomas con un modelo mBERT el número de predicciones correctas para los idiomas detectados por el modelo eran muy bajas. El español era confundido con el inglés y con el francés en muchos casos. El italiano no tenía predicciones correctas y tanto el francés como el alemán poseían sólo una predicción correcta cada uno. El modelo tenía serias dificultades para clasificar correctamente estas clases ya que el conjunto de datos poseía muy pocos ejemplos para el portugués, francés, alemán e italiano. Para mejorar el rendimiento del modelo se decidió ajustar la estratificación de los datos de entre- namiento y realizar tareas de aumento de datos para las clases minoritarias. El objetivo de estas tareas era reducir el desbalance en número de ejemplos para cada clase. Además, no todos los resúmenes contaban con el metadato idioma (1164 no lo tenían) y por lo tanto no podía corroborarse si el idioma detectado automáticamente era o no correcto. Curiosamente, la ausencia del metadato idioma se dio en muchos de los casos en los que el lenguaje del resumen no era ninguno de los más comunes en el repositorio (español, inglés, portugués, francés, italiano o alemán). Resultados posteriores al aumento de datos con Marian MT Model El aumento de datos es una técnica utilizada para generar datos adicionales a partir de datos exis- tentes. En las tareas de PLN se suele partir de textos del dataset y mediante transformaciones que general- mente buscan mantener el mismo significado del texto original, como el uso de sinónimos, por ejemplo, se generan nuevos textos. Al aumentar el conjunto de datos, se puede reducir el sobreajuste y mejorar la capacidad que presenta un modelo a la hora de generalizar con nuevos conjuntos de datos. Otro de los recursos que se suele utilizar es la traducción de textos a otros idiomas. En la tarea de aumento de datos se utilizó MarianMTModel15 para incrementar el número de ejemplos de las clases minoritarias (francés, por- tugués, italiano y alemán) a partir de traducciones de ejemplos de las clases mayoritarias (español e inglés). MarianMTModel forma parte de la familia de modelos de traducción automática neuronal desarro- llada por el equipo de Marian NMT (Han et al., 2022; Junczys-Dowmunt et al., 2018; Tiedemann, 2012). Se trata de un modelo diseñado para ser eficiente y liviano, optimizado para aplicaciones en tiempo real y en dispositivos con recursos limitados. Es un proyecto de código abierto compatible con múltiples pares de idiomas. 15 Disponible en: https://huggingface.co/docs/transformers/model_doc/marian https://huggingface.co/docs/transformers/model_doc/marian XIII Conferencia Internacional BIREDIAL-ISTEC - Del 22 al 24 de octubre de 2024 - Santiago, Chile 22 Tabla 2 – Comparación de la distribución de idiomas del dataset original y las nuevas distribuciones generadas con Marian MT Model Distribución Original Distribución luego del Aumento de Datos Idioma Ejemplos Porcentaje Idioma Ejemplos Porcentaje es 102792 70.41 es 102789 62.69 en 39387 26.98 en 39384 24.02 pt 3346 2.29 pt 6325 3.86 fr 327 0.22 fr 6084 3.71 it 83 0.06 it 6052 3.69 de 52 0.04 de 3343 2.04 Se realizó una tarea de traducción con el modelo Marian MT incrementando las clases minoritarias a un porcentaje de alrededor del 3%. Lamentablemente, para el caso del portugués no se consiguió un modelo de traducción desde el español o el inglés que fuera compatible con la biblioteca. Resultados luego del primer aumento de datos Luego de obtener un mayor número de ejemplos de los idiomas de las clases minoritarias se proce- dió a entrenar un mBERT para clasificación de lenguajes. Con la idea de evitar el sesgo debido al desbalan- ce de clases se redujo el número de ejemplos al número de la clase minoritaria, que luego del aumento de datos resultó ser el portugués. Se creó entonces una nueva muestra con un número igual de ejemplos para cada clase (español, inglés, francés e italiano). Luego se dividió el conjunto de datos balanceado en conjun- tos de entrenamiento (12.034 ejemplos) con un porcentaje para pruebas de entrenamiento y validación. Las divisiones realizadas fueron estratificadas según la columna idioma manteniendo la misma proporción de clases en cada subconjunto que en el conjunto original. Se utilizó BertTokenizer y BertForSequenceClassification para manejar la tokenización y clasificación de textos en múltiples idiomas. Se obtuvieron matrices de confusión para los conjuntos de validación y testeo. También se graficaron las Curvas de Pérdida (Loss) de entrenamiento y validación para evaluar el progreso y el rendimiento del modelo a lo largo de las diferentes épocas. El número de épocas para el entrenamiento fue de 3 (una época completa significa que cada mues- tra en el conjunto de datos ha sido presentada una vez al modelo para realizar el aprendizaje). El tamaño del lote (instantaneous batch size per device), es decir, el número de muestras de datos sobre las cuales el modelo calcula la pérdida y actualiza los parámetros en una sola iteración fue de 8. Resultados del entrenamiento del modelo mBERT Se utilizaron varias métricas para evaluar el desempeño del modelo que se detallan a continuación: • Precision: para distinguir el número de ítems correctamente identificados como pertenecientes a una clase o proporción de verdaderos positivos entre todos los ítems etiquetados como perte- necientes a esa clase. XIII Conferencia Internacional BIREDIAL-ISTEC - Del 22 al 24 de octubre de 2024 - Santiago, Chile 23 • Recall: como métrica de sensibilidad del modelo para encontrar todas las instancias pertenecien- tes a una clase. Es la proporción de verdaderos positivos entre la suma de verdaderos positivos y falsos negativos. • F1-Score: se utiliza como medida de precisión de un test y representa la media armónica de la precisión y el recall. Su valor es de 1 para precisión y recall perfectos y 0 para el peor de los des- empeños. • Support: es el número de ocurrencias reales de la clase en el conjunto de datos especificado. • Accuracy: mide la proporción de predicciones correctas (tanto verdaderos positivos como verda- deros negativos) entre el total de casos examinados. Tanto para los datos de prueba como para los de validación del modelo se obtuvieron precisiones muy altas en todas las clases (el modelo es muy bueno evitando falsos positivos) y los recalls fueron tam- bién altos (el modelo es efectivo en identificar todos los verdaderos positivos). El F1-score cercano a 1 para todas las clases indicó un buen equilibrio entre precisión y recall. La precisión general (Accuracy) fue de 0.999 (casi todas las predicciones del modelo fueron correctas). La consistencia entre los datos de prueba y de validación probó que el modelo generalizaba bien y no mostraba signos de sobreajuste o subajuste significativos16. Figura 1 - Matrices de confusión generadas luego del entrenamiento del modelo mBERT con datos aumentados al 3% para las clases minoritarias 16 En aprendizaje automático, el sobreajuste ocurre cuando un modelo aprende a identificar los datos de en- trenamiento con demasiada precisión, capturando ruido o detalles irrelevantes. Esto perjudica su capacidad de generalizar a nuevos datos. El subajuste ocurre cuando un modelo es demasiado simple y no puede apren- der suficientemente de la estructura subyacente de los datos de entrenamiento como para realizar buenas generalizaciones con nuevos datos. XIII Conferencia Internacional BIREDIAL-ISTEC - Del 22 al 24 de octubre de 2024 - Santiago, Chile 24 Tabla 3 - Métricas de evaluación del modelo mBERT para los datos de validación Reporte de clasificación Datos de validación Idioma Precision Recall F1-score Support it 1 0.999 0.999 669 pt 0.997 0.999 0.999 669 en 0.999 0.999 0.999 669 de 1 1 0.999 668 es 0.999 1 0.999 669 fr 1 0.999 0.999 668 Accuracy 0.999 4012 Tabla 4 - Métricas de evaluación del modelo mBERT para los datos de testeo Reporte de clasificación Datos de testeo Idioma Precisión Recall F1-score Support it 0.999 0.999 0.999 668 pt 0.999 1 0.999 668 en 0.997 1 0.999 669 de 1 0.999 0.999 669 es 1 0.997 0.999 669 fr 1 1 1 669 Accuracy 0.999 4012 Como métrica adicional del desempeño del modelo se calculó la Pérdida de Entrenamiento (Training Loss) una medida que permite evaluar qué tan bien el modelo se ajusta a los datos de entrenamiento (un número más bajo indica un mejor ajuste) y la Pérdida de Validación (Validation Loss), una medida de qué tan bien el modelo se generaliza a nuevos datos del conjunto de validación. Durante las tres épocas de entrenamiento del modelo, la Pérdida de Entrenamiento fue consistentemente baja, lo que indica un buen ajuste a los datos de entrenamiento. Entre la primera y la segunda época, se obtuvo una notable mejora en la Pérdida de Validación (de 0.0145 a 0.0086), señal de que el modelo estaba mejorando su capacidad XIII Conferencia Internacional BIREDIAL-ISTEC - Del 22 al 24 de octubre de 2024 - Santiago, Chile 25 de generalización. En la tercera época, la Pérdida de Validación continuó disminuyendo ligeramente (de 0.008625 a 0.008507), lo que sugiere una buena generalización sin evidencia de sobreajuste. La Pérdida de Entrenamiento alcanzó un valor extremadamente bajo (0.0001) en esta última época, lo que indica que el modelo ha aprendido casi perfectamente los datos de entrenamiento. La ligera disminución en la Pérdida de Validación entre la segunda y tercera época podría indicar que el modelo está cerca de alcanzar su me- jor capacidad de generalización. Tabla 5 - Pérdida de entrenamiento y validación a través de seis épocas durante el entrenamiento de un modelo de aprendizaje automático Epoch Training Loss Validation Loss 1 0.0024 0.014507 2 0.0086 0.008625 3 0.0001 0.008507 Figura 2 - Curva Loss durante el entrenamiento y la validación XIII Conferencia Internacional BIREDIAL-ISTEC - Del 22 al 24 de octubre de 2024 - Santiago, Chile 26 Figura 3 - Gráficos de torta con el porcentaje de coincidencia de los idiomas detectados con cada biblioteca comparado con los idiomas catalogados por humanos Figura 4 - Gráficos de torta con el porcentaje de coincidencia de los idiomas por mBERT comparado con los idiomas detectados por Polyglot y con los idiomas catalogados por humanos XIII Conferencia Internacional BIREDIAL-ISTEC - Del 22 al 24 de octubre de 2024 - Santiago, Chile 27 Conclusiones En este trabajo se presentaron diferentes resultados de tareas de detección de idiomas utilizando diferentes bibliotecas disponibles para Python y R. En su mayor parte las bibliotecas utilizadas dieron un porcentaje de coincidencia alto (alrededor del 95%) salvo por el caso de FastText. Es muy probable que el trabajo con esta biblioteca requiera entrenar modelos específicos para el conjunto de datos utilizado y también mejorar los parámetros e hiperparámetros de entrenamiento. Lo mismo ocurre con la tarea de detección de idioma que se desarrolló utilizando el modelo entrenado mBERT. Si bien el modelo mostró un excelente desempeño con los datos de entrenamiento y validación, su comparación con los datos en los cuales la detección de la biblioteca Polyglot no coincidía con lo catalogado con humanos arrojó resul- tados mucho menores. Esto no quiere decir, sin embargo, que el modelo funcione mal, sino que no ha sido entrenado con todos los idiomas presentes en el dataset. Una mejora en el aumento de datos o inclusive la utilización de resúmenes obtenidos de otros repositorios en diferentes lenguajes pueda mejorar el des- empeño del modelo. Otras razones también pueden explicar las fallas constantes de las diferentes bibliotecas y modelos en la detección: 1. En el conjunto de datos utilizado muchos de los resúmenes catalogados por humanos no tenían la etiqueta idioma (por motivos que se ignoran, quizá alguna falla en la migración de versiones de DSpace). Este pequeño porcentaje de idiomas como el latín, el sueco, el holandés, etc. no se en- cuentran representados explícitamente en las etiquetas con las que se entrenó el modelo mBERT y por lo tanto hubiera sido imposible detectarlos. 2. Algunos textos de los resúmenes simplemente tienen datos insuficientes, es decir, son pocas pala- bras que no alcanzan para constituir una muestra mínima para las diferentes bibliotecas y modelos. 3. En algunos casos, y con la finalidad de mejorar la visualización de los usuarios del repositorio se optó por incluir código html o LaTex (destinado a visualizar correctamente fórmulas matemáticas) en los textos de los resúmenes. Estos bloques de código seguramente introducen ruido en la de- tección y dificultan la tarea. Deberán ser eliminados en futuras tareas de detección para mejorar el desempeño de los modelos y bibliotecas. 4. Muchas de las bibliotecas han demostrado fallar en la detección, inclusive de los idiomas mayorita- rios, cuando el texto del resumen está compuesto por un listado de palabras o frases. En trabajos futuros se considerará también la posibilidad de utilizar y evaluar el desempeño de otros modelos de lenguaje como XLM-RoBERTa (XLM-R), Sentence-BERT (SBERT), DistilBERT o ERNIE. Una tarea importante que resta realizar pero que requerirá la intervención de etiquetadores humanos es la de re etiquetar el porcentaje de resúmenes que no cuentan con el campo de idioma y definir, cuál es la opción correcta en los casos en los que las bibliotecas y modelos no coincidieron con el idioma catalogado. Para ello, será necesario desarrollar una herramienta de interacción con catalogadores (probablemente se re- quiera de más de un humano para controlar los datos) que permita volver a clasificar alrededor del 5% de los ejemplos que conforman el subconjunto de datos en los que la catalogación y la detección no coinci- dieron. Solo una vez que se tenga la etiqueta de idioma correcta en todos los resúmenes se podrá evaluar con total certeza el desempeño de las herramientas utilizadas. Tal es el caso del modelo BERT entrenado con los datos de Polyglot, que logró un impresionante 78.7 % de coincidencia para los datos en los que las bibliotecas anteriores no coincidían con humanos y un 19,6% de coincidencia con la catalogación humana XIII Conferencia Internacional BIREDIAL-ISTEC - Del 22 al 24 de octubre de 2024 - Santiago, Chile 28 de esos mismos datos, lo cual augura un muy buen pronóstico para el uso del modelo en tareas de detec- ción de idiomas en el repositorio. Resta saber si para este subconjunto del dataset, fueron los humanos o las bibliotecas las que reconocieron los idiomas de mejor manera. La finalización de esta tarea que acaba- mos de iniciar redundará en una mucho mejor calidad de datos para el repositorio. Bibliografía Bojanowski, P., Grave, E., Joulin, A., & Mikolov, T. (2017). Enriching Word Vectors with Subword Information (arXiv:1607.04606). arXiv. https://doi.org/10.48550/arXiv.1607.04606 Devlin, J., Chang, M.-W., Lee, K., & Toutanova, K. (2019). BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding (arXiv:1810.04805). arXiv. https://doi.org/10.48550/arXiv.1810.04805 Fayyad, U., Piatetsky-Shapiro, G., & Smyth, P. (1996). From Data Mining to Knowledge Discovery in Databas- es. AI Magazine, 17(3), Article 3. https://doi.org/10.1609/aimag.v17i3.1230 Feldman, R., & Dagan, I. (1995). Knowledge discovery in Textual Databases (KDT). Proceedings of the First International Conference on Knowledge Discovery and Data Mining, 112-117. Han, L., Erofeev, G., Sorokina, I., Gladkoff, S., & Nenadic, G. (2022). Examining Large Pre-Trained Language Models for Machine Translation: What You Don’t Know about It. En P. Koehn, L. Barrault, O. Bojar, F. Bougares, R. Chatterjee, M. R. Costa-jussà, C. Federmann, M. Fishel, A. Fraser, M. Freitag, Y. Graham, R. Grundkiewicz, P. Guzman, B. Haddow, M. Huck, A. Jimeno Yepes, T. Kocmi, A. Martins, M. Morishi- ta, … M. Zampieri (Eds.), Proceedings of the Seventh Conference on Machine Translation (WMT) (pp. 908-919). Association for Computational Linguistics. https://aclanthology.org/2022.wmt-1.84 Hornik, K., Mair, P., Rauch, J., Geiger, W., Buchta, C., & Feinerer, I. (2013). The textcat Package for n-Gram Based Text Categorization in R. Journal of Statistical Software, 52, 1-17. https://doi.org/10.18637/jss. v052.i06 Joulin, A., Grave, E., Bojanowski, P., Douze, M., Jégou, H., & Mikolov, T. (2016). FastText.zip: Compressing text classification models (arXiv:1612.03651). arXiv. https://doi.org/10.48550/arXiv.1612.03651 Joulin, A., Grave, E., Bojanowski, P., & Mikolov, T. (2016). Bag of Tricks for Efficient Text Classification (arX- iv:1607.01759). arXiv. https://doi.org/10.48550/arXiv.1607.01759 Junczys-Dowmunt, M., Grundkiewicz, R., Dwojak, T., Hoang, H., Heafield, K., Neckermann, T., Seide, F., Ger- mann, U., Aji, A. F., Bogoychev, N., Martins, A. F. T., & Birch, A. (2018). Marian: Fast Neural Machine Translation in C++. En F. Liu & T. Solorio (Eds.), Proceedings of ACL 2018, System Demonstrations (pp. 116-121). Association for Computational Linguistics. https://doi.org/10.18653/v1/P18-4020 Lui, M., & Baldwin, T. (2011). Cross-domain Feature Selection for Language Identification. En H. Wang & D. Yarowsky (Eds.), Proceedings of 5th International Joint Conference on Natural Language Processing (pp. 553-561). Asian Federation of Natural Language Processing. https://aclanthology.org/I11-1062 Lui, M., Lau, J. H., & Baldwin, T. (2014). Automatic Detection and Language Identification of Multilingual Documents. Transactions of the Association for Computational Linguistics, 2, 27-40. https://transacl. org/ojs/index.php/tacl/article/view/86 XIII Conferencia Internacional BIREDIAL-ISTEC - Del 22 al 24 de octubre de 2024 - Santiago, Chile 29 Mannes, J. (2016, agosto 18). Facebook’s Artificial Intelligence Research lab releases open source fastText on GitHub. TechCrunch. https://techcrunch.com/2016/08/18/facebooks-artificial-intelligence-re- search-lab-releases-open-source-fasttext-on-github/ Mannes, J. (2017, mayo 2). Facebook’s fastText library is now optimized for mobile. TechCrunch. https:// techcrunch.com/2017/05/02/facebooks-fasttext-library-is-now-optimized-for-mobile/ Ooms, J. & Google Inc. (2023). cld3: Google’s Compact Language Detector 3 (1.6.0) [Software]. https:// cran.r-project.org/web/packages/cld3/ Shuyo, N. (2010). Language detection library for java. Tiedemann, J. (2012). Parallel Data, Tools and Interfaces in OPUS. En N. Calzolari, K. Choukri, T. Declerck, M. U. Doğan, B. Maegaard, J. Mariani, A. Moreno, J. Odijk, & S. Piperidis (Eds.), Proceedings of the Eighth International Conference on Language Resources and Evaluation (LREC’12) (pp. 2214-2218). Eu- ropean Language Resources Association (ELRA). http://www.lrec-conf.org/proceedings/lrec2012/ pdf/463_Paper.pdf XIII Conferencia Internacional BIREDIAL-ISTEC - Del 22 al 24 de octubre de 2024 - Santiago, Chile 30 Carlos Javier Nusch es Profesor y Licenciado en Letras por la Universidad Nacional de La Plata y Máster en Humanidades Digitales por la Universidad de Educación a Distancia de España. Ha publicado varios artículos sobre trabajo académico colaborativo, repositorios digitales, digitalización de patrimonio cultural, análisis del discurso político y literatura clásica, medieval y moderna. Trabaja en el Servicio de Difusión de la Creación Intelectual (SEDICI) de la UNLP, en el Proyecto de Enlace de Bibliotecas (PREBI) y en el repositorio CIC-Digital (CICPBA). Es miembro del Comité Asesor del Centro de Servicios en Gestión de In- formación (CESGI) y personal del Observatorio Medioambiental La Plata (UNLP - CICPBA - CONICET). Coor- dina la Oficina de Relaciones Institucionales del Consorcio Iberoamericano para la Educación en Ciencia y Tecnología (ISTEC). Participa como docente colaborador ad honorem en el curso de posgrado “Bibliotecas y Repositorios Digitales. Tecnología y aplicaciones” de la Facultad de Informática de la UNLP. Ha participa- do en proyectos sobre Oralidad, Escritura, Humanidades Digitales Recursos Académicos, Harvesting, OAI- PMH, Visibilidad Web, Repositorios Abiertos, Producción Académica y Científica, Accesibilidad financiados por la UNLP, la CICPBA y el ISTEC. ORCID: https://orcid.org/0000-0003-1715-4228 Leticia Cecilia Cagnina es Doctora en Ciencias de la Computación, Magíster en Ciencias de la Com- putación y Licenciada en Ciencias de la Computación. Se desempeña como docente investigadora en la Universidad Nacional de San Luis (UNSL). Es Profesora Adjunta en el Departamento de Informática de la Fa- cultad de Ciencias Físico-Matemáticas y Naturales de la UNSL. Además, es Investigadora Categoría Adjunto en la Carrera de Investigador Científico y Tecnológico del Consejo Nacional de Investigaciones Científicas y Técnicas (CONICET). Su experiencia profesional se enfoca en el campo de la Informática e Inteligencia Artificial, con especialidad en Procesamiento del Lenguaje Natural (PLN). Ha realizado importantes avances en el desarrollo y aplicación de técnicas de PLN en la bioinformática y la detección automática de riesgo en la Web. Su trayectoria académica incluye la dirección y participación en proyectos de investigación en instituciones nacionales e internacionales. Es co-directora del proyecto “Aprendizaje automático y toma de decisiones en sistemas inteligentes para la Web” y ha sido parte del proyecto “Web Information Quality Evaluation Initiative” financiado por la Unión Europea. Además, ha contribuido a proyectos relacionados con la detección de depredadores sexuales en conversaciones de chat y la evaluación de la calidad de contenido web. ORCID: https://orcid.org/0000-0001-7825-2927 Marcelo Luis Errecalde es Profesor Exclusivo en la Universidad Nacional de San Luis, (Argentina) y dirige el Laboratorio de Investigación y Desarrollo en Inteligencia Computacional (LIDIC) de la Facultad de Cs. Físico, Matemáticas y Naturales. Trabaja desde hace más de 20 años en temáticas vinculadas a la Inteli- gencia Artificial, el aprendizaje automático, la minería de textos y la Web y el Procesamiento del Lenguaje Natural. Colabora con diferentes grupos líderes de España, México, Alemania, Austria y Grecia en áreas como la calidad de la información en la web, detección de plagio, detección de depredadores sexuales en la web y determinación del perfil del autor (DPA). Actualmente, el foco de atención en la DPA se centra en la determinación del género, la edad, la orientación política y los rasgos de personalidad de los autores de documentos en la Web. Como resultado de estos trabajos de investigación se han desarrollado sistemas que son actualmente los más efectivos a nivel mundial para la detección de fallas de calidad en Wikipedia y https://orcid.org/0000-0003-1715-4228 https://orcid.org/0000-0001-7825-2927 https://orcid.org/0000-0001-7825-2927 XIII Conferencia Internacional BIREDIAL-ISTEC - Del 22 al 24 de octubre de 2024 - Santiago, Chile 31 la detección anticipada de casos de depresión y anorexia en la Web. En la actualidad, sus direcciones de te- sis de postgrado se centran en la detección anticipada de riesgos en la Web (depresión, suicidio, anorexia, entre otros), integración de conocimiento externo en los modelos de aprendizaje automático y transparen- cia e interpretabilidad de los grandes modelos del lenguaje. ORCID: https://orcid.org/0000-0001-5605-8963 Leandro Antonelli obtuvo el título de Licenciado en Informática en el año 1998 momento en el cual ingresó al Laboratorio de Investigación e Informática Avanzada. En el año 2003 obtuvo el título de Magíster en Ingeniería de Software y en el 2012 el de Doctor en Ciencias Informáticas. Todos los títulos otorgados por la Universidad Nacional de La Plata. Leandro Antonelli se ha desempeñado tanto en la academia como en la industria. En la academia ha atravesado distintas instancias de la docencia, comenzando como ayu- dante allá por el año 1996. Actualmente se desempeña como Jefe de Trabajos Prácticos en materias de gra- do y como profesor en materia de posgrado. También realizó investigación principalmente en ingeniería de requerimientos, con publicaciones en conferencias nacionales e internacionales, como así también en revistas. En la industria ha trabajado en reparticiones públicas como así también en ámbitos privados (para clientes nacionales e internacionales). Se ha desempeñado en distintos roles, comenzando como desarro- llador en el año 1993 y actualmente se desempeña como ingeniero de software, especializándose tanto en la gestión de requerimientos como en la gestión de proyectos en general (tanto ágiles – es Scrum Master certificado-, como tradicionales). ORCID: https://orcid.org/0000-0003-1388-0337 Marisa Raquel De Giusti es doctora en Ciencias Informáticas, Ingeniera en Telecomunicaciones y Profesora en Letras de la Universidad Nacional de La Plata (UNLP). Es Profesora de Posgrado en la Facultad de Informática de la UNLP, Directora del Proyecto de Enlace de Bibliotecas (PREBI, 1997) y directora del Ser- vicio de Difusión de la Creación Intelectual (SEDICI, 2002). Impulsó la creación y fue directora hasta el año 2023 del Centro de Servicios en Gestión de Información (CESGI) de la Comisión de Investigaciones Cientí- ficas (CIC), donde actualmente reviste como Investigador Emérito. Es presidenta del Consorcio Iberoame- ricano para Educación en Ciencia y Tecnología (ISTEC) y Directora de la Iniciativa Library linkage (LibLink) de dicho consorcio. Integra el Comité de Expertos del Sistema Nacional de Repositorios Digitales (SNRD) y el Comité Asesor en ciencia abierta y ciudadana. Cuenta con más de 400 trabajos en áreas diversas entre las que se incluyen la gestión de la información, preservación digital, rankings y visibilidad institucional. ORCID: https://orcid.org/0000-0003-2422-6322 https://orcid.org/0000-0001-5605-8963 https://orcid.org/0000-0001-5605-8963 https://orcid.org/0000-0003-1388-0337 https://orcid.org/0000-0003-1388-0337 https://orcid.org/0000-0003-1388-0337 http://sedici.unlp.edu.ar/browse?authority=http%3A%2F%2Fvoc.sedici.unlp.edu.ar%2Fnode%2F55359&type=author https://orcid.org/0000-0003-2422-6322 XIII Conferencia Internacional BIREDIAL-ISTEC - Del 22 al 24 de octubre de 2024 - Santiago, Chile 32 BENANCIB: coletando, organizado, curando e preservando a memória do ENANCIB Rosa Helena Cunha Vidal1, Rene Faustino Gabriel Junior2 Palavras-chave Benancib; Enancib; Anais de eventosKeywords Benancib; Enancib; Conference proceedingsEixo temático Inteligência artificial (IA) aplicada à Ciência Aberta Resumo As bases de dados temáticas fora das grandes bases internacionais são importantes para a análise e produção de conhecimentos regionais e nacionais. O objetivo deste trabalho é evidenciar a importância da manutenção, atualização e divulgação da preservação dos anais dos eventos do ENANCIB, de forma a ressaltar a importância de bases de dados curadas, atuando muito além de um repositório, mas como um observatório da área. A BENANCIB já conseguiu realizar alguns de seus objetivos como a coleta e or- ganização de todos os 23 eventos do Enancib realizados no Brasil, agregando mais de 5.900 trabalhos. As metodologias desenvolvidas estão empregando o uso de inteligência artificial para melhoria e curadoria dos dados. A base ainda está em processo de ajustas, mas espera-se em breve a incorporação das citados dos trabalhos. Introdução A publicação dos anais dos eventos é uma parte essencial do processo de comunicação científica, pois permite a disseminação ampla e acessível das contribuições apresentadas, promovendo o avanço do conhecimento e facilitando a interação entre os pesquisadores. Conforme mencionado por Silveira, Bufrem e Caregnato (2015), os eventos científicos destacam-se como ferramentas fundamentais para o desenvolvimento profissional, promovendo a interação entre cientistas por meio de uma gama diversifi- cada de formatos, como palestras, mesas redondas, exposições de trabalhos, debates, workshops e cursos breves, entre outras atividades disponíveis. Além disso, a presença em eventos científicos oferece aos pesquisadores a oportunidade de com- partilhar suas pesquisas e ideias com um público especializado, receber feedback construtivo e estabelecer conexões significativas com colegas de todo o mundo. Essa interação direta e o intercâmbio de conheci- mentos contribuem significativamente para o desenvolvimento e a evolução contínua das diversas áreas da Ciência da Informação (Alvarez & Caregnato, 2017). 1 Universidade Federal do Rio Grande do Sul, rosadeflor@hotmail.com 2 Universidade Federal do Rio Grande do Sul, rene.gabriel@ufrgs.br Este documento se distribuye bajo una licencia Creative Commons Attribution 4.0 International XIII Conferencia Internacional BIREDIAL-ISTEC - Del 22 al 24 de octubre de 2024 - Santiago, Chile 33 Na área de Ciência da Informação no Brasil o Encontro Nacional de Pesquisa em Ciência da Infor- mação (ENANCIB), promovido pela Associação Nacional de Pesquisa em Ciência da Informação (ANCIB), é o principal evento de pesquisa e de pós-graduação brasileiro, fomentando uma discussão ampla e profunda entre sua comunidade (ANCIB, 2024). O primeiro ENANCIB aconteceu em 1994, organizado pela Universidade Federal de Minas Gerais (UFMG), em Belo Horizonte, e até 2005 não tinha uma periodicidade regular. A partir de 2005 o evento ganhou caráter regular, sendo realizado anualmente no segundo semestre, todos os eventos foram pre- senciais, com exceção de 2020 que não foi realizado devido à pandemia e em 2021 foi virtual no Rio de Janeiro. Já com 23 edições realizadas, o próximo evento está marcado para ocorrer em novembro de 2024, em Vitória, ES, organizado pela Universidade Federal do Espírito Santo (IBICT, 2021). Como forma de garantir a preservação e manutenção dos anais desse evento, em 2012, por inicia- tiva da Universidade Federal Fluminense (UFF), com o apoio da Fundação Carlos Chagas Filho de Amparo à Pesquisa do Estado do Rio de Janeiro (FAPERJ) e do Conselho Nacional de Desenvolvimento Científico e Tecnológico (CNPq), foi lançada a Base de Dados do Encontro Nacional de Pesquisa em Ciência da In- formação (BENANCIB) (Gabriel Junior & Vogel, 2022). Utilizando uma plataforma DSpace, e a catalogação era realizada por estudantes do curso de biblioteconomia da UFF. Neste contexto, o BENANCIB buscava resgatar a memória e divulgação do principal evento da área da Ciência da Informação, além de fomentar estudos sobre os GTs e o evento, com disponibilização de dados organizados e curados. O objetivo deste trabalho é evidenciar a importância da manutenção, atualização e divulgação da preservação dos anais dos eventos do ENANCIB, de forma a ressaltar a importância de bases de dados curadas, atuando muito além de um repositório, mas como um observatório da área. Sobre o Encontro Nacional de Pesquisa em Ciência da Informação O ENANCIB destaca-se como um evento significativo em ambiente acadêmico para os programas de pós-graduação no Brasil, estabelecendo-se como um centro de debates e trocas de conhecimento no âm- bito da Ciência da Informação. Caracteriza-se como um evento itinerante, tornando-se dinâmico, alcançan- do diferentes localidades e favorecendo a inclusão de pesquisadores e estudantes de pós-graduação de diversas regiões, isso não apenas diversifica as perspectivas discutidas, mas também fortalece a troca de ideias e estimula parcerias entre instituições acadêmicas e de pesquisa de diferentes localidades (IBICT, 2021). O evento é organizado por eixos temáticos, chamados de grupos de trabalho (GT). Na primeira edição o evento apresentou os trabalhos de sete GTs, variando esse número até chegar em 2023 com 12 grupos de trabalhos. É importante destacar que da 12ª edição até a 21ª edição permaneceram com 11 GTs. A partir da 4ª edição o evento começou a contar com um tema norteador, o que evidencia a investigação de tópicos inovadores relacionados à Ciência da Informação (Quadro 1). XIII Conferencia Internacional BIREDIAL-ISTEC - Del 22 al 24 de octubre de 2024 - Santiago, Chile 34 Quadro 1 – Distribuições temáticas nos GTs do Enancib Fonte: elaborado pelos autores. Como já foi citado, o Enancib tem a proposta de reunir as pesquisas de Ciência da Informação, fo- mentando as discussões e novas pesquisa na área. O Quadro 2 é o resultado do esforço de curadoria dos pesquisa reunindo em um único repositório todas as publicações do evento. Pode-se observar que o pri- meiro evento ocorreu em 1994, como um encontro dos principais pesquisadores da área no Brasil. Neste evento tem-se o registro de 22 trabalhos apresentados e um total de 35 autores. Destaca-se ainda que nesse evento a modalidade de apresentação foi de shortpapers. O Quadro 2 evidencia alguns dados relevantes acerca dos eventos do ENANCIB, onde mostra os doze estados brasileiros que já sediaram o evento: Bahia, Belo Horizonte, Brasília, Florianópolis, João Pessoa, Londrina, Marília, Porto Alegre, Rio de Janeiro, São Cristóvão, São Paulo e Valinhos. Essa diversidade nas regiões (Sul, Sudeste, Centro-Oeste e Nordeste) de realização dos encontros incentiva a integração e a con- solidação da comunidade científica, destacando também a representatividade e a diversidade geográfica presentes no evento e oferece uma perspectiva de amplitude em eventos futuros na região Norte. Quadro 2 – Informações gerais acerca de cada ENANCIB na BENANCIB E di çã o Ano Cidade, Estado Instituição No GTs Tema N o tr ab al ho s* N o au to re s 1ª 1994 Belo Hori- zonte, MG UFMG 7 - 22 35 2ª 1995 Valinhos, SP PUC Cam- pinas 6 - 56 34 3ª 1997 Rio de Janeiro, RJ IBICT 6 - 134 69 4ª 2000 Brasília, DF UnB 8 Conhecimento para o Sécu- lo XXI: a Pesquisa na Construção da Sociedade da Informação 247 192 5ª 2003 Belo Hori- zonte, MG UFMG 8 Informação, conhecimen- to e transdisciplinaridade 139 224 XIII Conferencia Internacional BIREDIAL-ISTEC - Del 22 al 24 de octubre de 2024 - Santiago, Chile 35 6ª 2005 Florianópolis, SC UFSC 7 A política científica e os desafios da sociedade da informação 126 189 7ª 2006 Marília, SP Unesp 7 A dimensão epistemológica Ciên- cia da Informação e suas interfaces técnicas, políticas e institucionais nos processos de produção, acesso e disseminação da informação 106 171 8ª 2007 Salvador, BA UFBA 7+1 Promovendo a inserção inter- nacional da pesquisa brasileira em Ciência da Informação 187 292 9ª 2008 São Paulo, SP USP 8 Diversidade cultural e po- líticas de informação 151 278 10ª 2009 João Pessoa, PB UFPB 9 A responsabilidade social da Ciência da Informação 198 320 11ª 2010 Rio de Janeiro, RJ IBICT/ UFRJ 10 Inovação e inclusão social: questões contemporâneas da informação 248 389 12ª 2011 Brasília, DF UnB 11 Políticas de informa- ção para a sociedade 259 432 13ª 2012 Rio de Janeiro, RJ Fiocruz 11 A sociedade em rede para a inova- ção e o desenvolvimento humano 309 519 14ª 2013 Florianópolis, SC UFSC 11 Informação e interação: am- pliando perspectivas para o de- senvolvimento humano 317 523 15ª 2014 Belo Hori- zonte, MG UFMG 11 Além das “nuvens”: expandindo as fronteiras da Ciência da Informação 333 580 16ª 2015 João Pessoa, PB UFPB 11 Informação, Memória e Patrimô- nio: do documento às redes 296 497 17ª 2016 Salvador, BA UFBA 11 Descobrimentos da Ciência da In- formação: desafios da Multi, Inter e Transdisciplinaridade (MIT) 387 640 18ª 2017 Marília, SP Unesp 11 Informação, sociedade, complexidade 404 672 19ª 2018 Londrina, PR UEL 11 Sujeito informacional e as perspecti- vas atuais em Ciência da Informação 448 762 20ª 2019 Florianópolis, SC UFSC 11 A CI na era da Ciência de Dados 500 850 21ª 2021 Rio de Janeiro, RJ IBICT 11 50 anos de Ciência da Informa- ção no Brasil: saberes, diversi- dade e transformação social 356 663 22ª 2022 Porto Alegre, RS UFRGS 12 O papel da Ciência e da informação em tempos de desinformação 323 606 23ª 2023 São Cristóvão, SE UFS 12 Das mediações às práticas in- formacionais: contribuições da Ciência da Informação 418 779 Nota: dados coletados na base de dados BENANCIB, em 03 de março de 2024 (BENANCIB, 2024). XIII Conferencia Internacional BIREDIAL-ISTEC - Del 22 al 24 de octubre de 2024 - Santiago, Chile 36 Outro dado revelado é que das 15 instituições que organizaram e sediaram os 23 eventos, a Univer- sidade Federal de Minas Gerais e o Instituto Brasileiro de Informação em Ciência e Tecnologia (cooperando em parceria com a Universidade Federal do Estado do Rio de Janeiro) receberam o evento cada instituição três (3) vezes. A Universidade de Brasília, Universidade Estadual Paulista, Universidade Federal da Paraíba e a Universidade Federal de Santa Catarina acolheram duas (2) vezes cada instituição. Por ser um evento itinerante, cada sede até então, cada instituições que sedia o evento é responsá- vel pelo site de divulgação do evento, e pelo sistema de submissão, usando o OCS e mais recente o OJS 2. Desde 2021, com o evento no Rio de Janeiro, a Ancib começou custodiar o site de submissão e publicação, sendo a custodiadora dos trabalhos submetidos e apresentados no evento, bem como a publicação dos anais. Com essa dispersão de locais, instituições, muitas das informações acabaram sendo perdidas ou dis- poníveis aos organizadores de cada evento. A agregação de todos esses eventos e a disponibilização de acesso ao texto completo está sendo realizado na base de dados do BENANCIB. BENANCIB A BENANCIB foi idealizada para reunir todas os trabalhos apresentados nos Enancibs, Porém muitas vezes há dificuldades na recuperação confiável e completa dos anais de cada evento. Isso ocorre devi- do à dispersão dessas informações em diferentes páginas da internet que sediaram as edições, além das frequentes lacunas, insuficientes metadados ou metadados não padronizados. Essa realidade também se reflete nos anais dos ENANCIBs, onde as informações podem estar ausentes ou apresentar problemas de acesso. Mesmo no site da ANCIB, os anais não estão disponíveis integralmente, havendo edições faltantes ou dados inconsistentes. Por tudo isso, a criação da BENANCIB, ainda em 2012, foi uma tentativa de reunir os anais do evento e garantir sua preservação digital. A base de dados, seguindo uma abordagem otimizada, procura ele- var o padrão dos metadados e alinhar os pontos de acesso dos autores, mesmo quando identificados de maneiras alternativas, com o propósito de atenuar as discrepâncias identificadas (Gabriel Junior & Vogel, 2022). Por ter demandas muito grandes em pequenos espações de tempo, os metadados das publicações normalmente são pouco detalhados, e com poucos critérios de padronização e qualidade. A ideia do BENANCIB foi concebida na UFF e lançada em formato beta em 2012, com o apoio da FAPERJ e do CNPq. A partir de 2016, a base sofreu com a falta de atualização e a ausência de novos trabal- hos, alternando com períodos de reabastecimento e problemas técnicos no servidor. Em 2021, por meio de um convênio firmado entre a UFF e a Universidade Federal do Rio Grande do Sul (UFRGS), os anais dos eventos do ENANCIB passaram a ser replicados e organizados na BENANCIB, que agora está hospedada na BRAPCI, a Base de Dados em Ciência da Informação. Esta última disponibiliza suas ferramentas para o gerenciamento dos anais dos eventos. Dessa forma, a BENANCIB é a guardiã da memória desse evento e se fortalece como valiosa fonte de informação aos pesquisadores (Gabriel Junior; Vogel, 2022). XIII Conferencia Internacional BIREDIAL-ISTEC - Del 22 al 24 de octubre de 2024 - Santiago, Chile 37 Procedimento metodológico Este estudo está estruturado na vertente de organização da informação em repositório de documen- tos. Porém para realizar a organização foi necessário a realizar uma pesquisa documental, resgatando pu- blicações relacionada ao evento, recorrendo a documentos publicados, sites na internet e fontes pessoais de informação. Com grande parte do trabalho já realizado pela equipe da Universidade Federal Fluminense, que coletou e organizou os metadados de título, resumo e palavras-chaves dos anais do Enancib até 2016, que foram incorporados a nova base de dados, foi necessário realizar a coleta dos dados compreendidos aos eventos de 2017 até 2023. Para este fim, foram desenvolvidos robôs de coleta de dados em python, utilizando o protocolo OAI-PMH, nos sites que hospedaram o evento. Este processamento possibilitou a incorporação de todos os anais publicados. Neste procedimento, observou-se alguns problemas, como a disponibilização de alguns trabalhos que não foram aprovados, mas o software disponibilizava os metadados como se o trabalho tivesse sido publicado, problema esses detectado na versão os OCS/OJS utilizado. Desta forma é necessário realizar a curadoria dos metadados. Percebeu-se também que em alguns trabalhos existe uma divergência do título publicado e no metadado (título e nome e ordem dos autores) disponibilizado. Parte-se da hipótese que essas informações foram alteradas pelo autor por indicação dos avaliadores, ou reorganização de apresen- tação no documento final, porém o autor não ajustou os metadados do sistema, e a equipe de publicação não verificou esses dados. Com o objetivo de ser também um repositório dos trabalhos, houve a necessidade de coletar os PDF’s (trabalhos completos) de todos os trabalhos publicados. Desta forma foi necessário a criação de outro robô que fizesse o download do arquivo e incorporasse a base de dados associando ao registro co- letado. Foi nessa fase que foi possível identificar os trabalhos não apresentados e não publicados. Na base, todos os trabalhos sem o PDF ficam na cor vermelha, avisando a equipe de curadoria que tem algo errado com o registro. Outro grande problema encontrado na organização refere-se a padronização dos nomes dos au- tores, pois os Enancib ainda não utilizam identificadores persistentes para autores, a entrada é realizada diretamente pelo nome do autor. Porém muitas vezes a submissão é realizada por alunos, fazendo com que não seja inserido o nome completo do autor, trocando letras em alguns nomes, ou ainda trocando a posição do sobrenome na inserção. Na Benancib, como na Brapci está se aplicando uma metodologia desenvolvia pela própria equipe da Brapci para utilizar recursos de inteligência artificial, algoritmos e linkedData objetivando identificar os autores e associar suas variantes, possibilitando a incorporação de identificadores persistes como os fornecidos pelo BrCris, VIAF, Lattes, ISNI, OrcID. Alguns testes foram realizados com o cálculo de distância de Levenshtein (Ruberto; Antoniazzi, 2017), porém o método não se demonstrou eficaz, pois acabava uni- ficando pessoas diferentes com nome parecidos, como por exemplo Thiago Sales Silva e Tiago Silva Sales3, que são pessoas diferentes. O método desenvolvido para possibilita a identifica mais precisa foi baseado no agrupamento de au- tores, ou seja, reúne-se em uma lista todos os autores e seus coautores nos diversos trabalhos publicados, tanto nos anais do evento como em outras publicações da base Brapci. Desta forma é possível ter uma lista 3 Os nomes são fictícios para demonstrar o problema do algoritmo. XIII Conferencia Internacional BIREDIAL-ISTEC - Del 22 al 24 de octubre de 2024 - Santiago, Chile 38 de autores e identificar variações de um mesmo autor, como no exemplo: Maria da Silva Costa e Maria S. Costa. O robô com base na aproximação neste cluster de autores consegue ter maior precisão e identificar que é o mesmo autor. Ressalta-se que toda a unificação dos nomes é realizada por seres humano, sendo o algoritmo somente uma ferramenta facilitadora. Uma vez identifico nome do autor e suas variantes, par- te-se para consulta nos fornecedores de identificadores persistentes como o OrcID, BrCris, Lattes entre outros, buscando reunir mais dados sobre os autores. Está em fase de desenvolvimento alguns robôs que analisam o texto completo (PDF) e extraem al- gumas informações importantes, como afiliação dos autores, e-mail, entre outros dados. Essas informações são aplicadas em modelos de inteligência artificial para possibilita maior agregação de dados. A Figura 1 apresenta de forma resumida esse modelo de agregação. Com os dados coletados dos PDF também é possível realizar a inferência da instituição de afiliação dos autores, comparando com outros elementos extraídos de outras fontes. Para dados de pesquisadores brasileiros, a metodologia está se demonstrado bastante eficaz. Porém ela ainda está em fase de testes. Figura 1 – Modelo de integração de dados do BENANCIB Fonte: elaborado pelos autores. Os nomes dos autores são padronizados, a fim de eliminar prenomes e/ou nomes faltantes, erros or- tográficos ou qualquer outra inconsistência, assim como são acrescentados os títulos, as palavras-chave e os resumos nos idiomas faltantes em cada trabalho para que todos apresentem esses dados em português, XIII Conferencia Internacional BIREDIAL-ISTEC - Del 22 al 24 de octubre de 2024 - Santiago, Chile 39 inglês e espanhol, visto que nem todos os documentos possuem esses dados. Com a proposta da BRAPCI em disponibilizar os metadados nesses três idiomas, amplia o alcance tanto no Brasil quanto na América Latina: a base faz a tradução valendo-se da API do Google, completando, então, os metadados. Outro problema encontrado nos metadados dos eventos é a falta de informações sobre o título em outros idiomas, em muitos casos a falta do resumo (em vários idiomas) e das palavras-chave. A proposta da base é ser indexada por ferramentas de descoberta e aplicação de técnicas de SEO para indexação pelos motores de busca como o Google e o Bing. Desta forma foi necessário desenvolver robôs que identificam no texto elementos como resumo, palavras-chave nos diversos idiomas, novamente aplicando algoritmos de inteligência artificial e modelos de treinamento. Uma vez identificado esses dados, elas são incorpo- radas a base de dados, e no caso de não ter a tradução em todos os idiomas da base (português, inglês e espanhol) um robô de IA utiliza API de tradução do google para disponibiliza essas informações incorpo- rando aos metadados dos trabalhos. Ainda no processo de organização, estão sendo construído um tesauro com todos os conceitos uti- lizados pelos autores, gerando uma padronização dentro da base de dados, melhorando os processos de precisão e revocação do sistema (Fujita; Santos, 2016). Para a construção desse tesauro está sendo utilizada a metodologia de microtesauros temáticos com o uso do Thesa (Gabriel Junior; Laipelt, 2017). Desde 2023 a BENANCIB, agora subsidiada pelas ferramentas da BRAPCI incorporadas após o novo convênio entre a UFF e UFRGS, vem sendo alimentada com os anais dos eventos do ENANCIB. A base incorpora os trabalhos desde o primeiro evento, em 1994, até o último tão logo estejam disponíveis pela organização do evento. Resultados preliminares Com a incorporação de todos os eventos que ocorreram dos Enancib, tens atualmente (dados de abril de 2024) um total de 23 eventos e 5.986 trabalhos catalogados. O processo de curadoria ainda está sendo realizado com ajuda dos robôs. Destaca-se que todos os algoritmos estão sendo desenvolvidos e testados de forma a possibilita de forma mais eficaz a curadoria dos dados. Dentro da Brapci se criou uma coleção especial que pode ser consultada individualmente, por even- to ou incorporada na busca federada dentro da base. XIII Conferencia Internacional BIREDIAL-ISTEC - Del 22 al 24 de octubre de 2024 - Santiago, Chile 40 Figura 2 – Interface dentro do Benancib dos eventos distribuídos por ano Fonte: elaborado pelos autores O evento mais expressivo em termos de número de trabalhos ocorreu em Santa Catarina em 2019, com a apresentação de 500 trabalhos nas modalidades de trabalho completo e pôster, reunindo aproxima- damente 850 autores distintos. Nota-se que o número de autores pode diminuir à medida que se aprofun- da a curadoria dos nomes. Naquele evento, a média de autores por trabalho foi de 1,7. Observa-se, ainda, que a relação autores/trabalho vem crescendo nos eventos pós-pandemia, atingindo 1,87 em 2022 e 1,83 em 2023, comparado a 1,67 em 2021 e 1,28 em 2000. Esses dados sugerem uma crescente tendência para publicações colaborativas, em detrimento das pesquisas de autoria única. A Figura 3 representa a aplicação de robôs de IA para completar os metadados faltantes no registro coletado, tarefa esta antes realizada manualmente, passou a ser realizada por aplicações automatizadas. As palavras-chaves apresentadas na figura 3 foram retiradas do texto completo em PDF, que foi convertido em TXT e analisado por ferramentas de IA, no caso o ChatGPT4. XIII Conferencia Internacional BIREDIAL-ISTEC - Del 22 al 24 de octubre de 2024 - Santiago, Chile 41 Figura 3 – Complementação dos metadados faltantes por Robôs - Exemplo Fonte: elaborado pelos autores Considerando a qualidade dos metadados disponibilizados pela base tem melhorado significati- vamente com cada ampliação das metodologias de organização da informação. No entanto, ainda há um longo caminho a ser percorrido. A Benancib propõe não apenas facilitar algumas análises diretamente na interface, mas também possibilitar a exportação de dados em diversos formatos, como CSV, XLS e DOC, que já estão implementados. Além disso, estão em desenvolvimento módulos para a exportação em ou- tros formatos, como o RIS. Essas exportações habilitam metodologias como mineração de texto e análise de tópicos, permitindo explorar tendências temáticas ao longo do tempo e identificar áreas emergentes e em declínio dentro da Ciência da Informação. Considerando que a base concentra os principais pesqui- sadores de Ciência da Informação no Brasil, o desenvolvimento de indicadores científicos e acadêmicos robustos pode ser crucial para auxiliar instituições acadêmicas e órgãos de fomento a tomar decisões ba- seadas em evidências. Perspectivas futuras O BENANCIB, como uma base de dados na área de Ciência da Informação, abre várias perspectivas para estudos futuros e metodologias a serem exploradas, especialmente no contexto da bibliometria, cien- tometria e informetria. A base atualmente (abril de 2024) suporta uma variedade de análises bibliométri- cas e cientométricas, produzindo indicadores de produção e colaboração. Está em desenvolvimento um projeto para a criação de robôs capazes de identificar, coletar e integrar as citações de cada trabalho. Isso permitirá, no futuro, a realização de estudos de citações, análises de tendências teóricas e pesquisas sobre acoplamento bibliográfico, seja de palavras-chave ou de autores citados. XIII Conferencia Internacional BIREDIAL-ISTEC - Del 22 al 24 de octubre de 2024 - Santiago, Chile 42 Considerações finais O papel do BENANCIB na preservação e organização da memória científica do ENANCIB é incontes- tável, oferecendo uma plataforma vital para a disseminação e análise da produção científica em Ciência da Informação no Brasil. O projeto não só resgata, mas também valoriza a produção intelectual, fornecendo ferramentas robustas para a exploração de dados através de metodologias avançadas como mineração de texto e análise bibliométrica. No entanto, muitos desafios persistem, principalmente relacionados à qualidade e padronização dos metadados. A iniciativa de implementar tecnologias avançadas, como inteligência artificial para aper- feiçoar a curadoria de metadados e a expansão de formatos de exportação, aponta para um futuro em que o acesso e a manipulação de dados podem se tornar mais eficientes e abrangentes. A evolução contínua do BENANCIB, com a adição de novos módulos e aprimoramento dos existen- tes, demonstra um compromisso com a melhoria contínua. O envolvimento da comunidade acadêmica e a colaboração entre instituições são cruciais para o desenvolvimento sustentável da base, que se destaca como um recurso indispensável para pesquisadores da área. Ao olhar para o futuro, a adoção de identificadores persistentes e a integração de novas tecnolo- gias se