Estadística
URI permanente para esta colección
Examinar
Envíos recientes
Ítem Comparación de técnicas de análisis multivariado para detección de valores extremos con técnicas no supervisadas, una aplicación al caso de anomalías en contratación de bienes en Costa Rica(2024) Arroyo Castro, Jose Pablo; Chou Chen, Shu WeiEste trabajo consiste en comparar técnicas no supervisadas del análisis multivariado para la detección de anomalías en el contexto de la contratación pública de bienes en Costa Rica durante el período 2020-2022 y proponer el enfoque más adecuado. Después de una exhaustiva investigación, se seleccionaron enfoques relacionados con la aplicación de modelos lineales, proximidad, densidad, cortes paralelos al eje y proyección de Manifolds Uniformes. Se comparó la eficiencia de las técnicas empleadas mediante 490 escenarios controlados, esto permitió evaluar la calidad predictiva de las técnicas estadísticas empleadas en diferentes contextos, considerando aspectos como la asimetría de los datos, la correlación entre las variables, el tamaño de la población y el porcentaje de anomalías presentes. Los resultados revelaron que los enfoques basados en proximidad y densidad son los que requieren mayores recursos de procesamiento de información en comparación con los enfoques con cortes paralelos al eje o modelos lineales. En cuanto a la calidad de predicción, se observó que, en la mayoría de los escenarios, esta se ve afectada por el aumento en el tamaño de la población y la cantidad de anomalías presentes. Finalmente, en la aplicación de estas técnicas con datos de Contratación Pública, no se identificó un único modelo óptimo que maximice la utilización de la información en todos los escenarios analizados. Sin embargo, se encontraron ventajas en varios enfoques y se establecieron las condiciones en las cuales algunos modelos presentan un comportamiento más estable a lo largo del tiempo. Se concluye que es necesario delimitar la población para realizar comparaciones adecuadas. Asimismo, se recomienda el análisis mediante una técnica de consenso que pondera las diferencias metodológicas de cada una de las técnicas utilizadas.Ítem Análisis espacial jerárquico bayesiano sobre la asociación entre la letalidad de las personas diagnosticadas con cáncer y la exposición ambiental a plaguicidas en Costa Rica, 2011-2015(2024) Quesada Leitón, Hazel Paola; Rojas Rojas, Guaner DavidEl objetivo principal de esta investigación fue identificar un método unificado para analizar datos relacionados con mortalidad por cáncer de mama y próstata en Costa Rica, considerando aspectos jerárquicos, espaciales y ecológicos. Esto se basó en un modelo lineal jerárquico binomial, cuya eficacia se evaluó a través de simulaciones. Inicialmente, se llevó a cabo un estudio empírico para comprender la relación entre las variables y construir un índice de exposición a plaguicidas. Los resultados mostraron que los modelos cuya unidad geográfica corresponde a los conglomerados (unión de distritos dentro de provincias) mejoraron el rendimiento, en comparación con el agrupamiento original por distritos. Se generaron varios escenarios de simulación para identificar el modelo óptimo, variando tanto la unidad geográfica como el coeficiente de regresión asociado a la exposición a plaguicidas. La simulación demostró que los modelos jerárquicos y espaciales superaron al modelo simple en términos de precisión y ajuste. Aunque en los diferentes escenarios de simulación evaluados el modelo jerárquico fue ligeramente superior según la log verosimilitud marginal, los modelos jerárquicos espaciales fueron preferidos debido a su capacidad para controlar el sesgo en la estimación del error debido a la correlación de datos. La selección del mejor modelo se basó en medidas de bondad de ajuste como la log verosimilitud marginal, criterio de información de devianza y criterio de información de Akaike Watanabe, donde el agrupamiento de distritos dentro de provincias mediante análisis de conglomerados mostró el mejor ajuste. Los modelos espaciales con criterio de vecindad de reina fueron identificados como los más adecuados para el análisis de los datos. Además, se subraya la importancia de controlar el uso de plaguicidas, dada su posible relación con el cáncer. Se insta a las instituciones encargadas del registro de plaguicidas a implementar un control más estricto para mejorar la calidad de los modelos de análisis y, en última instancia, contribuir a la comprensión y prevención del cáncer.Ítem Publicaciones del Repositorio Institucional Kérwá 2016-2023(2024-10-23) Hidalgo, María José Hidalgo Gutiérrez; Murillo Goussen, Guillermo Esteban; Garro Acón, Meilyn; Marín Campos, AndreaInformación oficial de los documentos disponibles en el Repositorio Institucional Kérwá, publicados entre el año 2016 y 2023. Depurados y sistematizados, para la alimentación de las Estadísticas del sitio web de la Vicerrectoría de Investigación de la Universidad de Costa Rica.Ítem Proyectos, actividades o programas de investigación, 2015-2023. Vicerrectoría de Investigación. Universidad de Costa Rica(2024-10-23) Hidalgo, María José Hidalgo Gutiérrez; Marín Campos, Andrea; Rodríguez Blanco, José IgnacioRegistros oficiales de la Vicerrectoría de Investigación de los proyectos, actividades y programas. Sistematizados y depurados con el propósito de crear un sistema relacional de datos, que alimenta las Estadísticas de la Vicerrectoría de Investigación de la Universidad de Costa Rica.Ítem Perfiles de beneficiarios de SINIRUBE según tipología de las ayudas existentes: un análisis multivariado con SINIRUBE a julio de 2020(2024-10-07) Cubero Corella, Mariana; García Santamaría, CathalinaEl presente trabajo de investigación aplicada se enfoca en el análisis de los perfiles de beneficiarios del Sistema Nacional de Información y Registro Único de Beneficiarios del Estado (SINIRUBE) en Costa Rica a julio de 2020. El objetivo principal es construir perfiles tanto a nivel de persona como de hogar, según los tipos de beneficios recibidos. Para ello, se desarrolla una tipología de los programas basada en sus características institucionales y los perfiles de asignación, identificando así características clave para construir perfiles tanto a nivel individual como de hogar. Por medio de la tipología planteada en función de la política pública, ejecución del programa y sujeto beneficiario, se encuentran cinco perfiles de beneficios. Estos perfiles son: Protección e integración social de adultos mayores, Afirmación de derechos básicos con beneficios en especie, Afirmación de derechos mediante la creación de oportunidades de empleo, Beneficios dirigidos a poblaciones vulnerables, Beneficios para hogares en situación de pobreza. A nivel de persona, se identifican cuatro perfiles importantes. El primero, "Escalera al Éxito", agrupa a adultos que buscan mejorar su calidad de vida a través de oportunidades laborales. El segundo perfil, "Futuros Brillantes", está compuesto principalmente por menores de edad que reciben becas educativas. El tercer perfil, "Cimientos Firmes", incluye a infantes en condiciones vulnerables. Finalmente, el perfil "Envejecimiento Pleno" está conformado por adultos mayores, que reciben ayudas para mejorar su calidad de vida. Finalmente, a nivel de hogar se definen seis perfiles: Nido vacío, son hogares con adultos mayores pensionados; Hogar con participación laboral variada, los cuales tienen una alta participación en los beneficios relacionados a empleabilidad; Hogares jóvenes urbanos en pobreza, que presentan altos niveles de pobreza y problemas de vivienda; Hogares con jefatura femenina, en donde predominan las jefaturas femeninas (70%) ; Hogares jóvenes con menores en vulnerabilidad, el 74% de estos hogares se encuentra en los deciles más bajos de pobreza; Hogares numerosos en pobreza, este es el grupo con menos hogares, pero estos tienen un mayor número de beneficios por hogar (8.4%). Son hogares numerosos de 6 personas en promedio, con un alto porcentaje de dependientes menores de edad.Ítem TFIA I: Comparación de la canasta de consumo alimentaria de Costa Rica con patrones nutricionales adecuados según grupos de alimentos CCIF según zona, región y nivel educativo y TFIA II: Estimación de curvas de engel para los subgrupos de alimentos según CCIF por zona(2024-10) Corrales León, Maureen Mercedes; Ramírez Hernández, FernandoCon la Encuesta Nacional de Ingresos y Gastos de los Hogares 2013 (ENIGH- 2013) se estimó el consumo aparente per cápita diario de energía y macronutrientes (proteína, grasa y carbohidratos) en los hogares costarricenses. Las estimaciones consideraron el diseño muestral de la encuesta y las fuentes disponibles para considerar indicadores útiles para la toma de decisiones y el establecimiento de políticas públicas asociadas a la salud general. Entre los principales hallazgos del estudio se evidenció que el consumo per cápita diario de energía en el país fue de 2 200 kcal, aproximadamente, y que no se encontraron diferencias significativas por zona, región ni nivel educativo del jefe de hogar. Se distingue que el aporte energético de la proteína ronda el 11,4% a nivel nacional. Se lograron encontrar diferencias por zona, y la región Central es significativamente diferente a las demás con una estimación de 11,8%. En cuanto al nivel educativo del jefe, los aportes de energía por proteína son mayores para los niveles de universitaria, seguido de secundaria. Sobre el aporte energético de las grasas, se estima que es 30,1% a nivel nacional. Se encontraron diferencias significativas por zona, y diferencias entre la región Central (30,7%) y la Brunca (28,2%) y la Central con la Huetar Norte (28,9%). Además, por el nivel educativo de los jefes de hogar, no hay diferencias entre ningún grado y primaria; no hay diferencias entre secundaria y universitaria; pero sí hay diferencias entre primaria o menos con secundaria o más. Por último, el aporte energético de los carbohidratos se estima que es 59,9% a nivel nacional. Existen diferencias significativas por zona y hay diferencias entre la región Central (59,0%) con las regiones Chorotega (61,2%), Brunca (62,8%) y Huetar Norte (61,8%). Además, por el nivel educativo de los jefes de hogar, no hay diferencias entre ningún grado y primaria; no hay diferencias significativas entre secundaria y universitaria; pero sí hay diferencias entre primaria o menos con secundaria o más.Ítem Pronóstico de series de tiempo mediante vectores auto regresivos con simulación para estimar la distribución posterior de coeficientes en el contexto de variables crediticias y macroeconómicas en Costa Rica.(2024-09-30) Calvo Briceño, Daniel; Rojas Rojas, Guaner DavidLas instituciones financieras desempeñan un papel esencial en la economía al facilitar la intermediación financiera, canalizando el ahorro hacia la inversión. Sin embargo, esta actividad conlleva riesgos inherentes, como el riesgo de crédito, liquidez, tasas de interés y operativo. El riesgo de crédito se refiere a la posibilidad de que un deudor incumpla sus obligaciones. Dicho riesgo puede afectar la rentabilidad de los bancos y, en casos extremos, generar problemas de solvencia y crisis financieras si la morosidad es alta, lo que perjudica la confianza en el sistema bancario. Para gestionar estos riesgos, las entidades financieras necesitan modelos sólidos que pronostiquen la calidad de su cartera crediticia. La Superintendencia General de Entidades Financieras (SUGEF) promueve pruebas de estrés para evaluar la gestión de riesgos de cada entidad. Además de factores internos como liquidez y rentabilidad, factores macroeconómicos como el PIB, inflación y tipos de interés también influyen en la morosidad del sistema financiero. Estudios han demostrado la sensibilidad de la morosidad a factores macroeconómicos como la deuda pública y la inflación. Asimismo, se ha encontrado que variables como la actividad económica y las nuevas colocaciones de crédito no tienen un impacto inmediato en la morosidad, mientras que la inflación y el tipo de cambio sí lo tienen. De tal modo, se propone utilizar modelos de vectores autorregresivos (VAR) para relacionar variables macroeconómicas con indicadores crediticios. Se plantea una comparación entre el enfoque frecuentista y bayesiano para estimar estos modelos. El enfoque bayesiano, al incorporar información adicional sobre los parámetros a estimar, ofrece ventajas sobre el frecuentista, especialmente en muestras pequeñas donde puede haber problemas de sobreajuste. Los modelos VAR bayesianos mitigarían este problema al asignar una distribución de probabilidad a los coeficientes del modelo, reduciendo así la influencia de la variabilidad aleatoria en las estimaciones.Ítem Análisis de los casos de intoxicación reportados al Centro Nacional de Control de Intoxicaciones de Costa Rica durante el período de COVID-19 entre los años 2020 y 2022(2024-07-27) Gutiérrez Vega, Edgardo; Chou Chen, Shu WeiLa pandemia provocada por el SARS-CoV-2 y las restricciones sanitarias provocaron cambios drásticos en los estilos de vida y hábitos de la población. El objetivo principal de este trabajo fue determinar cambios significativos durante el período COVID-19 (2020 a 2022) en comparación con años anteriores (2015 a 2019), utilizando los informes recibidos por el Centro Nacional de Control de Intoxicaciones de Costa Rica. En primer lugar, se realizó un análisis de agrupamiento jerárquico utilizando Alineamiento Temporal Dinámico (DTW) para identificar series temporales relevantes basadas en sexo y grupos de edad para cada causa de intoxicación. Luego, se centró el análisis en estas series temporales para cada causa de intoxicación y se analizó si sufrieron cambios cuando inició la pandemia. Se utilizó un enfoque de pronóstico utilizando modelos ARIMA estacional, ARIMA con variable de intervención y Prophet para determinar el comportamiento esperado después del inicio de la pandemia. Los resultados mostraron que los niños de 0 a 4 años fueron afectados principalmente por intoxicaciones accidentales, con una tendencia decreciente durante la pandemia. Respecto a los intentos de suicidio con medicamentos, se analizaron dos grupos principales: mujeres de 12 a 19 años y adultos de 20 a 59 años, ambos mostrando un aumento en los casos. Se analizaron los reportes de adicción a drogas de abuso en personas de 12 a 19 años y mayores de 20 años, presentando estos últimos un aumento fuera de lo esperado. Para reacciones a medicamentos, los menores de 15 años presentaron una disminución de casos en 2020 y 2021, mientras que los de 15 años o más reportaron un aumento en el mismo periodo. Las intoxicaciones ocupacionales con pesticidas estuvieron dentro de lo esperado.Ítem Modelo de clasificación con algortimo TabNet para abandono de clientes en servicios de telecomunicaciones del Instituto Costarricense de Electricidad entre agosto y octubre de 2022(2024-07-15) Santamaría Guzmán, Patrick José; Leitón Montero, Juan JoséDos de los principales objetivos de los proveedores de servicios de telecomunicación son maximizar las ganancias por el servicio brindado y mantenerse vivos en el mercado. Para lograr esto, las estrategias de retención de clientes juegan un papel fundamental, ya que el precio de retener clientes en un servicio de telecomunicación, es mucho menor que el de buscar nuevos clientes. Dada la necesidad de retención de clientes, los algoritmos de aprendizaje de máquinas suelen utilizarse en gran medida con el fin de poder aplicar estrategias de retención de clientes antes de que estos decidan abandonar el servicio de telecomunicación. Debido a esto, el principal objetivo de esta investigación, es determinar si el algoritmo TabNet, una variación de redes neuronales que promete tener un mejor desempeño en la predicción de datos tabulares que las redes neuronales convencionales, presenta mejoras respecto a algoritmos ampliamente utilizados en la predicción de datos en formato tabular, como XGBoost y LightGBM, para lo cual se utilizó un conjunto de datos proporcionado por el Instituto Costarricense de Electricidad de abandono de clientes sobre el uso del servicio prepago de sus clientes, en un periodo de estudio que va de agosto a octubre de 2022. Para comparar el desempeño de los algoritmos se utilizan dos criterios, el primero es por métricas de desempeño, donde se compara la exactitud, sensibilidad, especificidad y ROC AUC de las predicciones realizadas por los algoritmos, y el segundo criterio es el tiempo de ejecución en minutos que tardan los algoritmos en ejecutarse. El algoritmo TabNet logra una mejor métrica de desempeño solo cuando se compara la sensibilidad respecto a los otros dos algoritmos, logrando predecir correctamente hasta un 74,4% de los casos de abandonos de clientes, frente a XGBoost y LightGBM que lograron porcentajes de 73.2% y 72.9% respectivamente; si se compara por las demás métricas, LightGBM y XGBoost tienen mejores resultados. Por otro lado, TabNet tarda hasta 5.6 minutos más en ejecutarse que XGBoost y hasta 8.4 minutos más que LightGBM, esto cuando se comparan los algoritmos con las 3 mejores combinaciones de hiperparámetros obtenidas en la métrica de sensibilidad; si se compara por otras métricas de desempeño, estos tiempos pueden llegar a aumentarse hasta en 87 minutos si se compara contra XGBoost. En general el algoritmo TabNet, debido a sus altos tiempos de ejecución y a la similitud de las métricas obtenidas respecto a LightGBM y XGBoost, se recomendaría solo en caso de que se busque maximizar la métrica de sensibilidad, aunque LightGBM, en general, logra métricas similares con tiempos de ejecución para el ajuste de los modelos mucho menores.Ítem Análisis de los factores asociados a la posibilidad de impago por parte de los deudores en materia de pensiones alimentarias(2024) León Cerdas, Juan Pablo; Rojas Rojas, Guaner DavidEl objetivo de la presente investigación es identificar factores asociados a la posibilidad de impago por parte de los deudores alimentarios, para lo cual se estructura una base de datos de 1000 expedientes activos en fase de ejecución seleccionados aleatoriamente por muestreo sistemático del listado total registrado en el sistema informático denominado Escritorio Virtual, alimentado en el Juzgado de Pensiones Alimentarias del Segundo Circuito Judicial de San José para los años 2019 y 2020. Primeramente, se desarrolla un análisis exploratorio con las variables de interés del estudio denominadas como independientes, llámese: Edad, Estado Civil, Escolaridad, Presencia de discapacidad, Ingresos familiares, Ingreso de la persona demandada, Zona de residencia, Apremio Efectivo, presencia de Medida Alterna, Cantidad de alimentarios, Rebajo automático, Sexo de la persona juzgadora y Trabajan ambos progenitores en relación primeramente con la variable respuesta denominada Buen pagador, así como posteriormente con la que hace referencia al Monto de la pensión alimentaria asignada. El enfoque de análisis se estableció en tres vertientes principales: • Primeramente, en establecer una clasificación de riesgo mediante modelos de aprendizaje supervisado por Árboles de decisión, Bosques Aleatorios y Redes Neuronales de los cuales se escogerá el que mejores resultados registre en cuanto a la predicción de la variable Buen pagador. • Por otro lado, mediante la predicción de montos asignados por pensión alimentaria utilizando distintos escenarios para modelos de aprendizaje supervisado por Regresión lineal múltiple. • Finalmente, determinando perfiles de los obligados alimentarios mediante las técnicas de análisis multivariado por Componentes Principales (ACP) y Conglomerados en dos etapas a modo de validación. Con los resultados de los dos primeros puntos se determinaron las variables consideradas como más significativas en cuanto al aporte de los modelos generados y sus matrices de confusión, para ser utilizadas posteriormente en el análisis definido en el tercer punto. Se logra determinar que, a nivel de modelos de clasificación, Bosques Aleatorios resulta ser el más eficiente alcanzando un nivel de precisión global del 96,67% en cuanto a la clasificación de la variable Buen pagador, mientras que el modelo denominado como simple obtuvo los resultados más bajos en la Raíz del Error Cuadrático Medio (RMSE), el Error Estándar de los Residuos (RSE), y el Error Relativo para la predicción de Montos por pensión alimentaria con la metodología de Regresión lineal múltiple. Finalmente son conformados los perfiles de los deudores alimentarios basados en cinco grupos que fueron los establecidos con el ACP y validados con Análisis de Conglomerados en dos etapas.Ítem Desarrollo y validación de una herramienta estadística para la estimación de incertidumbre de medida para inventarios de gases de efecto invernadero utilizando el método de simulación de Monte Carlo(2024) Molina Castro, Gabriel Ignacio; Solano Sánchez, PaulaEl presente proyecto busca generar una herramienta estadística validada, que permita estimar la incertidumbre de medida para las emisiones de un inventario de gases de efecto invernadero mediante la propagación de distribuciones de probabilidad aplicando el método de simulación de Monte Carlo. Su justificación se fundamenta en la ausencia de software u hoja de cálculo de libre acceso que permita esta estimación de forma coherente con los requisitos de reporte del PPCN 2.0 y en su necesidad latente por parte las organizaciones que pretenden alcanzar la carbono neutralidad según las políticas ambientales de Costa Rica. Inicialmente, se abordó y generó una propuesta de estimación de incertidumbre para los factores de emisión incluidos en la base de datos oficial del país, mantenida por el IMN. Esta propuesta incluyó a los factores de emisión caracterizados por intervalos de variación asimétricos y otros factores de emisión con ausencia de información sobre su incertidumbre. Dicha propuesta fue publicada internacionalmente en dos artículos científicos y fue adoptada por el IMN en la última publicación de la base de datos. Posteriormente, se pasó a la construcción de la herramienta denominada GEISER, programada en lenguaje R bajo una estructura de aplicación web (librerías shiny). Su interfaz permite al usuario: contar con instrucciones generales de uso, incorporar información de un inventario con hasta cinco emisiones cuantificadas directamente y diez emisiones cuantificadas indirectamente, obtener un resumen de los resultados asociados al inventario (emisión total, su incertidumbre estándar, intervalo de cobertura al 95 % y una gráfica de su distribución) y el detalle de cada emisión y su incertidumbre estándar para identificar posibles oportunidades de mejora. Para lograr la generación de estos resultados, la herramienta usa bases de datos predefinidas y métodos de simulación de Monte Carlo (incluyendo el remuestreo o bootstrapping) para simular poblaciones asociadas a todas las variables de entrada y combinarlas para generar una población simulada de la variable de salida (emisión total del inventario), siguiendo los lineamientos establecidos en guías de estimación de incertidumbre pertinentes (GUM, GUM-S1 y Guía Metodológica del PPCN). Seguidamente, se validó la exactitud de la herramienta (presentando diferencias menores a un 5 % con respecto a resultados de casos de referencia), su robustez (evidenciando cambios reducidos ante la incorporación de hasta un 10 % de valores extremos) y uso por parte de un usuario potencial. Por último, la herramienta fue publicada a través de enlace de descarga de un repositorio web mantenido por el autor y se identificaron las principales limitaciones y recomendaciones de mejora a ser consideradas en una próxima actualización de la herramienta.Ítem Implementación del modelo de Rasch para la generación automática de pruebas de aula(2023) Masís Soto, Manuel Felipe; Rojas, GuanerEste trabajo se circunscribe a temas relacionadas con la automatización de exámenes en el aula, partiendo de la teoría clásica de los tests (TCT), para luego analizar el aporte de la teoría de respuesta al ítem (TRI), específicamente por medio del modelo de Rasch y utilizando como base una herramienta de software denominada “The Examiner”, que permite la creación, calificación y análisis de pruebas de aula. Se aprovecha la información consignada en la base de datos del software para 1428 ítems utilizados en exámenes reales y aplicados en una universidad estatal, con el fin de analizar los indicadores que el software calcula como predichos. Se realiza una comprobación de los cálculos internos del software, para concluir que la información generada es útil para la confección de exámenes. En este sentido y como elementos clave, el software aporta información sobre la media esperada para los exámenes aplicados y sobre el coeficiente de confiabilidad o consistencia esperado mediante el alfa de Cronbach. Los resultados del análisis permiten concluir que los cálculos que genera el software para estos valores predichos se pueden utilizar como información de referencia útil para la confección previa de exámenes a partir de ítems consignados con información histórica. Por otro lado, se utiliza la información de la base de datos para ajustar el modelo de Rasch a las pruebas de aula ejecutadas, así como a pruebas simuladas y se concluye que este modelo genera un buen ajuste a nivel de exámenes, ítems y personas, por lo cual se convierte en una alternativa para incorporarlo como parte de las funcionalidades del software en versiones posteriores y así enriquecer el análisis que brinda el enfoque de la TCT.Ítem Evaluación de la probabilidad de perdida esperada de una cartera de crédito de consumo en el mercado financiero hondureño a través de modelos alternativos: Caso de aplicación con puntajes de crédito(2023) Cubero Soto, Sergio; Rímola Guevara, Max AlbertoEn un sector financiero global competitivo, las instituciones buscan métodos científicos, como el aprendizaje de máquinas, para identificar clientes solventes y reducir pérdidas crediticias. En Honduras, las entidades financieras se apoyan en burós de crédito y consultorías analíticas para desarrollar herramientas que minimicen la probabilidad de impago, pero no hay un marco de referencia que demuestre mejoras con modelos de aprendizaje de máquinas. Esta investigación busca evaluar la pérdida esperada en una cartera de crédito de consumo en el mercado hondureño hasta diciembre de 2020, al comparar modelos de aprendizaje de máquinas y estadísticos, con el objetivo de determinar si las metodologías alternativas mejoran la estimación de incumplimiento y la pérdida esperada en la cartera de crédito. En este estudio se compararon modelos como regresión logística, bosques aleatorios, XGBoost y redes neuronales a través de métricas de rendimiento y una comparación de negocio con base en la pérdida esperada acumulada. Además, se utilizaron datos de información crediticia desde mayo de 2018 hasta febrero de 2020 proporcionados por un buró de crédito hondureño. Las variables independientes incluyeron información sociodemográfica y comportamiento de pago de créditos mensualmente, mientras que la variable dependiente identificó como malos pagadores a aquellos con morosidad mayor que 60 días en los 12 meses posteriores a la solicitud de crédito. El modelo XGBoost se seleccionó como el mejor entre los modelos de aprendizaje de máquinas, ya que mostró métricas de rendimiento superiores. Asimismo, obtuvo una puntuación de 0.4072 en Kolmogorov Smirnov (KS), por lo que superó en más de 3.75 % a los otros modelos, al igual que en la métrica área bajo la curva ROC (Auroc). Además, presentó mejor capacidad predictiva y de discriminación que la regresión logística, con una mejora del 7.66 % en sensibilidad y 4.41 % en casos predichos correctamente. Este estudio proporciona evidencia para mejorar la gestión del riesgo crediticio en entidades financieras mediante la adopción del modelo XGBoost.Ítem Comparación de métodos de evaluación de modelos climáticos globales para América Central(2023) Gómez Camacho, Mario Javier; Barboza Chinchilla, Luis AlbertoEl objetivo de este estudio es analizar el comportamiento de seis técnicas utilizadas en la evaluación de la similitud entre dos campos espaciotemporales, especialmente en el ámbito climático, cuatro de ellas aplicadas desde una perspectiva espacial, y las dos restantes desde una perspectiva temporal, basadas en el análisis de datos funcionales, bajo el supuesto de que estos últimos aportarán informaciónn adicional. Para lograrlo, primero se generaron datos sintéticos para visualizar el comportamiento de las técnicas en escenarios controlados, conformados por las combinaciones de diversos valores de correlación lineal entre los campos, razón de sus desviaciones estándar, sesgo y diferencias de forma en sus distribuciones. Posteriormente se realizó una simulación para observar la robustez de cada técnica ante valores faltantes. La Efi ciencia Espacial Wasserstein fue el indicador seleccionado luego de realizar estos diseños, gracias a que este cuanti ca correctamente la similitud y se mantiene estable al lidiar con valores perdidos. Este indicador se utilizó para ordenar 48 modelos climáticos de acuerdo a su capacidad para reproducir el ciclo anual de algunas variables climáticas, considerando el periodo de 1979 a 1999. Se seleccionaron seis modelos gracias a tres métodos de análisis multicriterio: la norma euclídea, TOPSIS y PROMETHEE. Estos muestran rendimientos de cientes en al menos una variable o en algún mes o estación en específico, sin embargo, conocer la superioridad general de estos modelos facilita futuras investigaciones aplicadas.Ítem Caracterización de los Usuarios a partir de Escalas de Uso de Internet y Evaluación del Tamaño de Muestra de la Encuesta de Acceso y uso y de los Servicios de Telecomunicaciones en Costa Rica(2023-10) Aguilar Aguilar, Vivian; Gómez Meléndez, AgustínLa apertura del mercado del sector de las telecomunicaciones en el 2008, trajo como consecuencia un aumento en el número de proveedores de estos servicios, lo cual contribuyó con el acceso de más personas a las TIC, es por esto que es indispensable la medición y monitoreo del sector. En el presente estudio se categorizan los diferentes tipos de usuarios de Internet por medio de la creación de escalas de uso utilizando los datos de la “Encuesta de acceso y uso de los servicios de telecomunicaciones en Costa Rica 2017”. En primer lugar, se construyeron parcelas sustentadas con un análisis factorial exploratorio y un análisis de fiabilidad, se procedió con la construcción de un índice, las escalas de uso de Internet y se validó la teoría por medio de un análisis factorial confirmatorio, por último; se realizó un análisis de conglomerados para crear perfiles. Se crean cinco escalas: informativa, interacción social, entretenimiento, productividad, y habilitación ciudadana. Dentro de las escalas se pueden encontrar brechas por zona de residencia, sexo, grupos de edad, nivel educativo y de ingresos. Se determinan dos perfiles de usuarios, los consumidores sociales los cuales son personas que residen fuera de la región Central; una mayor proporción corresponde a mujeres, a personas de más de 45 años, personas con nivel educativo de primaria o menos, así como personas con ingresos inferiores a los 250 mil colones. Los ciudadanos digitales que en su mayoría son de la región Central, mayoritariamente hombres, con edades entre los 18 y 44 años, personas con nivel de instrucción universitaria y con ingresos superiores a los 750 mil colones.Ítem La alfabetización y el pensamiento estadístico en la sociedad de la información: una reflexión desde el ejercicio docente(2023-01) Ruiz Barrantes, Esteban Alberto; Gallardo Allen, EugeniaLa presente sistematización tiene como finalidad exponer la experiencia docente utilizando datos reales en la resolución de problemas para desarrollar en el estudiantado habilidades relacionadas con la alfabetización y el pensamiento estadístico. Un aspecto por considerar, para el diseño de la estrategia didáctica, fue el contexto de la pandemia del virus responsable de la COVID, debido al traslado de los cursos a la modalidad 100% virtual. La experiencia didáctica inicia con la aplicación de un cuestionario en línea dirigido al estudiantado de cursos introductorios de Estadística de varias de las carreras de la Universidad de Costa Rica, donde a partir del conjunto de datos recolectados en línea y datos publicados por el Ministerio de Salud relacionados con el virus de la COVID se generaron diversas guías de aprendizaje enfocadas a los conceptos básicos de estadística descriptiva. Entre los principales resultados, se encontró la importancia que tiene la mediación tecnológica para lograr la alfabetización y el pensamiento estadístico enfocándose en aspectos relacionados con la calidad de los datos, su resumen e interpretación. Adicionalmente, el estudiantado logró ir más allá del cálculo estadístico, ya que estableció conclusiones de fondo relacionadas con su disciplina.Ítem Análisis de la volatilidad electoral en Costa Rica a través del análisis bayesiano de datos longitudinales(2023) Guzmán Castillo, Jesús; Rojas Rojas, Guaner DavidEn las elecciones de 2018, el debilitamiento de las identidades partidarias se hizo presente con una gran volatilidad en las preferencias de las personas electoras, influenciada en parte por eventos coyunturales que incidieron en la intención de voto. Un primer evento fue la investigación en torno a los créditos del Banco de Costa Rica a favor del empresario Juan Carlos Bolaños y el posible caso de tráfico de influencias, conoci asociado fue la resolución de la Opinión Consultiva 24 de la Corte Interamericana de Derechos Humanos sobre el reconocimiento de derechos a la población LGTBIQ+. Ambos eventos tuvieron una repercusión en la narrativa de la campaña en dos momentos distintos, caracterizándose por elementos autoritarios y conservadores, que también atizaron el descontento de la ciudadanía con la clase política. Esta narrativa logró empatar con actitudes presentes en las personas, como lo es el descontento y la animadversión con las élites políticas. En términos generales, se puede concluir que anidar a las personas en los distintos meses que duró la campaña electoral resultó adecuada para explicar la influencia de las actitudes conservadoras en los cambios a favor de algún partido político. Se lograron encontrar variables que explicaran el cambio a favor de cada una de las tipologías de partidos propuestas, y que estos cambios estuvieron mediados por los factores contextuales que caracterizaron esa elección.Ítem La población de 60 años y más en Costa Rica. Dinámica demográfica y situación actual(1996) Barquero Barquero, Jorge ArturoEl presente documento es un estudio realizado para la Junta de Protección Social de San José, con el propósito de servir de base al Hospital Nacional Geriátrico Dr. Raúl Blanco Cervantes para su evaluación y presentación ante la Comisión Nacional de Hospitales. La investigación se realizó durante el mes de enero de 1995 y contó con la colaboración de la Licda. Elizabeth Solano, en el procesamiento de datos y en el capítulo III de este informe. Los objetivos fundamentales de este trabajo fueron: 1. Dar un panorama general sobre el proceso de Transición Demográfica en Costa Rica y de una de sus principales consecuencias: El Envejecimiento de la Población. 2. Analizar los cambios más recientes en la mortalidad de la población de 60 años y más en Costa Rica. 3. Dar a conocer las principales características socioeconómicas de la población de 60 años y más, según los resultados de la Encuesta de Hogares de Propósitos Múltiples de julio de 1994. La mayor parte de la información que se utilizó en este estudio fue suministrada por la Dirección General de Estadística y Censos y consistió en: tabulaciones especiales de defunciones por causa de muerte para la población de 60 y más, y un archivo especial de la Encuesta de Hogares de Propósitos Múltiples de julio de 1994 y del Módulo para personas de 60 años y más, incluido en dicha Encuesta. Dejamos constancia del apoyo de la Dirección General de Estadística y Censos por permitir utilizar sus instalaciones, personal y equipo, para la realización de esta investigación. En especial, al Departamento de Cómputo de la mencionada Institución. Finalmente, se agradece a las miles de personas de 60 años y más que brindaron gran parte de la información que sirvió de base para este estudio.Ítem Costa Rica: niveles y tendencias de la mortalidad infantil, según zona de residencia y nivel de instrucción de las mujeres. Periodo 1962-1969(1985) Barquero Barquero, Jorge ArturoEl estudio de los diferenciales de mortalidad debería considerarse para la formulación de políticas tendientes a disminuir su nivel, pues permite identificar los sectores de población más expuestos al riesgo. La fuente de información tradicional para la estimación de la mortalidad son las estadísticas vitales , pero en muchos países de América Latina éstas poseen grandes deficiencias No obstante, aún en los países donde se tienen estadísticas vitales de relativa confiabilidad, no es posible elaborar estimaciones que identifiquen estratos de mortalidad distinta ligados a variables socio-económicas. Las preguntas retrospectivas introducidas en los censos y encuestas, constituyen así una alternativa para el estudio de diferenciales de mortalidad. Mediante métodos indirectos, como el que se utiliza en el presente estudio, es posible asociar la estimación de mortalidad con la información que recoge el censo, ya sean características geográficas, de la vivienda, del hogar, o de las personas. Este trabajo está motivado en el reconocimiento de la desigualdad social ante la muerte. Sin embargo, hay que dejar en claro que no se trata de una visión esquemática o mecánica que asocia directamente el fenómeno de la muerte con las características socio-económicas, sino más bien, se reconoce que entre ambos existe una compleja interrelación mediada por factores biológicos y culturales que se asocian al proceso salud-enfermedad-muerte. Además, dicho proceso y los factores que lo determinan deben ser vistos en el marco de una sociedad históricamente determinada, por lo que la desigualdad social ante la muerte no ha sido siempre igual ni lo será en el futuro; más aún, ésta no puede ser explicada hoy día de un mismo modo en cada situación concreta. El reconocimiento de estos principios lleva a proponer la necesidad de estudiar las desigualdades sociales ante la muerte dentro de una teoría general que integre tanto aspectos sobre el funcionamiento de lo social como aquéllos asociados al proceso salud-enfermedadmuerte . —Estas reflexiones hacen que el concepto de clase social sea un elemento analítico útil para el estudio de los diferenciales de la mortalidad. Toda vez que sea entendido como la posición y situación que los individuos poseen con respecto a los medios de producción y a los beneficios de lo producido dentro de la sociedad, inserta dentro de un sistema de producción históricamente determinado. Así, el concepto de clase social logra identificar a diferentes grupos de individuos y sus condiciones de existencia, por tanto, su situación ante la vida 2/ y la muerte.— Sin embargo, el concepto de clase social no es posible de ser aprehendido con la sola información censal, pues implica factores asociados no sólo con las condiciones materiales de existencia, sino también con aspectos de la conciencia de clase, es decir, también factores políticos. Dadas las limitaciones de la información y de tiempo para este estudio, se decidió utilizar dos informaciones que recoge el censo que se considerarán como variables ligadas a las diferencias sociales ante la muerte; son éstas el lugar de residencia y el nivel de instrucción de las mujeres que declararon en el censo la información sobre hijos tenidos vivos e hijos sobrevivientes, utilizando la mortalidad infantil como variable ’’dependiente". La variable lugar de residencia es importante pues las desigualdades sociales tienen su expresión espacial en el territorio. El nivel de instrucción se interpreta no sólo como los posible hábitos, creencias y valores sobre higiene y alimentación que la educación inculca en las madres y que éstas transmiten en el cuidado de sus hijos. El nivel' de instrucción también se interpreta como un indicador de la pertenencia a una clase social, por tanto como las posibilidades de acceso a mayores ingresos y a los servicios de salud. Así pues, el objetivo de este trabajo será la estimación de los niveles y tendencias generales de la mortalidad infantil que se asocian a las variables lugar de residencia y nivel de instrucción de las mujeres. Como indicador de la mortalidad infantil se empleará la probabilidad de morir en el primer año de vida. Por último, es preciso aclarar que las estimaciones que se presentarán están sujetas a juicio de los lectores por posibles limitaciones metodológicas y de la información básica. Además, no se pretende llegar a estimaciones precisas, sino que, reconocer los diferenciales y órdenes de magnitud más importantes. El trabajo está organizado en cuatro capítulos. El primero es una referencia general a la situación de Costa Rica al momento de la estimación (1960- 1970). El segundo está dedicado a aspectos metodológicos y de la información básica. El tercer capítulo presenta los resultados de este estudio y, el último se refiere a las principales conclusiones que se derivan de los resultados obtenidos.Ítem La Sobreparametrización en el ARIMA: una aplicación a datos costarricenses(2023-01-09) Gamboa Sanabria, César Andrés; Centeno Mora, Óscar JavierEstimar modelos de series cronológicas es una labor ampliamente extendida en múltiples campos de la investigación y uno de los objetivos es generar pronósticos de la forma más precisa posible dentro de un horizonte determinado. Existe una amplia gama de modelos que puede utilizarse con este fin, entre ellos están los modelos Autorregresivos Integrados de Medias Móviles ($ARIMA$), e incluso existen diversos métodos de estimación automática o semi-automática para esta rama de la Estadística. A pesar de esto, encontrar un modelo que posea un buen ajuste a los datos no es fácil, pues se deben considerar tanto aspectos teóricos como prácticos, y de la temática de estudio para así obtener un modelo adecuado que genere pronósticos realistas y pertinentes para la toma de decisiones dentro de lo posible. Esta investigación propone hacer uso del método denominado sobreparametrización en conjunto con el método de permutaciones del análisis combinatorio para someter a prueba un espectro más amplio de posibles modelos ARIMA. En la selección de modelos ARIMA, los métodos más tradicionales como los correlogramas u otros, no suelen cubrir muchas alternativas para definir la cantidad de coeficientes a estimar en el modelo, lo cual representa un método de estimación que no es óptimo. Por lo tanto, la presente tesis propone una metodología para obtener pronósticos más precisos en comparación a los métodos tradicionales. Los resultados encontrados se contrastan con datos simulados de series cronológicas y cuatro series reales para ajustar modelos ARIMA con la función auto.arima(), la sobreparametrización y un modelo ARIMA de orden bajo. Para cada una de estas series se realiza una partición del 80% para entrenar los modelos y el restante 20% para validación de los pronósticos. En cada una de estas series se realizó un análisis visual del comportamiento de los errores y posteriormente se evalúa la calidad de los resultados de cada modelo obtenido con las tres técnicas descritas mediante medidas de bondad de ajuste (AIC, AICc y BIC) y de precisión (RMSE, MAE y MAPE). Al tener datos que vienen de un proceso con bajo número de parámetros, la sobreparametrización logra captar de buena manera el comportamiento de la serie en comparación a las otras alternativas, y cuando el proceso que gobierna la serie es de un mayor grado. La metodología propuesta es capaz de capturar de mejor forma el comportamiento de la serie y conseguir pronósticos con una precisión mayor a los de los métodos tradicionales, ya que en los resultados de entrenamiento, la sobreparametrización obtuvo el mejor ajuste un 58,33% de las veces y la mejor precisión el 45,45% de las veces, mientras que al evaluar los resultados sobre los conjuntos de datos de validación, la sobreparametrización obtuvo el mejor ajuste el 50% de las veces, mientras que las mejores medidas de precisión se alcanzaron un 67% del tiempo.