Implementación de modelos estadísticos para la estimación de la demanda de combustibles en Costa Rica

Fecha

2022-09-27

Tipo

tesis de maestría

Autores

Quesada Rojas, Allan Gerardo

Título de la revista

ISSN de la revista

Título del volumen

Editor

Resumen

La pandemia del Covid-19, ha constituido un reto enorme para la humanidad, generando importantes desafíos en las diversas áreas del conocimiento, y la Estadística no es la excepción, pues muchos modelos, requieren el desarrollo de diversas modificaciones en su tratamiento, para la adecuada internalización de este cambio tan importante en el contexto. De ahí nace la motivación del presente trabajo, el cual busca generar un aporte, que permita dar diversas alternativas para la estimación de series de tiempo o cronológicas, las cuales han sido expuestas a una perturbación fuerte como es el caso de la pandemia, que ocasiona importantes errores al momento de pronosticar el comportamiento a futuro de la serie. En este estudio, se empleó la información de la demanda de combustible de Costa Rica de 2010 a 2020 en litros para los productos Súper (RON 95), Regular (RON 91) y Diésel (Diésel 50 ppm), que son los combustibles de mayor consumo a nivel nacional, son de gran importancia en la economía del país, y han sido una de las demandas más afectadas por la pandemia. Para lograr lo anterior, se desarrollaron diversos modelos estadísticos de series de tiempo, como por ejemplo los modelos de suavizamiento exponencial, modelos ARIMA, modelos de Series de Tiempo Estructurales Bayesianas y modelos de minería de datos como XGBoost y el uso de Vectores de Soporte de Regresión, empleando datos estadísticos de las series de ventas de combustible, datos de movilidad de Google y datos asociados a la evolución del Covid-19. El fin de utilizar este conjunto de modelos, fue aprovechar las diversas características y bondades que cada uno de ellos ofrece, y de este modo poder enfrentar un escenario de estimación complejo, comprendiendo que, en diversas ocasiones los mejores resultados se obtienen de emplear diversos modelos, por ejemplo para la gasolina regular, el mejor resultado se obtuvo por medio de un modelo XGBoost (7,55% de Error Absoluto Medio), mientras que para el Diésel el mejor resultado fue del modelo Bayesiano (8,84% de Error Absoluto Medio). Además, se observó que en ocasiones el trabajo conjunto de todas estas técnicas puede ser una gran alternativa, como se observó en el caso de la gasolina Súper, en la cual se empleó el modelo conjunto estimado por medio de Vectores de Soporte de Regresión, utilizando como variables explicativas, las estimaciones de los otros modelos y permitió obtener los mejores resultados con 9,91% de Error Absoluto Medio.
The Covid-19 pandemic has constituted a huge challenge for humanity, generating important challenges in the various areas of knowledge, Statistics is no exception, since many models require the development of various modifications in their treatment, for the adequate internalization of this important change in context. Hence the motivation for this work was born, which seeks to generate a contribution, that will allow giving various alternatives for the estimation of time series, which have been exposed to a strong disturbance such as the pandemic, which causes important errors when forecasting the future behavior of the series. In this study, the information on the demand for fuel in Costa Rica from 2010 to 2020 in liters was used for the Super (RON 95), Regular (RON 91) and Diesel (Diesel 50 ppm) products, which are the most popular and important in the country's economy and have been one of the demands most affected by the pandemic. To achieve this, various statistical models for time series were used, such as exponential smoothing models, ARIMA models, Bayesian Structural Time Series models and data mining models such as XGBoost and the use of Support Vectors of Regression, using statistical data from the fuel sales series, Google mobility data and data associated with the evolution of Covid-19. The purpose of using this set of models was to take advantage of the various characteristics and benefits that each of them offers, and thus be able to face a complex estimation scenario, understanding that, on various occasions, the best results are obtained from using different models, for example, for regular gasoline, the best result was obtained through an XGBoost model (7.55% Mean Absolute Error), while for Diesel the best result was from the Bayesian model (8.84% Absolute Error Medium). In addition, it was observed that sometimes the joint work of all these techniques can be a great alternative, as was observed in the case of Super gasoline, in which the joint model estimated by means of Regression Support Vectors, using as explanatory variables, the estimates of the other models and allowed to obtain the best results with 9.91% of Mean Absolute Error.

Descripción

Palabras clave

Pandemia, CORONAVIRUS, Demanda, Pronóstico, Estimación, Gasolinas, Diésel, Movilidad, Ciencia de datos, Minería de datos, Series de tiempo, Machine learning, Modelos apilados, Datos de Google, COVID-19

Enlaces Externos

Colecciones