Estudio para determinar los principales factores que influyen sobre el salario promedio de los cientı́ficos de datos Jordy Alfaro Brenes, Priscilla Angulo Chaves, Dylan Benavides Castillo, Michelle Gutiérrez Muñoz1 jordy.alfarobrenes@ucr.ac.cr, priscilla.angulo@ucr.ac.cr, dylan.benavides@ucr.ac.cr, michelle.gutierrezmunoz@ucr.ac.cr RESUMEN En la actualidad, el análisis de datos ha tenido un gran auge, llevando a muchas personas a dedicarse profesionalmente en esta área. Este artı́culo se centra en analizar los salarios de cientı́ficos de datos en función de diversas variables demográficas y profesionales. El objetivo es identificar patrones y relaciones significativas entre el salario y factores como el nivel de experiencia, el tamaño de la em- presa y la residencia del empleado. Se utilizó un conjunto de datos de salarios de cientı́ficos de datos para realizar un análisis de regresión lineal múltiple. Se calcularon el error estándar residual (RSE), el coeficiente de determinación (R²) y el error cuadrático medio (MSE). Además, se realizaron prue- bas de hipótesis para evaluar la significancia de los coeficientes de correlación entre el salario y las variables seleccionadas. Los resultados del análisis de regresión lineal múltiple mostraron un RSE de 58260, un R² de 0.269 y un MSE de 3386834788. Las pruebas de hipótesis revelaron que las variables de nivel de experiencia, el nombre del puesto, el tamaño de la empresa y la modalidad de trabajo tienen coeficientes de correlación significativamente diferentes de cero al nivel de significancia de 0.05. Estos hallazgos indican que estos factores influyen de manera significativa en los salarios de los cientı́ficos de datos. Por otra parte, las variables de tipo de empleo, lugar de residencia y el año de trabajo resultaron ser no significativas con respecto a su influencia en el salario. Los resultados pue- den ayudar a empresas y profesionales a entender mejor las dinámicas salariales en esta industria y a ajustar estrategias de contratación y negociación salarial. Futuros estudios podrı́an ampliar este análisis incluyendo más variables y utilizando métodos estadı́sticos adicionales para mejorar la preci- sión de las predicciones salariales. PALABRAS CLAVE: Ciencia de datos, Salarios, Regresión lineal múltiple, Pruebas de hipótesis INTRODUCCION En los últimos años, la ciencia de datos se ha establecido como un campo esencial para extraer información valiosa de grandes bases de datos. En esta lı́nea, analizar los salarios de los cientı́ficos de datos es un tema de interés creciente y de gran importancia, puesto que los profesionales de esta área tienen un papel fundamental en el manejo e interpretación de datos para la toma de decisiones estratégicas en gran variedad de sectores laborales. 1Estudiantes de la Maestrı́a Profesional en Métodos Matemáticos y Aplicaciones, Universidad de Costa Rica. 1 Investigar especı́ficamente el salario de los cientı́ficos de datos es pertinente debido al creci- miento y demanda de competencias en este campo. La digitalización de la información y la mayor disponibilidad de datos hacen que las empresas u otras organizaciones tengan el reto de contratar y mantener personas con perfiles profesionales en análisis de datos. En este punto, entender los ele- mentos que influyen en la remuneración es vital para profesionales, empleadores y también para orientar estrategias de desarrollo académico y profesional. El presente artı́culo se enfocó en identificar cuáles son los factores determinantes en los sala- rios de los cientı́ficos de datos a nivel mundial, haciendo uso de una base de datos que dispone de observaciones en el periodo de 2020 hasta 2024. Se examinaron variables como: nivel de experien- cia, ubicación, tamaño de la empresa y tipo de empleo para analizar cuáles tienen mayor influencia en la remuneración de esta profesión. Este proyecto es crucial debido a su impacto en la competitividad empresarial en la era digital. El estudio contribuye al campo de la ciencia de datos con nuevos conocimientos al descubrir patro- nes y tendencias en la muestra seleccionada. Entender a fondo los factores que influyen en el salario de los cientı́ficos de datos también tiene implicaciones sociales y polı́ticas, como orientar programas educativos para atender las necesidades actuales y futuras de diferentes sectores económicos y so- ciales. Los objetivos de la investigación fueron examinar los factores más influyentes en los salarios de los cientı́ficos de datos y medir la relación entre variables como el nivel de experiencia, la ubica- ción, el tipo de empleo, entre otras. Inicialmente, se llevó a cabo un análisis exploratorio de la base de datos, seguido de la implementación en R Studio de un modelo de regresión lineal múltiple para medir las relaciones, efectuar pruebas de hipótesis y de esta forma poner a prueba los coeficientes de correlación encontrados, fijando salario como la variable de interés. Se destaca la importancia de una planificación cuidadosa en la selección de métodos estadı́sti- cos y la comprensión de los datos en la investigación. La necesidad de un análisis exploratorio y la selección precisa de variables fueron fundamentales para ajustar las expectativas del trabajo y definir con precisión las hipótesis sometidas a prueba, como menciona Dagnino S. (2014). Los hallazgos del trabajo muestran la necesidad de un enfoque integral y riguroso de la inves- tigación estadı́stica para captar de forma precisa las diversas dinámicas que influyen en los salarios de los cientı́ficos de datos, enfatizando en la importancia de considerar múltiples factores y evitar interpretaciones que simplifiquen erróneamente el problema de investigación. METODOLOGIA Para este estudio, se utilizó una base sobre salarios de profesionales en el área de ciencia de datos, la cual contenı́a un total de 14838 individuos con datos de los años 2020 hasta el 2024. la va- 2 riable a predecir era el salario (salary in usd) y las variables independientes fueron el año de trabajo (work year), el nivel de experiencia (experience level), el tipo de empleado (employment type), el nombre del puesto (job title), el paı́s de residencia del individuo (employee residence), la locación de la empresa (company location), el tamaño de la empresa (company size) y la modalidad de trabajo (remote ratio). El conjunto de datos se obtuvo del sitio Kaggle. Primero, se realizó un análisis descriptivo de los datos para entender mejor las caracterı́sticas y la distribución de cada variable donde se incluyeron medidas de tendencia central y de dispersión, ası́ como visualizaciones gráficas para identificar posibles patrones o anomalı́as en los datos. Se exploraron además las correlaciones entre las variables involucradas. De acuerdo con Lahura y cols. (2003), se puede medir la correlación entre dos variables, mediante el coeficiente de correla- ción poblacional, que se define como: Corr(X,Y ) = Cov(X,Y )√ V ar(X)V ar(Y ) cuyo rango es: −1 ≤ Corr(X,Y ) ≤ 1. En esta fórmula se utiliza la varianza y la covarianza, que están dadas por: V ar(X) = 1 n n∑ i=1 (xi − x̄)2 Cov(X,Y ) = 1 n n∑ i=1 (xi − x̄) (y − ȳ) Figura 1 Matriz de correlaciones entre las variables 3 https://www.kaggle.com/datasets/saurabhbadole/latest-data-science-job-salaries-2024/data Cabe destacar que dependiendo del valor del coeficiente de correlación entre las variables X y Y , existen variables aleatorias que tienen correlación positiva siempre que Corr(X,Y ) ≥ 0, corre- lación negativa si Cor(X,Y ) ≤ 0 y que no tienen correlación si Cor(X,Y ) = 0, por ejemplo, en la figura 1 se observa que company location y employee residence tienen una alta correlación positiva, mientras que work year y remote ratio poseen una correlación negativa. A partir de este análisis, se determinó que existı́an elementos representativos en cada variable y otros que más bien eran datos atı́picos por lo que se decidió agrupar dentro de las distintas variables los datos con caracterı́sticas similares. En el caso de la variable job title, se conservaron solamente las 5 categorı́as con más individuos y se clasificaron en ellas las otras categorı́as que tuvieran más de 100 individuos, el resto se omitió de la tabla, para conservar un total de 13089 filas. Para las variables employee residence y company location, los paı́ses se clasificaron en seis regiones: Norteamérica, Latinoamérica, Europa, Asia, África y Oceanı́a. A continuación, se utilizó un modelo de regresión lineal múltiple para examinar la relación entre los salarios y las variables independientes seleccionadas. Este modelo se eligió debido a su capacidad para cuantificar el efecto individual de cada variable mientras se controla por las otras variables en el modelo tal como plantea Peláez (2016). Para este modelo se consideraron todas las variables men- cionadas y también se ejecutó calculando las interacciones dos a dos de las variables. Llinás Solano (2017) define la recta de regresión lineal den observaciones mediante la ecuación yi = δ+ βxi + εi para i = 1, ..., n donde X es la variable independiente, Y la variable dependiente y εi es el error, por lo que la recta es el conjunto de pares (xi, yi) donde xi ∈ X y yi ∈ Y . Un modelo optimizado de una recta de regresión es el que minimiza el error cuadrático y se conoce como recta de regresión lineal de mı́nimos cuadrados. Aquı́, los parámetros del modelo están dados por: β̂ = Sxy Sxx , δ̂ = ȳ − β̂x̄ donde Sxx = n∑ i=1 (xi − x̄)2 y Sxy = n∑ i=1 (xi − x̄) (yi − ȳ) Cuando se tienen más de dos variables predictoras, se pueden incluir en el modelo, de forma que se crea un hiperplano de regresión lineal múltiple, que se define como: Yi = β0 + β1xi1 + β2xi2 + · · ·+ βp−1xi,p−1 + εi para i = 1, . . . , n donde Xj con j = 1, . . . , p − 1 son p − 1 variables linealmente independientes, Yi es la variable dependiente y xij es el i-ésimo elemento de la variable Xj . 4 En el caso de una muestra en la que se aplica un modelo de regresión lineal, se emplea el coeficiente de correlación muestral, que también se conoce como coeficiente de Pearson y se calcula de la siguiente forma: R = β̂ √ Sxx Syy = Sxy√ SxxSyy = ∑n i=1 xiyi − nx̄ȳ√(∑n i=1 x 2 i − nx̄2 ) (∑n i=1 y 2 i − nȳ2 ) donde β̂ es la estimación por mı́nimos cuadrados del parámetro β de la regresión lineal. En añadidu- ra, R2 se llama coeficiente de determinación muestral. Se calculó el error estándar residual (RSE) para medir la precisión de las predicciones del mode- lo. Además, se utilizó el coeficiente de determinación (R²) para evaluar la proporción de la variabilidad en los salarios que puede ser explicada por las variables incluidas en el modelo. El error cuadrático medio (MSE) también se calculó como una medida adicional de la precisión del modelo. La justificación para la selección del modelo de regresión lineal múltiple se basa en su capaci- dad para manejar múltiples variables explicativas y proporcionar una estimación clara de sus efectos individuales. Este enfoque es adecuado para entender las complejas interacciones entre las diferen- tes variables que afectan los salarios en el sector tecnológico. Además, se aseguraron los principales supuestos del modelo de regresión lineal, como la linealidad, la independencia de los errores, la ho- mocedasticidad y la normalidad de los errores, a través de pruebas diagnósticas y análisis de residuos. Posteriormente, se realizaron pruebas de hipótesis para evaluar la significancia estadı́stica de los coeficientes de las variables independientes. Estas pruebas permitieron determinar si las relacio- nes observadas entre los salarios y las variables seleccionadas eran estadı́sticamente significativas, utilizando un nivel de significancia del 0.05. Una prueba de hipótesis es un método inferencial que como menciona Rice (2007) se utili- za para evaluar la validez de una afirmación sobre una población basada en una muestra de datos. Llinás Solano (2017) define la hipótesis nula (H0), como la proposición que se debe comprobar y se puede plantear de diferentes formas y la hipótesis alternativa (H1) como el complemento de la hipótesis nula y su validez se demuestra al rechazar H0. En este caso, se definió H0 : βi = 0 y H1 : βi ̸= 0, donde los βi corresponden a los estimadores del modelo de regresión lineal. Una vez que se plantea la hipótesis nula, se utilizan los valores que arroja el modelo de regre- sión para cada variable: el estimador, el error estándar, el t valor y el p valor, donde el p valor es la probabilidad de obtener los mismos resultados al tomar la hipótesis nula como verdadera. De esta forma, si p < 0,05 se rechaza la hipótesis nula indicando que el coeficiente es significativamente di- ferente de cero, bajo el nivel de significancia definido; mientras que si p > 0,05 se acepta la hipótesis nula. Todos estos análisis estadı́sticos se llevaron a cabo mediante el lenguaje de programación R, 5 utilizando la versión 4.4.0. y los paquetes stats y ggplot2. RESULTADOS A partir del análisis descriptivo de los datos se encontró que existen correlaciones negativas débiles y cercanas a cero para varias variables, se destaca una mayor correlación para la variable de nivel de experiencia, seguido de lugar de residencia y ubicación de la compañı́a. Al realizar el modelo de regresión lineal múltiple se obtuvo un valor de 0.27 para el coeficiente de determinación (R²), esto quiere decir que el modelo puede explicar la variabilidad del salario en un 27 %. Se obtuvo además un error residual estándar (RSE) de 58260 y un valor de 3386834788 para el MSE. El RSE es cercano al valor de desviación estándar, la cual corresponde a 68068.18, como es esperado. Por otro lado, un valor tan alto de MSE concuerda con que el modelo no puede explicar en su mayorı́a la variabilidad del salario, tal como lo indica el coeficiente de determinación. Con el fin de mejorar el resultado anterior, se ejecutó una prueba del modelo en donde se ajus- taron los salarios de cada año de acuerdo con la inflación. Sin embargo, este cambio no generó un aumento significativo del coeficiente de determinación, por el contrario, lo bajó en menos de un 1 %, por esta razón no se tomó en cuenta este ajuste en la tabla para el análisis final. En el cuadro 1 se observan los coeficientes obtenidos con el modelo de regresión lineal. En la cuarta columna se observan los p valores utilizados en las pruebas de hipótesis. A partir de este análisis se demostró que las variables de nivel de experiencia, el nombre del puesto, el tamaño de la empresa y la modalidad de trabajo tienen un impacto significativo en los salarios. Por otra parte, las variables de tipo de empleo, lugar de residencia y el año de trabajo resultaron ser no significativas con respecto a su influencia en el salario. La relación positiva entre el nivel de experiencia y el salario, indicarı́a que a medida que los trabajadores adquieren más años de experiencia, sus salarios tienden a aumentar. Este hallazgo es consistente con las expectativas del mercado laboral, donde según lo planteado por Landon-Murray (2016), la experiencia adicional suele traducirse en habilidades más avanzadas y una mayor producti- vidad, justificando salarios más altos. El nombre del puesto también tendrı́a un rol significativo de acuerdo con la prueba de hipóte- sis, en el cuál, dependiendo del puesto en especı́fico se podrı́a esperar que tenga un impacto en el salario. Esto quiere decir que dependiendo el cargo en especı́fico el valor que el mercado le asigna es diferente aún si se encuentran dentro del espectro de Ciencia de Datos. Otro factor que mostró una influencia significativa en los salarios es el tamaño de la empresa, especı́ficamente la categorı́a de mayor tamaño. Según Glassdoor (2023), las empresas de mayor ta- maño tienden a ofrecer salarios más altos en comparación con las empresas más pequeñas. Este resultado puede atribuirse a varios factores, incluyendo mayores recursos financieros, polı́ticas 6 de compensación más competitivas y mejores oportunidades de crecimiento profesional en las em- presas más grandes. Cuadro 1 Resumen de coeficientes del modelo de regresión lineal Coefficients Estimate Std. Error t value Pr(> |t|) (Intercept) -774.4 23413.8 -0.033 0.97362 work year2021 -19402.1 9777.3 -1.985 0.04715 * work year2022 -15069.7 8890.5 -1.695 0.09019 . work year2023 -4930.3 8043.8 -0.613 0.54011 work year2024 -14127.1 8848.6 -1.596 0.11066 experience level2 21531.1 2281.3 9.436 < 2e-16 *** experience level3 15389.5 2231.9 6.897 6.07e-12 *** experience level4 18409.7 2997.0 6.141 9.14e-10 *** employment type2 19709.5 5863.7 3.361 0.00078 *** employment type3 12074.1 1680.4 7.188 7.11e-13 *** employment type4 32784.1 4110.8 7.975 1.66e-15 *** job title2 33476.8 1525.5 21.948 < 2e-16 *** job title3 10412.5 2148.2 4.847 1.31e-06 *** job title4 40834.9 3543.1 11.529 < 2e-16 *** employee residence2 6944.1 3642.8 1.906 0.05665 . employee residence3 72824.4 4374.0 16.646 < 2e-16 *** employee residence4 11682.6 4325.1 2.702 0.00691 ** employee residence5 34527.4 5754.0 6.001 2.02e-09 *** employee residence6 64148.3 4514.2 14.207 < 2e-16 *** remote ratio.L 1178.7 1100.4 1.071 0.28428 remote ratio.Q -453.9 1781.9 -0.255 0.79860 company location2 39058.6 11297.6 3.458 0.00055 *** company location3 8636.6 4497.2 1.920 0.05480 . company location4 12368.9 3310.5 3.737 0.00019 *** company location5 41120.1 4261.3 9.652 < 2e-16 *** company location6 12946.5 4215.0 3.071 0.00214 ** company size2 17398.6 4407.7 3.948 8.08e-05 *** company size3 49439.6 6350.9 7.785 6.18e-15 *** Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 La modalidad de trabajo, especı́ficamente el trabajo remoto, también se identificó como un factor significativo que afecta los salarios, especı́ficamente la categorı́a intermedia de trabajo remo- to, es decir, cuando se maneja aproximadamente el 50 % del tiempo en trabajo remoto y el otro 50 % de forma presencial. Los empleados que trabajan de forma remota en categorı́a intermedia tienden a recibir salarios más altos que sus contra partes que trabajan de manera presencial. Este hallazgo 7 puede ser similar a lo que plantea Harvard (2023), un reflejo de la creciente demanda de flexibilidad laboral y de la disposición de las empresas a pagar una prima por la capacidad de los empleados para trabajar de manera eficiente desde ubicaciones remotas. También puede indicar una reducción en los costos operativos para las empresas que permiten el trabajo remoto, lo que les permite redistribuir esos ahorros en forma de salarios más altos. CONCLUSIONES El objetivo principal de la investigación fue encontrar los factores más importantes para de- terminar el salario de un cientı́fico de datos. A partir de la base de datos elegida, la cual contenı́a diferentes variables pertenecientes a profesionales en la ciencia de datos, se esperaba obtener re- sultados que indicaran una correlación fuerte de una o más variables con la variable de interés del salario. Se llevó a cabo un análisis descriptivo de los datos, un modelo de regresión múltiple y pruebas de hipótesis con base a los coeficientes beta obtenidos del mismo. A partir del coeficiente de determinación obtenido para el modelo de regresión lineal múltiple se concluye que el modelo puede explicar la variabilidad del salario en un 27 %, lo cuál indica que deben existir otras variables no contempladas que influyen en la predicción, como interacciones de variables dos a dos o incluso mayor cantidad de intereacciones, sin embargo, no fue viable para el análisis tomar en cuenta estos casos. Ası́ mismo, se considera también la conclusión de que posible- mente un modelo de regresión lineal no es el óptimo para realizar este análisis en donde entran en juego tantas variables. Con las pruebas de hipótesis realizadas a partir de los coeficientes obtenidos del modelo de regresión lineal se concluye que para las variables de nivel de experiencia, tamaño de la empresa (categorı́a más grande), nombre del puesto y modalidad de trabajo remoto intermedio, no hay sufi- ciente evidencia con un nivel de significancia del 5 % para aceptar la hipótesis nula, la cuál dice que los coeficientes del modelo son iguales a 0, y por lo tanto no significativos. Es decir, se puede decir que estos coeficientes obtenidos en el modelo de regresión lineal reflejan una relación entre la variable dependiente y la independiente, con excepción de la variables tipo de empleo, año de trabajo y lugar de residencia, para las cuales se concluye que si hay suficiente evidencia con un nivel de significancia del 5 % para rechazar la hipótesis nula. Entre los problemas encontrados, se encuentran las modificaciones necesarias que fueron he- chas a la base de datos para poder tener variables que fueran continuas en su totalidad, y no categóri- cas. Esto incluye además, factorizar algunas variables, que si bien se representan con un número, en realidad son categóricas, porque solo hay una cantidad determinada de posibilidades, por ejemplo, la variable de trabajo remoto. Otro desafı́o fue tratar de mejorar el modelo para lo cual se creó uno con interacciones dos a dos entre todas las variables independientes, sin embargo, se volvı́a muy extenso y en muchos casos 8 se obtenı́an datos de la forma NA, lo cuál volvı́a más complejo el análisis. Debido a esto se seleccio- naron algunas variables especı́ficas de interés para las interacciones, sin embargo, esto no aumentó el valor del coeficiente de determinación. Como trabajo futuro se puede llevar a cabo un análisis que indique si las variables son lineal- mente separables o no y complementar con un análisis en componentes principales para estudiar la dispersión de los datos para analizar los tipos de correlación entre las variables involucradas (utilizan- do un cı́rculo de correlaciones), con el fin de analizar el poder de discriminación de las variables. AGRADECIMIENTOS Agradecemos al profesor Maikol Solı́s Chacón por su acompañamiento y buena disposición a lo largo de esta investigación. También agradecemos a los compañeros del curso Estadı́stica Actuarial I de la Escuela de Matemática de la Universidad de Costa Rica por sus valiosas discusiones y sugerencias durante el desarrollo de este proyecto. Referencias Dagnino S., J. (2014). Inferencia estadı́stica: Pruebas de hipótesis. Rev Chil Anest, 43, 125–128. Glassdoor. (2023). Reporte anual de salarios de cientı́ficos de datos en diferentes ciudades. Harvard. (2023). Tendencias en salarios de cientı́ficos de datos en diferentes industrias. Lahura, E., y cols. (2003). El coeficiente de correlación y correlaciones espúreas (Vol. 218). Pontificia Universidad Católica del Perú, Departmento de Economı́a. Landon-Murray, M. (2016). Big data and intelligence: Applications, human capital, and education. Journal of Strategic Security, 9(2), 92–121. Llinás Solano, H. (2017). Estadı́stica inferencial. ed. Barranquilla: Universidad del Norte. Peláez, I. M. (2016). Modelos de regresión: lineal simple y regresión logı́stica. Revista Seden, 14, 195–214. Rice, J. A. (2007). Mathematical statistics and data analysis (Vol. 371). Thomson/Brooks/Cole Bel- mont, CA. 9