UNIVERSIDAD DE COSTA RICA SISTEMA DE ESTUDIOS DE POSGRADO “ANÁLISIS RETROSPECTIVO DEL RENDIMIENTO DE UN EQUIPO DE FUTBOL PROFESIONAL COSTARRICENSE A PARTIR DE VARIABLES RECOLECTADAS POR MEDIO DE TECNOLOGÍA INERCIAL” Tesis sometida a la consideración de la Comisión del Programa de Estudios de Posgrado en Ciencias del Movimiento Humano y la Recreación para optar al grado y título de Maestría Académica en Ciencias del Movimiento Humano. PIER LUIGI MORERA SIÉRCOVICH Ciudad Universitaria Rodrigo Facio, Costa Rica 2023 ii Dedicatoria A mis padres Carlos Luis Morera Castillo y Flavia Siércovich Bartoli, quienes me inculcaron el valor del estudio y la importancia de perseverar para alcanzar las metas con pasión, disciplina y esfuerzo. A mi esposa Karla Alvarado Rojas y a mis hijos, Gian Mauro y Alessandro, porque a ellos me debo! Todos mis esfuerzos y batallas tendrán siempre un motivo: su bienestar y felicidad. P.L.M.S. iii Agradecimientos De forma especial quisiera agradecer al profesor tutor Ph.D. José Moncada Jiménez por brindarme su guía, su conocimiento, su paciencia y consejos en esta etapa final de la maestría. Al Deportivo Saprissa, sus dirigentes, jugadores y compañeros del cuerpo técnico que me ofrecieron su colaboración para la obtención de la información. También dar gracias a todas las personas que contribuyeron en este proyecto en diferentes áreas: Exploración y análisis de datos: Dr. Francisco Siles Canales, M.Sc. Johnny Madrigal Pana, Bach. Daniely Hernández Orama, Bach. Nelson Torres Chávez, Ing. Daniel Méndez Zeledón, Bach. Steven Quirós Barrantes, Bach. Jairo Rodríguez Granados, Dr. Shu Wei Chou Chen, Bach. Silvia Campos Vargas, y Bach. Denia Vargas Araya. Lectura, apreciación y comentarios: Ph.D. Pedro Carazo Vargas y Ph.D. Alejandro Salicetti Fonseca. Correcciones filológicas: M.Sc. María Emilce Rojas Salazar (mi suegra). Finalmente, agradecer a mi familia, por el apoyo incondicional y aliento continuo durante el proceso de investigación y redacción de esta tesis. iv Esta Tesis fue aceptada por la Comisión del Programa de Estudios de Posgrado en Ciencias del Movimiento Humano y la Recreación de la Universidad de Costa Rica, como requisito parcial para optar al grado y título de Maestría Académica en Ciencias del Movimiento Humano y la Recreación v Tabla de contenido Dedicatoria ....................................................................................................................... ii Agradecimientos.............................................................................................................. iii Tabla de contenido ........................................................................................................... v Resumen ........................................................................................................................ viii Lista de tablas .................................................................................................................. x Lista de abreviaturas .................................................................................................... xiii Capítulo I: Marco Teórico ............................................................................................... 1 1. Introducción ..................................................................................................................... 1 2. Análisis del rendimiento deportivo .................................................................................. 3 2.1. Concepto de análisis del rendimiento deportivo ........................................................... 3 2.2. Evolución del análisis del rendimiento deportivo ......................................................... 4 2.3. Uso de técnicas y herramientas para la recolección de datos ........................................ 5 2.3.1. La técnica de registro “manual”. .............................................................................. 5 2.3.2. Técnica de registro semiautomática ......................................................................... 6 2.3.3. Técnica de registro automática ................................................................................ 8 2.3.4. Desarrollo enfoques metodológicos en el análisis de rendimiento deportivo........... 11 3. Inteligencia artificial ...................................................................................................... 13 3.1. Concepto de inteligencia artificial ............................................................................. 13 3.2. Aprendizaje automático ............................................................................................ 14 3.2.1. Aprendizaje supervisado ....................................................................................... 14 3.2.1.1. Aprendizaje supervisado de clasificación ........................................................... 15 3.2.1.1.1. k vecinos más cercanos ..................................................................................... 15 3.2.1.1.2. Árboles de decisión ........................................................................................... 16 3.2.1.1.3. Bosques aleatorios............................................................................................. 17 3.2.1.1.4. La máquina de soporte de vectores .................................................................... 19 3.2.1.2. Aprendizaje supervisado de regresión ................................................................ 20 3.2.1.2.1. Regresión logística ............................................................................................ 21 3.2.1.2.2. Regresión lineal múltiple ................................................................................... 22 3.2.2. El aprendizaje no supervisado ............................................................................... 22 3.2.2.1. Redes neuronales artificiales ............................................................................. 23 vi 3.2.2.2. Análisis de componentes principales ................................................................. 23 4. Análisis de la actividad del jugador de fútbol según su posición .................................. 25 4.1. Variables técnico-tácticas .......................................................................................... 26 4.1.1. Variables de ataque ............................................................................................... 27 4.1.1.1. Gol/asistencia .................................................................................................... 27 4.1.1.2. Pase .................................................................................................................. 27 4.1.1.3. Remate o Tiro al marco ..................................................................................... 28 4.1.2. Variables defensivas ............................................................................................. 29 4.2. Rendimiento físico .................................................................................................... 29 4.2.1. Variables relacionadas con distancia ..................................................................... 30 4.2.1.1. Distancia total recorrida .................................................................................... 30 4.2.1.2. Distancia recorrida a diferentes intensidades ...................................................... 30 4.2.1.3. Carrera de alta velocidad (HSR, “High speed running”) ..................................... 31 4.2.1.4. Velocidad relacionada con Sprint ...................................................................... 32 4.2.2. Variables relacionadas con la carga ....................................................................... 32 4.2.3. Variables relacionadas con aceleración .................................................................. 33 4.3. Análisis por posición ................................................................................................ 34 4.3.1. Defensas ............................................................................................................... 34 4.3.1.1. Defensas centrales ............................................................................................. 34 4.3.1.2. Defensas laterales .............................................................................................. 34 4.3.2. Mediocampistas .................................................................................................... 35 4.3.3. Delanteros ............................................................................................................. 36 4.3.3.1. Extremos delanteros .......................................................................................... 36 5. Análisis de rendimiento en el fútbol profesional de Costa Rica ................................ 37 Capítulo II. Justificación ............................................................................................... 40 Capítulo III. Propósito ................................................................................................... 42 a. Objetivo General .............................................................................................................. 42 b. Objetivos Específicos........................................................................................................ 42 Capítulo IV. Metodología .............................................................................................. 43 a. Diseño .............................................................................................................................. 43 b. Participantes ..................................................................................................................... 43 c. Instrumentos de medición ................................................................................................. 45 d. Procedimientos ................................................................................................................. 46 e. Análisis estadístico ........................................................................................................... 47 1. Reducción de datos ....................................................................................................... 47 vii 2. Modelos de análisis ...................................................................................................... 47 3. Software de análisis estadístico ..................................................................................... 49 Capítulo V. Resultados .................................................................................................. 50 a. Estadística descriptiva ...................................................................................................... 50 b. Modelos de regresión por posición en el campo de juego .................................................. 50 c. Modelos de regresión logística por posición en el campo de juego .................................... 57 d. Modelos de árboles de decisiones ..................................................................................... 62 e. Modelos de bosques aleatorios.......................................................................................... 63 Capítulo VI. Discusión ................................................................................................... 67 Capítulo VII. Conclusión y Recomendaciones .............................................................. 99 Capítulo VIII. Referencias ........................................................................................... 104 Anexo 1. Variables del WiMu Pro ............................................................................... 115 Anexo 2. Variables del INSTAT Pro ........................................................................... 116 Anexo 3. Producción académica durante el programa de maestría ........................... 122 viii Resumen Propósito: El propósito del estudio fue identificar las variables que aumentan las posibilidades de ganar un partido y las variables que explican el rendimiento de futbolistas de un equipo de fútbol profesional costarricense, según la posición en el terreno de juego. Metodología: Se construyó un archivo de 1037 casos de jugadores con datos recopilados durante dos temporadas y se realizó un análisis con algoritmos de machine learning a partir del análisis de datos recolectados con registros semiautomáticos y tecnología inercial. Resultados: Para explicar el rendimiento de los futbolistas se construyeron modelos de regresión lineal múltiple que tuvieron valores predictivos de 0.67 para defensas centrales, 0.56 para defensas laterales, 0.71 para mediocampistas defensivos, 0.82 para extremos, de 0.80 para mediocampistas creativos, y 0.82 para centro delanteros. Las variables con mayor peso en la estimación fueron de naturaleza técnico-tácticas: goles y asistencias (defensas centrales, delanteros extremos y centro delanteros), tiros a portería (defensas centrales, mediocampistas creativos, y centro delanteros), disputas defensivas ganadas (defensas centrales y laterales), porcentaje de efectividad de los pases y disputas por arriba ganadas (laterales, mediocampistas ofensivos y extremos delanteros). En cuanto a la predicción de resultado, el método de bosques aleatorios permitió obtener mayor precisión en la estimación de la clasificación (AUC > 0.5) comparado con árboles de decisión. Las variables que explican mejor cuando se ganan los partidos fueron la máxima velocidad (todas las posiciones excepto los defensas centrales), el número de sprints (defensas centrales, laterales, mediocampistas ofensivos y centro delanteros), pases (defensa central y mediocampista ofensivo), la distancia recorrida a alta intensidad (defensas centrales y mediocampistas ofensivos), y la cantidad de metros por minuto recorridos (mediocampista defensivos, extremo delanteros, y centro delanteros). Conclusión: Los modelos estudiados fueron capaces de asignar una calificación a los jugadores según su posición en el campo e identificar las variables más asociadas con ganar los juegos. Palabras claves: análisis de partidos, monitoreo, fútbol, posición de juego, rendimiento físico. ix Abstract Purpose: The purpose of the study was to identify the variables that increase the chances of winning a game and the variables that explain the performance of soccer players from a Costa Rican professional soccer team, according to the position on the field. Methods: A file of 1037 player cases with data collected during two seasons was analyzed with machine learning algorithms based on data collected with semi-automatic records and inertial technology. Results: Multiple linear regression models explained the performance of the soccer players, which showed predictive values of 0.67 for central defenders, 0.56 for wing defenders, 0.71 for defensive midfielders, 0.82 for wingers, 0.80 for creative midfielders, and 0.82 for center forwards. The variables with the most significant weight in the estimation were technical-tactical: goals and assists (central defenders, extreme forwards, and center forwards), shots on goal (central defenders, creative midfielders, and center forwards), defensive disputes won (central defenders and full-backs), percentage of pass effectiveness and disputes over the top won (full-backs, attacking midfielders and forwards). Regarding the prediction of the result, the random forest method allowed for obtaining greater precision in the estimation of the classification (AUC > 0.5) compared to decision trees. The variables that best explain won games were maximum speed (all positions except central defenders), the number of sprints (central defenders, wings, attacking midfielders, and center forwards), passes (central defender and attacking midfielder), the distance covered at a high intensity (central defenders and attacking midfielders), and the number of meters per minute covered (defensive midfielders, wingers, and center forwards). Conclusion: The models studied assigned a rating to the players according to their position on the field and identified the variables most associated with winning games. Key words: match analysis, monitoring, soccer, playing position, physical performance x Lista de tablas Página Tabla 1. Estadística descriptiva de los jugadores por posición 50 Tabla 2. Variables del modelo de regresión lineal ajustado para defensas centrales 51 Tabla 3. Variables del modelo de regresión lineal ajustado para defensas laterales 52 Tabla 4. Variables del modelo de regresión lineal ajustado para mediocampistas defensivos 53 Tabla 5. Variables del modelo de regresión lineal ajustado para mediocampistas ofensivos 54 Tabla 6. Variables del modelo de regresión lineal ajustado para extremos delanteros 55 Tabla 7. Variables del modelo de regresión lineal ajustado para centros delanteros 56 Tabla 8. Variables significativas para el modelo de regresión logística para defensas centrales. 57 Tabla 9. Variables significativas para el modelo de regresión logística para defensas laterales. 58 Tabla 10. Variables significativas para el modelo de regresión logística para mediocampistas defensivos. 59 Tabla 11. Variables significativas para el modelo de regresión logística para mediocampistas ofensivos. 60 Tabla 12. Variables significativas para el modelo de regresión logística para extremos delanteros. 61 Tabla 13. Variables significativas para el modelo de regresión logística para centros delanteros. 62 Tabla 14. Indicadores del modelo de árboles de decisiones. 62 Tabla 15. Indicadores del modelo de bosques aleatorios. 63 xi Tabla 16. Síntesis de las variables que explican el rendimiento del futbolista en el juego según posición. 99 Tabla 17. Síntesis de las variables que aumentan las probabilidades de ganar un partido según la posición. 100 xii Lista de figuras Página Figura 1. Mapa conceptual del marco teórico 2 Figura 2. Frecuencia de los métodos y número total de métodos de análisis de datos utilizados por período de 5 años. 12 Figura 3. Ejemplo de algoritmo kNN para un k=3 16 Figura 4. Ejemplo de estructura básica de un árbol de decisión 17 Figura 5. Ejemplo de estructura de bosques aleatorios 18 Figura 6. Esquema de un hiperplano 19 Figura 7. Uso de la función Kernel 20 Figura 8. Figura de la función Sigmoide 21 Figura 9. Formación de juego más frecuentemente utilizada de equipo analizado 44 Figura 10. Variables más importantes para los defensas centrales 64 Figura 11. Variables más importantes para los defensas laterales 64 Figura 12. Variables más importantes para los mediocampistas defensivos 65 Figura 13. Variables más importantes para los mediocampistas ofensivos 65 Figura 14. Variables más importantes para los extremos delanteros 66 Figura 15. Variables más importantes para los centros delanteros 66 Figura 16. Ejemplo del cálculo del índice InStat PRO para un defensa lateral 70 xiii Lista de abreviaturas 3D: acrónimo de 3 dimensiones. Representación gráfica que emplea las tres dimensiones del espacio (alto, ancho y profundidad). A.R.: Análisis de rendimiento. Acc: aceleraciones. ANNs: “artificial neural network”, red neuronal artificial. CD: Centro delantero D(m): distancia recorrida en metros. DC: Defensa central Decc: número de desaceleraciones. DL: Defensa lateral DT: “Decision tree”, árbol de decisión. ED: Extremo delantero FIFA: Federación Internacional de Fútbol Asociado. GNSS: “Global navigation satellite system”, Sistema global de navegación por satélite. GPS: “Global positioning system”, Sistema de posicionamiento global. HMLd: Abreviatura de “High Metabolic Load Distance”, es la distancia en metros recorrida por un jugador cuando su potencia metabólica está por encima de 25.5 W/kg. HSRd “high-speed running distance”, distancia recorrida a velocidad superior a 21km/h. Hz: hercio o hertz. Representa un ciclo por cada segundo, entendiendo ciclo como la repetición de un suceso. MD: Mediocampista defensivo MEMs: “Micro-electrical mechanical systems”, Sistema microelectromecánico. ML: “Machine Learning” o aprendizaje de máquinas. MLB: Major League of Baseball. MLS: Major League of Soccer. MO: Mediocampista ofensivo NBA: National Basketball Association. NFL: National Football League. xiv OR: “odds ratio” razón de probabilidades PCA: “Principal component analysis”, Análisis de componentes principales. PLSCA: “Partial Least Squares Correlation Analysis”, Análisis de correlación de mínimos cuadrados parciales. SVM: “Support vector machine”, Máquina de soporte de vectores. WIMU: Wireless Inertial Measurement Units. 1 Capítulo I: Marco Teórico 1. Introducción El deporte ha visto en los últimos años una fuerte influencia de la ciencia que le ha permitido desarrollar atletas o deportistas con mejores rendimientos, metodologías de trabajo más completas y organizaciones cada vez más eficientes. Particularmente, el fútbol, al ser una especialidad que acapara a muchas personas (practicantes o seguidores) a nivel mundial, evidencia un gran interés en la producción de información científica. El desarrollo de la computación y la estadística han permitido obtener datos que son de interés en diferentes áreas. Por ejemplo, en el deporte, y en este caso el fútbol, los clubes y selecciones nacionales utilizan esta información para mejorar el rendimiento de sus jugadores, el estudio de sus rivales, la detección de talentos, o incluso a nivel de mercadeo para mejorar sus ganancias económicas. Los aficionados y la prensa utilizan los datos para analizar y debatir las actuaciones de los equipos o jugadores y los apostadores en cómo poder predecir un ganador antes de que comience un partido. Esto evidentemente ha convertido al fútbol en un deporte realmente competitivo y táctico, generando un gran desafío para entrenadores y analistas deportivos que deben conocer la realidad del deporte, sus demandas y las variables que puedan cambiar el curso del juego. La presente tesis tiene como objetivo principal determinar las variables que explican el rendimiento de un equipo masculino de fútbol costarricense durante la competencia, a partir del análisis de datos retrospectivos recolectados con tecnología inercial y datos técnico- tácticos referentes a estadísticas del partido según la posición del jugador. El poder detectar e identificar variables directamente relacionadas con la posibilidad de ganar un juego, permitiría optimizar la colocación del jugador dentro del campo de juego y favorecería la mejora de su progresión y rendimiento. Al hacer uso de tecnología novedosa para la recolección de información y recurrir a técnicas de análisis como el modelado predictivo con el fin de explicar el rendimiento del equipo, será necesario desarrollar en este capítulo, los avances que ha tenido el análisis de rendimiento en el deporte, desde el desarrollo tecnológico hasta la forma en cómo se analizan los datos. 2 Por lo tanto, en el siguiente marco teórico se conceptualizará el término análisis de rendimiento, se conocerá la evolución en los estudios en función del desarrollo de las herramientas para la recolección de los datos, y el gran aporte que hoy en día ofrece la inteligencia artificial y la minería de datos en el deporte, con sus métodos y técnicas estadísticas para lograr extraer información valiosa. Por último, se mencionará evidencia científica de los hallazgos en los análisis de la actividad del jugador de fútbol durante la competición, según la posición desde la dimensión física hasta la dimensión técnico-táctica (Figura 1). Figura 1. Mapa conceptual del marco teórico. Análisis de rendimiento deportivo (AR) Definición conceptual AR Evolución A.R. Desarrollo herramientas Inteligencia artificial Machine learning Modelos predictivos Análisis del jugador en competencia Rendimiento técnico-táctico Rendimiento físico 3 2. Análisis del rendimiento deportivo 2.1. Concepto de análisis del rendimiento deportivo El análisis del rendimiento (AR) tiene su propio espacio en las Ciencias del Deporte, y se puede definir como “la investigación sobre la actuación deportiva en situación de competición y entrenamiento” (O'Donoghue, 2010; Rein & Memmert, 2016). En otras palabras, el estudio no se basa en situaciones aisladas de laboratorio, sino que busca con modelos de análisis mejorar los procesos de entrenamiento y el control de la actividad competitiva, prescribiendo el rendimiento de jugadores y equipos con base en las características de la propia competición (O'Donoghue, 2010; Rein & Memmert, 2016). De esta manera, el AR tiene como objetivo identificar el desempeño, analizar los indicadores o variables claves del éxito (y el fracaso), además de presentar la información de una manera simple y concisa, de manera que el entrenador pueda implementar en la práctica estrategias efectivas de “coaching” para aumentar las posibilidades de éxito (Lord et al., 2020). Esta comprensión del juego es fundamental para tomar decisiones más objetivas y de esta forma contribuir a la diferenciación entre las opiniones y los hechos. Generalmente, en el deporte, los juicios de desempeño son propensos al sesgo al no permitir analizar razonablemente, ya que los resultados buenos se atribuyen a causas internas; por ejemplo, darse el propio mérito cuando se obtiene la victoria y cuando los resultados negativos se adjudican a causas externas; es decir, negando la responsabilidad por los malos resultados, lo cual presumiblemente ocurre para mejorar o proteger la autoestima (Mark et al., 1984). Se ha demostrado que los entrenadores son incapaces de recordar eventos de manera confiable durante un partido y que sólo pueden retener en la memoria un 30-40% de la información (Franks & Miller, 1991). Es un dato interesante que evidencia la necesidad por abarcar un área del estudio en el deporte que en los últimos años ha estado en pleno desarrollo. La comprensión de los indicadores de rendimiento no solo podría ayudar en el proceso de toma de decisiones de los entrenadores y jugadores con respecto al entrenamiento y la preparación del juego, sino también a otras partes interesadas relacionadas con el equipo, como por ejemplo la visoría (i.e., “scouting”) y a la propia administración, para evaluar correctamente el rendimiento del equipo y de los jugadores. 4 2.2. Evolución del análisis del rendimiento deportivo El AR deportivo ha estado en los últimos años en crecimiento y constante desarrollo. Para conocer la realidad actual es necesario documentar la evolución que ha tenido a través del tiempo y así comprender los aprendizajes históricos e identificar los métodos más actuales. Sarmento et al. (2014), indican que se tiene documentado que el primer trabajo en esta área de investigación se llevó a cabo en 1910 por Hugh Fullerton en beisbol, y posteriormente la investigación científica fue mínima durante las siguientes décadas. Esta producción no sistemática y prolongada hasta principios de la década de 1990, pudo deberse a la escasez de manuales teóricos y metodológicos, así como la dispersión de la producción científica en revistas de carácter generalista. En la década de los 90´s ocurre un crecimiento fuerte en esta área, ya que se crearon sociedades científicas internacionales (e.g., Society of Performance Analysis of Sport), la edición de revistas científicas especializadas (e.g., Revista de Análisis del Rendimiento en el Deporte; Diario de Análisis Cuantitativo en el Deporte) y la constitución de departamentos de investigación en las unidades de educación superior, por lo que el AR pasó a ocupar un importante lugar en la producción científica en el área de las ciencias del deporte (Sarmento et al., 2014). De hecho, en la última década, se ha comprobado un aumento sustancial en el número de publicaciones dirigidas en deportes colectivos (Lord et al., 2020) y una aplicación cada vez más fuerte de este conocimiento generado. Hoy en día muchas instituciones deportivas han incorporado dentro de su organización un departamento de análisis de datos, o al menos una persona especializada en esta área. Isson (2018), citado por Moncada-Jiménez et al. (2021), menciona que, en Estados Unidos, la gran mayoría de equipos profesionales cuentan con esta figura. Por ejemplo, disciplinas deportivas como el fútbol americano (National Football League, NFL) un 56% de los equipos poseen su analista de rendimiento; en el baloncesto (National Basketball Association, NBA) cerca del 80%; y en el beisbol (Major League of Baseball, MLB) prácticamente todos sus equipos lo poseen (97%). En el fútbol, Moncada-Jiménez et al. (2021), refieren a la información publicada en el sitio web de la Major League of Soccer (MLS) (Major League of Soccer, 2019), donde destacan que aproximadamente 58% de los equipos poseen personal técnico especializado. 5 Dos aspectos pueden explicar muy bien la evolución que ha tenido esta ciencia. Primero, el uso de técnicas y herramientas sofisticadas para la recolecta de datos, y segundo, el enfoque metodológico que han utilizado los estudios. A continuación, se hará un repaso de algunas técnicas e instrumentos novedosos que están siendo utilizados en el AR deportivo, ya que aportan una gran cantidad de información clave para comprender los fenómenos que ocurren durante el entrenamiento y durante la competición. 2.3. Uso de técnicas y herramientas para la recolección de datos Las innovaciones tecnológicas han permitido una mayor disponibilidad de diferentes indicadores de desempeño. Un indicador de desempeño es una selección o combinación de variables de acción que tienen como objetivo definir algunos o todos los aspectos del desempeño, y pueden usarse para evaluar el desempeño de un individuo, un equipo o los elementos de un equipo (Geurkink et al., 2021). En la última década, los científicos han encontrado indicadores de rendimiento colectivo que obedecen a avances en las herramientas tecnológicas, a través de sistemas de seguimiento basados en análisis de video del movimiento de los atletas y la tecnología inercial. Estos avances en las técnicas de registro, están muy bien explicados en el estudio de Castellano Paulis y Casamichana Gómez (2014a), quienes categorizan el proceso de codificación y registro de los datos según la intervención humana. De esta forma, ubican 3 grandes técnicas: a) registro manual, b) registro semiautomático, y c) registro automático. 2.3.1. La técnica de registro “manual”. La técnica más común y sencilla se le denomina “papel y lápiz”. Los primeros estudios la utilizaban y consistía, por ejemplo, en ir registrando los desplazamientos y las acciones de los jugadores, empleando una hoja de anotación cuadriculada de un campo de fútbol con cuadrados a una escala milimétrica (escala 1:400) durante ciertos periodos de tiempo del partido. Las posiciones de los jugadores en el campo y las distancias recorridas por los mismos, se estimaban utilizando las medidas y marcas del campo, de manera que se sumaban los cuadros que había completado cada jugador (Castellano Paulis & Casamichana Gómez, 2014a). También se utilizaba para medir acciones básicas del juego como pases o tiros a puerta (Reep & Benjamin, 1968). 6 Más adelante, se combinó esta técnica con el uso de grabadoras de audio y consistía en verbalizar en una cinta magnetofónica los desplazamientos o movimientos que los jugadores realizaban. Reilly (1975), estimó distancias recorridas de acuerdo con la posición del jugador dentro del campo e identificaron cerca de 9000 actividades de movimiento durante un partido de fútbol con jugadores de la primera división inglesa. Además, lograron validar e idear un análisis de movimiento para la cuantificación de la tasa de trabajo. Posteriormente, la computación ofreció una posibilidad aún más sencilla, ya que, a través de aplicaciones informáticas, se logra realizar observaciones en el lugar o a través del video, mejorando la calidad del dato registrado y aumentando el número de parámetros medidos. Inicialmente, esta técnica se llevaba a cabo mediante el teclado más común llamado QWERTY (i.e., el teclado común en las computadoras), en donde las teclas se programaban para que al pulsarlas registraran un código determinado, por lo que facilitaba la introducción de los datos y el proceso era aún más veloz. Luego apareció también el uso del “mouse”, y las tabletas digitalizadoras, que han ofrecido la posibilidad de ubicar las acciones en el espacio, aumentando así la precisión en el dato (Castellano Paulis & Casamichana Gómez, 2014a). Esta técnica es de bajo costo, pero requiere de arduo trabajo (i.e., tiempo invertido en anotar) y puede propiciar errores humanos al introducir datos, pues se basa en las habilidades de los observadores que requieren un largo periodo de entrenamiento para obtener y analizar los datos de forma confiable (Hughes & Franks, 2004). Además, podría presentar algunos problemas para la codificación de cierto tipo de variables no directamente observables, como, por ejemplo, las velocidades o aceleraciones (Castellano Paulis & Casamichana Gómez, 2014a). 2.3.2. Técnica de registro semiautomática La técnica de registro semiautomática utiliza el rastreo de imágenes de video (“video tracking”) para dar seguimiento a los desplazamientos de los jugadores por medio de un programa o software que permite hacerlo de manera semiautomática, y no necesita equipar al ejecutante con ningún tipo de instrumento (Bastida Castillo et al., 2018; Sarmento et al., 2014). Esta técnica proporciona información de tiempo-movimiento (e.g. balón, jugadores y árbitros), y cuantifican de forma indirecta valores físicos (Bastida Castillo et al., 2018). 7 De esta manera, se han estudiado los desplazamientos de los jugadores profesionales durante el juego (e.g., caminar, trotar, correr, carrera a alta velocidad) (Dellal et al., 2011; Rampinini, Bishop, et al., 2007; Vigne et al., 2010) y también indicadores de rendimiento técnico-táctico (e.g., pases, tiros, expectativa de gol, posesión de balón en zona de ataque, estilos de juego) (Bush et al., 2015; Geurkink et al., 2021; Konefał, Chmura, et al., 2019a). Dentro de los primeros estudios que utilizaron esta técnica, destaca el de Van Gool et al. (1988), citado por Castellano Paulis y Casamichana Gómez (2014a), realizado a finales de los años 80, en el que filmaron un partido amistoso de fútbol en película de cine de 16 mm con una frecuencia de grabación de 5 Hz (i.e., 5 imágenes por segundo) para digitalizar posteriormente los movimientos de todos los jugadores con el fin de encontrar la respuesta de la carga fisiológica demandada durante la competencia. Hoy en día esta técnica de registro se ha comercializado y es posible acceder a la información de video tracking de jugadores, ligas y campeonatos a nivel mundial, a través de membresías o licencias. En los últimos años, han destacado las compañías Amisco® (francesa), ProZone® y Venatrackᵀᴹ (inglesas), Tracab® (Suiza), Verusco® (Nueva Zelanda), Wyscout (Italia), e Instat (Rusia) (Arjol-Serrano et al., 2021; Redwood-Brown et al., 2012). Sin embargo, los reportes de los juegos no son inmediatos ya que se generan de 24 a 36 horas después de la finalización de los partidos (Castellano Paulis & Casamichana Gómez, 2014a). Estos sistemas de medición semiautomáticos son sofisticados y de un elevado costo, ya que, en la mayoría de los casos, necesitan de una instalación fija de cámaras y de personal para el tratamiento de la información. Requieren la introducción de datos de forma “manual”, y debe verificarse continuamente si los jugadores son correctamente monitoreados por el programa informático e incluir las coordenadas cuando el sistema no haya sido capaz de hacerlo por sí mismo. El sistema debe ser calibrado en términos de altura, longitud y anchura, para que el estadio y el campo sean transformados a un modelo bidimensional (2D) y así poder calcular la posición de los deportistas en un sistema de coordenadas (x, y) durante el partido, reconstruyendo los movimientos de los jugadores (Carling, 2001; Castellano Paulis & Casamichana Gómez, 2014a). 8 Al ser las imágenes de video una fuente de recopilación de información, la cantidad de luz puede limitar el registro, pero también algunas métricas no son posibles de valorar o medir ante la perspectiva o ubicación de la cámara (Bastida Castillo et al., 2018; Castellano Paulis & Casamichana Gómez, 2014a). Así, puede ocurrir un “bloqueo visual”, lo que hace que el sistema pierda el rastro de algunos movimientos. Por ejemplo, cuando los jugadores se juntan en una pequeña zona del campo al mismo tiempo, se “tapan” unos a otros lo cual “confunde” el sistema de rastreo. A este fenómeno se le llama oclusión, e implica la necesidad de agregar una etapa de corrección manual ya que las plataformas informáticas por sí mismas no logran resolverlo. Las oclusiones son problemas que deben resolver los programadores especializados en el rastreo de imágenes. 2.3.3. Técnica de registro automática Actualmente, la digitalización es llevada a cabo en directo y en tiempo real, sin necesidad de personal que realice el registro de forma manual, automatizando el proceso, gracias a la innovación de sistemas micro tecnológicos (Bastida Castillo et al., 2018). La información se obtiene a través de pequeños dispositivos de poco peso, que son fáciles de transportar en la prenda, con una capacidad para medir y grabar una amplia cantidad de variables biométricas del deportista (Moncada-Jiménez et al., 2021). Estos datos se transfieren en tiempo real a través de una antena conectada a una computadora portátil o a una estación de trabajo. Estos dispositivos utilizan la tecnología inercial ya que incorporan receptores de posicionamiento que son alimentados a través de sistemas locales (uso de antenas especiales) o del Sistema Global de Navegación por Satélite o GNSS (“Global Navigation Satellite System” por sus siglas en inglés). El sistema de posicionamiento local o LPS (“Local Position System”, por sus siglas en inglés), dispone de un alto número de mediciones y exactitud de los datos recopilados en tiempo real. Además, cuenta con tecnología de banda ultra ancha que reduce interferencias en la vía de transmisión. Su desventaja principal es que necesita de una instalación fija de antenas que implica gastos económicos de instalación y de tiempo. El GNSS es una red de satélites que transmite rangos de señales en cualquier parte del globo terrestre, que permiten a través del receptor, proporcionar información sobre la posición, la hora, la velocidad y la dirección a la que se mueve un objeto, las 24 horas del día 9 y en todas las condiciones climáticas (Castellano Paulis & Casamichana Gómez, 2014b). Está compuesto por dos sistemas de navegación diferentes: el Sistema de Posicionamiento Global (GPS, por sus siglas en inglés) de los Estados Unidos y el Sistema Orbital Mundial de Navegación por Satélite (GLONASS, por sus siglas en inglés) de la Federación Rusa. La red GPS es más comúnmente utilizada ya que está disponible gratuitamente sin cargo ni restricción. El sistema fue diseñado por el departamento de defensa de los Estados Unidos con fines militares, y opera desde 1995. Este sistema está compuesto por 27 satélites en órbita a 11000 millas náuticas alrededor del planeta en seis trayectorias diferentes, cada una de las cuales realiza una revolución en 12 horas, dando una cobertura continua; es decir, hasta ocho satélites accesibles desde cualquier punto de la Tierra (Castellano Paulis & Casamichana Gómez, 2014b). Sin embargo, pueden presentar algunas limitaciones que deben ser analizadas, y controladas, para garantizar una buena calidad del dato, por ejemplo, las interferencias en la señal de los satélites por estructuras altas (e.g., edificios, techos cercanos al terreno de juego), la refracción atmosférica, el número de satélites disponible para el receptor (mínimo cuatro satélites) y la geometría de disposición de los satélites entre sí y el receptor que afecta la calidad de triangulación de posición (Castellano Paulis & Casamichana Gómez, 2014b; Springham et al., 2020; Witte & Wilson, 2004). Ambos sistemas permiten cuantificar las variables de movimiento de los jugadores referente a la distancia total y relativa recorrida en diferentes zonas de velocidad, velocidad máxima y aceleraciones (Andrzejewski et al., 2018; Malone et al., 2018; Springham et al., 2020). Los dispositivos inerciales también incorporan Sistemas Microelectromecánicos o MEMS, que cuentan con sensores inerciales como el acelerómetro, el giróscopo y el magnetómetro, que han sido utilizados recientemente con éxito en el deporte (Andrzejewski et al., 2018; Malone et al., 2018; Springham et al., 2020). Estos sensores permiten grabar valores sobre impactos y cargas, aceleraciones y cambios de dirección; los cuales son característicos de los deportes intermitentes como el fútbol (Castellano Paulis & Casamichana Gómez, 2014b; Jaspers et al., 2018). Incluso es posible obtener otras mediciones como la altura, la frecuencia cardíaca (portando una banda torácica) y el costo metabólico o gasto energético de las acciones del 10 jugador, monitorizando así la demanda energética de la actividad desarrollada (Osgnach et al., 2010). De esta manera, la cantidad de variables que se obtienen por atleta son muy grandes, incluso superiores a las 120 (Moncada-Jiménez et al., 2021). En cuanto a los informes de métricas derivadas de estos sistemas de seguimiento se pueden realizar de varias maneras (Torres-Ronda et al., 2022): a. Valores absolutos: describen métricas por todo el partido, o duración de la actividad deportiva (e.g., total de distancia recorrida durante el partido). b. Duraciones temporales: estratificando los partidos o entrenamientos por períodos basados en duraciones temporales (e.g., cada 5 o 10 min) para capturar la fluctuación en la carga externa a lo largo del partido o las características de máxima exigencia, llamadas “peor escenario posible”. c. Promedios segmentarios: que muestran el promedio de un valor durante un determinado tiempo (e.g., el enfoque de media móvil o “moving average”). d. Datos normalizados: Por ejemplo, clasificar por fases de juego: ataque y defensa o por posesión del balón. Se mencionada que es tarea de los profesionales e investigadores considerar el más adecuado sistema de medición de acuerdo al deporte específico, el entorno y la aplicación prevista de los datos (Torres-Ronda et al., 2022). El desarrollo de la técnica automática ha reportado en la literatura una gran confiabilidad y validez ya que permite una medición de patrones de movimiento muy propios de la actividad del fútbol como cambios de dirección o actividades de alta intensidad (Rampinini et al., 2015; Scott et al., 2016), aceleraciones (Akenhead et al., 2016), desaceleraciones y actividades de alta velocidad (Tierney et al., 2016), sprints de 10-30 m e incluso velocidades mayores a 30 km/h (Muyor et al., 2018), obteniendo muy buenos resultados. La Federación Internacional de Fútbol Asociado (FIFA), en el año 2015 estableció dentro del reglamento de juego permitir el uso en partidos competitivos de los dispositivos de seguimiento inercial (Tierney et al., 2016), lo que ha generado un significativo aumento en la cantidad de investigaciones llevadas a cabo con esta tecnología. Esto se ha visto 11 reflejado en la base de datos PUBMED, que pasó de 3 a 136 artículos publicados por año entre 2001 y 2018 (Malone et al., 2020). Por lo tanto, la implementación cada vez más desarrollada de las herramientas para el AR, brindan la posibilidad de encontrar variables innovadoras que permiten abrir nuevos horizontes. La facilidad con la que se recolectan los datos y la gran cantidad de información que generan estos dispositivos, no permitirían análisis estadísticos tradicionales, por lo que ha existido una necesidad de crear métodos o enfoques metodológicos de análisis más completos (García-Aliaga et al., 2021; Lord et al., 2020). 2.3.4. Desarrollo enfoques metodológicos en el análisis de rendimiento deportivo En el año 2011, en una revisión de literatura publicada en la Revista Portuguesa de Ciencias del Deporte, Marcelino et al. (2011) muestran un análisis cronológico, categorizando los estudios y sistematizando las tendencias evolutivas, en tres distintos apartados. Primero, encontraron estudios predominantemente descriptivos, que concluían en datos globales de rendimiento, “sin mayor esfuerzo de contextualización” con el objetivo principal de identificar, describir y caracterizar patrones de movimiento, sobre todo en deportes de invasión como el fútbol, el hockey, el waterpolo y el rugby. Posteriormente, aparecieron estudios de carácter comparativo, donde se analizaban distintas variables según la posición de los jugadores en el campo, el nivel competitivo, la diferencia de puntuación o la diferencia en el género. También se enfocaron en considerar variables situacionales con el fin de comprender los momentos críticos del juego, tomando en cuenta el tiempo del partido y la evolución del rendimiento durante el mismo, asociándolos con factores contextuales como la localización del partido, el tipo de competición, los oponentes (i.e., débiles o fuertes), o el tipo de partido, entre otros (Lago-Peñas et al., 2010; Lago-Peñas et al., 2011; Taylor et al., 2008). Esto representó un avance significativo ya que supuso una comprensión del juego y dio luz sobre la importancia del entrenamiento específico. Sin embargo, aún estos análisis no lograban explicar ni predecir el rendimiento deportivo. Es en la última década que se inicia una fuerte tendencia en los estudios relacionados con la predicción de resultados, buscando un cambio de paradigma en cuanto a la forma de analizar y comprender los fenómenos deportivos, la variabilidad y la inestabilidad del juego, 12 considerando de forma más sistemática la influencia de las variables situacionales en el rendimiento deportivo (Lord et al., 2020; Marcelino et al., 2011; Sarmento et al., 2014). Este aumento significativo en los estudios de tipo predictivo, es evidenciado en el estudio de Lord et al. (2020), quienes analizaron la evolución de las técnicas de análisis de rendimiento a lo largo del tiempo (1997 a 2019), identificando los métodos utilizados y la frecuencia con la que fueron empleados (Figura 2). Los investigadores destacan los estudios que utilizan el análisis inferencial (i.e., diferencias entre el desempeño exitoso y el menos exitoso) como el método más utilizado en el área del AR deportivo y demuestran un predominio de estudios de tipo descriptivo en los primeros dos períodos observados (1997- 2000 y 2001-2005). Figura 2. Frecuencia de los métodos de análisis de datos utilizados mostrados en líneas y el número total de métodos de análisis de datos mostrados en columnas por quinquenios (Lord et al., 2020). Posteriormente, en los siguientes quinquenios (2006-2010, 2010-2015 y 2016-2019) se observó un aumento sustancial en la frecuencia de estudios que utilizaron el método predictivo, siendo aún más evidente en el período comprendido entre el 2016 y 2019. Esto 13 obedece a un cambio en la estrategia de descubrir conocimiento a través del aporte de una nueva herramienta dentro de la ciencia de datos, conocida como inteligencia artificial (García-Aliaga et al., 2021). En el próximo capítulo se abordan algunas técnicas estadísticas y computacionales de la inteligencia artificial que han sido utilizadas en el deporte para el análisis de grandes volúmenes de datos. 3. Inteligencia artificial 3.1. Concepto de inteligencia artificial De acuerdo con García-Aliaga et al. (2021), la inteligencia artificial “… es una expansión de la inteligencia humana que consiste en aprovechar las capacidad computacionales de las máquinas para apoyar a los humanos en sus actividades” (p. 49). Por su parte, Kaplan y Haenlein (2020) la definen como “la capacidad de un sistema para interpretar correctamente datos externos, aprender de dichos datos y emplear esos conocimientos para lograr tareas y metas concretas a través de la adaptación flexible” (p. 40). Es través de la inteligencia artificial que las computadoras aprenden, conforme se genera una mayor calidad y cantidad de datos, paralelamente se obtiene un aumento continuo y exponencial del poder de procesamiento, que para el ser humano es imposible realizar. Por esta razón ha tenido una atención considerable en la sociedad en general, debido a la inminente necesidad de transformar estos altos volúmenes de datos en conocimientos útiles. La solución a estos altos volúmenes y combinación de varias fuentes de datos puede presentarse a través del reciente auge de las tecnologías de macrodatos o Big data (en inglés). El término Big data, aún no tiene una definición universalmente acordada y se describe más bien por las características que posee (Rein & Memmert, 2016): a) volumen, b) variedad, y c) velocidad. El volumen describe la magnitud de los datos (e.g., 400 gigabytes de datos de seguimiento en una sola temporada), la variedad se refiere a la heterogeneidad de los datos (e.g., posición, estado físico, entrenamiento, datos de video) y la velocidad, al patrón de procesamiento que caracteriza la tasa de producción de datos. La minería de datos requiere de operaciones que deben ser analizadas por un estadístico, o quien conozca no solo los conceptos sino también sepa interpretar los datos cuando existen cambios (Bouza & Santiago, 2012). Por ello, se requiere de una interacción 14 entre las áreas de computación, estadística y del área donde se aplica a través de los expertos, para una correcta depuración de los datos y así lograr hacer una buena interpretación y contextualización de los resultados (Blei & Smyth, 2017). Los profesionales han desarrollado métodos o enfoques estadísticos que detectan patrones en los datos y utilizan patrones descubiertos para predecir datos futuros o facilitar la toma de decisiones en entornos con incertidumbre; por ejemplo, el aprendizaje de máquinas o “machine learning” (ML) (Murphy, 2012). Los métodos del aprendizaje automático han demostrado su eficacia en la medición de varios deportes colectivos (Claudino et al., 2019; Lord et al., 2020) ya que se han realizado una gran cantidad de estudios de predicción o modelado en la predicción de lesiones (López- Valenciano et al., 2020; Rossi et al., 2018), la predicción del rendimiento (Memmert et al., 2017; Tierney et al., 2016), la carga (Jaspers et al., 2018; Springham et al., 2020) o para caracterizar el efecto de una variable sobre la probabilidad de éxito (Cintia et al., 2015; Geurkink et al., 2021; Groll et al., 2018). Esto, evidentemente genera una ventaja competitiva, ya que ayuda a los profesionales que trabajan en la optimización del entrenamiento y en las estrategias de competición (Moncada-Jiménez et al., 2021). 3.2. Aprendizaje automático El aprendizaje automático o ML es considerado un subcampo de las ciencias de la computación y una rama de la inteligencia artificial, cuyo objetivo es desarrollar sistemas computacionales diseñados con el propósito de aprender y adaptarse a partir de los datos, sin la necesidad de programar explícitamente el nuevo conocimiento adquirido. De esta forma, se crean códigos para que la computadora comprenda qué es lo que se quiere transmitir. Estos códigos se generan a partir de algoritmos, que son un conjunto ordenado de operaciones sistemáticas que tratan, a partir de cálculos, encontrar respuesta a problemas. Existen dos modalidades de algoritmos: a) aprendizaje supervisado y b) aprendizaje no supervisado (e.g., agrupación) (Claudino et al., 2019). 3.2.1. Aprendizaje supervisado En este tipo de técnica, se requieren datos de entrada y de salida para desarrollar un modelo predictivo, de forma tal que el algoritmo se entrena al otorgarle las preguntas (denominadas características) y las respuestas (denominadas etiquetas). Esto se hace con la finalidad de que el algoritmo las combine y pueda hacer predicciones. Algunas técnicas de https://es.wikipedia.org/wiki/Ciencias_de_la_computaci%C3%B3n https://es.wikipedia.org/wiki/Ciencias_de_la_computaci%C3%B3n https://es.wikipedia.org/wiki/Inteligencia_artificial 15 aprendizaje supervisado más populares en el análisis de rendimiento deportivo se describen a continuación. 3.2.1.1.Aprendizaje supervisado de clasificación Una de las tareas comunes de aprendizaje automático, que implica predecir una variable de destino en datos nunca antes vistos, es la clasificación. El objetivo de la clasificación es predecir una variable objetivo (clase) mediante la construcción de un modelo de clasificación basado en un conjunto de datos de entrenamiento y luego utilizar ese modelo para predecir el valor de la clase de datos de prueba (Bunker & Thabtah, 2019). A continuación, se mencionarán algunas técnicas de clasificación. 3.2.1.1.1. k vecinos más cercanos El algoritmo k vecinos más cercanos o kNN (“k-Nearest Neighbor” por sus siglas en inglés), es un algoritmo de clasificación más básico y esencial en el ML. Es un tipo de aprendizaje basado en instancias o aprendizaje perezoso, en el que la función sólo se aproxima localmente y todo el cálculo se difiere hasta la clasificación. Utiliza un método no paramétrico, o sea que no realiza suposiciones acerca de la distribución de los datos (Moncada-Jiménez et al., 2021). En un esquema común de ponderación consiste en dar a cada vecino un peso de 1/d, donde d es la distancia al vecino, de modo que los vecinos más cercanos contribuyan más al promedio que los más distantes (Claudino et al., 2019). De esta forma memoriza la hoja de datos que posteriormente se utiliza como conocimiento para la fase de predicción. En el ejemplo de la figura 3, para clasificar un objeto nuevo (signo de pregunta), con k= 3 vecinos, los vecinos más cercanos serían 2 de la clase R (roja) y uno de la clase A (azul). Por mayoría, el objeto se clasifica como clase R. 16 Figura 3. Ejemplo de algoritmo kNN para un k=3 (Paredes-Inilupu, 2020). La técnica ha sido utilizada, por ejemplo, para predecir el resultado de los juegos de acuerdo a la localía del partido a través de indicadores de rendimiento (basados en el comportamiento colectivo de los pases y en función del historial de actuaciones) de los equipos en la Bundesliga de Alemania, encontrando una precisión del 80% de las victorias del equipo local, del 60% de las victorias del equipo visitante y un 20% de los empates (Cintia et al., 2015). 3.2.1.1.2. Árboles de decisión Los árboles de decisión o “decision tree” (DT), pertenecen al enfoque de programación “divide y vencerás”, el cual es utilizado en inteligencia artificial para la toma de decisiones (Rokach & Maimon, 2007). El DT permite la representación gráfica de una serie de reglas sobre las decisiones tomadas para asignar un valor de salida a una determinada entrada. Su estructura es similar a un diagrama de flujo (Figura 4), donde un nodo representa una característica o atributo, la rama representa una regla de decisión y cada nodo u hoja representa el resultado, de forma tal que se divide el conjunto de datos en subconjuntos más pequeños. Así, se va construyendo el árbol, repitiendo el proceso recursivamente para cada atributo, hasta que todas las variables pertenezcan al mismo valor del atributo (Gervilla García & Palmer Pol, 2009). 17 Figura 4. Ejemplo de estructura básica de un árbol de decisión En la figura 4, se pueden distinguir 3 tipos de nodos: a) el nodo raíz, que significa el conjunto de datos que se dividirán, b) el nodo intermedio, que se encarga de dividir los datos en dos grupos, y c) el nodo terminal, que no se divide más y es donde recae la decisión final. La profundidad tiene que ver con el número máximo de nodos de una rama. Esta condición le permite al modelo ser de gran comprensión para usuarios ajenos a la minería de datos, ya que es fácil visualizar e interpretar. Entre sus desventajas se puede destacar que los datos sensibles al ruido y una pequeña variación en los datos puede dar lugar a un árbol de decisión diferente. Según el estudio de Claudino et al. (2019), este algoritmo ha sido muy utilizado para predecir el rendimiento y el riesgo de lesiones en los deportes colectivos como fútbol, fútbol americano, volibol, baloncesto, y beisbol, entre otros. Por ejemplo, Rossi et al. (2018), proponen un enfoque multidimensional totalmente basado en datos de GPS recopilados automáticamente para medir la carga de entrenamiento y ofrecer un pronosticador de lesiones preciso e interpretable, brindando un manual simple de reglas para evaluar e interpretar la compleja relación entre el riesgo de lesiones y la carga de entrenamiento. 3.2.1.1.3. Bosques aleatorios Medina Merino y Ñique Chacón (2017) comparan el siguiente algoritmo como una extensión de los árboles de clasificación. El algoritmo de bosques aleatorios o “Random 18 Forest” surge como la agrupación de varios árboles de clasificación; cuantos más árboles tenga, más robusto es el bosque. Básicamente selecciona de manera aleatoria una cantidad de variables con las cuales se construye cada uno de los árboles individuales. Las predicciones serán ponderadas a través del cálculo de la clase más votada de los árboles que se generaron, para finalmente hacer la predicción por bosques aleatorios (Figura 5). Este proceso reduce la tendencia al sobreajuste y la varianza en comparación con los árboles de decisión regulares y, por lo tanto, es una poderosa herramienta para la predicción (Groll et al., 2018). Estos investigadores compararon tres enfoques de modelado diferentes: a) bosques aleatorios, b) modelos de regresión de Poisson, y c) métodos de clasificación. Su propósito era clasificar los resultados de partidos en fútbol con respecto a sus desempeños predictivos basados en todos los partidos disputados durante las Copa Mundiales de FIFA 2002, 2006, 2010 y 2014, encontrando que el método de mayor desempeño fue bosques aleatorios y que al incorporar parámetros de habilidad del equipo como una covariable adicional el poder predictivo aumentó significativamente. Figura 5. Ejemplo de estructura de bosques aleatorios. El modelo también fue aplicado durante la Copa Mundial de FIFA 2018 y según las simulaciones, España y Alemania (Campeón Mundial en la edición) resultaron ser los máximos favoritos para ganar el título. 19 Eryarsoy y Delen (2019) concluyeron en su estudio que el mejor rendimiento para la predicción, según el análisis de sensibilidad y precisión lo brindó el Random Forest, entre otros métodos utilizados (e.g. kNN o máquina de soporte de vectores), alcanzado una precisión de 76% en la clasificación según el resultado del partido (ganar/empatar/perder) y de un 86% en la clasificación según los puntos logrados (puntos/no puntos) durante un estudio longitudinal de 10 años (2007-2017) en la Superliga de Turquía. Entre las variables más importantes destacaron el porcentaje de puntos posibles ganados, la clasificación actual en la liga, y la consistencia del equipo en la liga durante todo este período, al igual que la consistencia en la formación de juego durante la temporada. 3.2.1.1.4. La máquina de soporte de vectores La máquina de soporte de vectores (SVM), se utiliza normalmente para el reconocimiento de patrones, la clasificación y análisis (Burges, 1998). Es un clasificador discriminativo definido formalmente por una línea de separación llamada hiperplano. En un espacio bidimensional, este hiperplano es una línea que divide al plano en dos partes en las que cada clase se encuentran a cada lado (Figura 6). Figura 6. Esquema de un hiperplano (Martinez, 2019). Los vectores de soporte son los puntos de datos más cercanos al hiperplano. La distancia entre la línea y los vectores de soporte se conoce como margen. A mayor margen, mejor clasificación. Ahora bien, puede ser que los datos se encuentren mezclados entre las Margen máximo Vector de soporte Vector de soporte 20 clases y no es posible separarlos con una línea por lo que proyecta los datos a un nuevo eje, a partir de una función llamada kernel (Figura 7). Figura 7. Uso de la función kernel (Martinez, 2019). Eggels et al. (2016), utilizaron SVM con la función kernel, para explicar los resultados de los partidos de fútbol a partir de la evaluación objetiva de la calidad y cantidad de oportunidades de gol por jugador y logran tener una buena estimación de predicción. El estudio presenta la ventaja de que conduce a información sobre el accionar del jugador para realizar ajustes en su preparación o incluso en la adquisición de nuevos jugadores. Otro estudio en el que utilizaron SVM y que llama la atención por su alta precisión de predicción (> 90%) fue desarrollado por Gu et al. (2019) en juegos de hockey. Esta técnica confirmó la idoneidad del conjunto de variables elegidos para la predicción del juego y clasificó a partir del desempeño histórico como entrada. Según los autores se logró validar el uso de las 19 métricas “verdaderas” en el entrenamiento, entre las que destacaron los goles, asistencias, % de intentos de tiros (i.e., al arco, fallados o bloqueados), entre otras. 3.2.1.2.Aprendizaje supervisado de regresión El aprendizaje supervisado de regresión es un subcampo del aprendizaje supervisado cuyo objetivo es establecer un método para la relación entre un cierto número de características y una variable continua. En el deporte, destacan las técnicas de análisis estadístico como la regresión logística, y la regresión múltiple. 21 3.2.1.2.1. Regresión logística Es uno de los algoritmos de ML más simples y más utilizados para la clasificación de dos clases. Utiliza una función sigmoide, que se representa en una curva en forma de “S” que puede tomar cualquier número de valor real y asignar a un valor entre 0 a 1 (Figura 8). Si la salida de la función sigmoide es > 0.5; es decir, su punto de inflexión, se puede clasificar el resultado como 1, pero si es < 0.5 se clasifica el resultado como 0. Si el resultado es, por ejemplo, 0.75, se puede afirmar en términos de probabilidad de que hay un 75% de probabilidad de que suceda el evento. Figura 8. Función sigmoide. La regresión logística difiere de la lineal al proporcionar una salida discreta y no continua como en el caso de la lineal. Taylor et al. (2008), utilizaron la regresión logística para desarrollar un modelo que evalúa la frecuencia de las actividades técnicas con el balón realizadas por un equipo profesional de fútbol británico en función de la ubicación del partido y la calidad de la oposición con base en el resultado del partido. Enfatizan en la necesidad de que los analistas y entrenadores consideren los posibles efectos independientes e interactivos de la ubicación del partido, la calidad de la oposición y el estado del partido al evaluar los componentes técnicos del rendimiento futbolístico. 22 3.2.1.2.2. Regresión lineal múltiple Otros modelos de regresión se han utilizado en el deporte como por ejemplo el modelo de regresión múltiple y es definido por Boada y Mayorca (2011) como un procedimiento poderoso y flexible, utilizado principalmente para analizar las relaciones de asociación entre una variable dependiente métrica y una o más variables independientes o con multicolinealidad reducida. La multicolinealidad es un problema por la gran cantidad de datos derivados y necesita ser controlada para evitar conclusiones erróneas (Springham et al., 2020). 3.2.1.2.3. Regresión por componentes de mínimos cuadrados parciales La técnica de regresión por componentes de mínimos cuadrados parciales o PLSCA (“por sus siglas en inglés, Partial Least Squares Correlation Analysis”) también ha demostrado solución al problema de multicolinealidad en la regresión múltiple (Weaving et al., 2019). Este modelo ha logrado, por ejemplo, identificar con éxito las variables predictoras para el desarrollo de la “aptitud” en jugadores de rugby profesionales en los índices de carga de entrenamiento. Springham et al. (2020) también lograron identificar variables predictoras del rendimiento físico en partidos, utilizando el algoritmo de métodos multivariantes con selección de variable imparcial (“MUVR”). Este algoritmo es destinado a encontrar asociaciones entre los datos predictores (una matriz “x”) y una respuesta (un vector “y”) a través del modelado de mínimos cuadrados parciales. MUVR es útil para manejar datos que tienen un gran número de variables y pocas observaciones, y construye modelos multivariados robustos y parsimoniosos que generalizan bien, minimizan el sobreajuste y facilitan la interpretación de los resultados (Shi et al., 2019). 3.2.2. El aprendizaje no supervisado El aprendizaje no supervisado tiene como objetivo descubrir estructuras y patrones en datos sin etiqueta, basándose únicamente en datos de entrada y sin la intervención humana. Se utiliza para problemas complejos, con una respuesta desconocida. Su función principal es la agrupación de los datos, por lo que el algoritmo debería catalogar por similitud y poder crear grupos (i.e., conglomerados o “clusters”), sin tener la capacidad de definir cómo es cada individualidad de cada uno de los integrantes del grupo. 23 3.2.2.1. Redes neuronales artificiales Las redes neuronales artificiales o ANNs (“Artificial Neural Network” por sus siglas en inglés, forma parte de las técnicas de aprendizaje no supervisado más utilizadas. Se agrupan dentro de las técnicas conexionistas de la inteligencia artificial y constituye una de las áreas de estudio más ampliamente difundidas. Las ANNs son capaces de aprender las características relevantes de un conjunto de datos para luego reproducirlas en entornos ruidosos o incompletos, siendo especialmente útiles para tareas de clasificación y regresión (Hammer, 2003). Usualmente, las ANNs reciben la información proveniente del exterior mediante un conjunto de neuronas de entrada y cuentan con un conjunto distinto de neuronas de salida para manejar los resultados. El uso de redes neuronales artificiales ha aumentado considerablemente en años recientes para la identificación, clasificación y predicción del rendimiento en el fútbol (Hassan et al., 2020). En una revisión sistemática de literatura realizada por Claudino et al. (2019), cerca del 36% de los estudios tomados en cuenta, usaron esta técnica, de los cuales un 10% fueron investigaciones de riesgo de lesión y un 26% en análisis de rendimiento deportivo. Algunos ejemplos de aplicación de las ANNs en el rendimiento deportivo han sido por ejemplo, la capacidad de discriminar con éxito la eficacia de atributos físicos y técnicos durante el partido de fútbol, cuando se gana o se pierde, con un porcentaje de sensibilidad de 83.3% para cuando se gana y 72.7% para cuando se pierde (Hassan et al., 2020). En otro estudio similar, Huang y Chang (2010), construyeron un modelo para predecir la tasa de victoria de dos equipos durante el mundial de fútbol de Alemania en el 2006 a partir de datos estadísticos oficiales de la etapa de clasificación al evento, con una precisión de 76.9%. Esta técnica también se ha utilizado para analizar la posición de los jugadores (Memmert et al., 2017). 3.2.2.2. Análisis de componentes principales El análisis de componentes principales (PCA, por sus siglas en inglés), es otro método estadístico que puede proveer una solución en el área de las ciencias del deporte. Este método selecciona las variables significativas y descarta los componentes menos importantes del análisis (Parmar et al., 2018). El tener un gran número de variables predictoras no implica necesariamente mucha información ya que esta puede ser redundante. El PCA precisamente 24 elimina esta información redundante, por lo que optimiza el proceso de análisis de las variables representativas de desempeño que pueden ser obtenidas (Muazu Musa et al., 2016). Lago-Peñas et al. (2017), mediante un análisis de regresión y análisis factorial, identificaron y midieron diferentes estilos de juego en el fútbol profesional de China (Superliga China de Fútbol) durante la temporada 2016. Los investigadores pudieron analizar 240 partidos y un total de 20 variables (14 de ataque y 6 de defensa). El uso de diferentes indicadores de desempeño permitiría obtener relaciones de mayor orden entre ellos, y con ello una mejor descripción e identificación de los patrones de juego que pueden reflejar un estilo de juego específico. De hecho, de las 20 variables se obtuvieron cinco factores que tuvieron autovalores mayores a 1 y explicaron el 79.6% de la varianza total: a. Factor 1: estilo de posesión de juego, correlacionado con la posesión del balón, la posesión del balón en campo rival, ataques posicionales, pases precisos, pases adelante y atrás. b. Factor 2: ataque a balón parado, correlacionado positivamente con el número de ataques a balón parado y ataques. c. Factor 3: juego de contraataque, correlacionado con intercepciones, intercepciones en campo contrario, balones recuperados y número de contraataques. d. Factor 4 y 5: juego de transición, correlacionado con pérdidas de balón, y balones perdidos en campo contrario. e. Factor 5: juego de transición: recuperar balones libres y recuperar balones libres en zona adversaria. Los investigadores concluyeron que estas métricas pueden permitir a los entrenadores y analistas clasificar los equipos en perfiles específicos de estilos de juego. En síntesis, se han utilizado diferentes técnicas en el modelado predictivo, encontrando variedad en los resultados, lo cual sugiere que tanto las variables escogidas, como el torneo disputado, el momento de la temporada, o el estilo de juego son condicionantes de la técnica seleccionada. Aún hoy en día, el conocimiento se encuentra en fase exploratoria, por lo que no hay claridad sobre cuál será el mejor método de análisis (Eryarsoy & Delen, 2019; Moncada-Jiménez et al., 2021). 25 4. Análisis de la actividad del jugador de fútbol según su posición Es indiscutible que la naturaleza del juego de fútbol es verdaderamente compleja de analizar, ya que se deben considerar las dimensiones técnicas, tácticas y físicas que demandan durante el mismo. La dinámica del movimiento dentro del contexto del partido produce miles de valores diferentes e irrepetibles (Bradley & Ade, 2018). Los estudios han dado más o menos importancia a la consecución del resultado a partir de las variables físicas o a partir de las variables técnico-tácticas. De acuerdo con algunos estudios, las habilidades técnicas-tácticas son las mejores predictoras del éxito (i.e., ganar) (Asian Clemente et al., 2019; Carling et al., 2007; Castellano Paulis et al., 2012; Longo et al., 2019) y son discriminadores notables entre estándares competitivos (Lago-Peñas & Dellal, 2010; Liu et al., 2016; Sarmento et al., 2014). Otros enfatizan en la importancia del rendimiento físico como determinante del resultado final del partido (Andrzejewski et al., 2018; Dellal et al., 2011; Konefał, Chmura, Kowalczuk, et al., 2019; Konefał et al., 2020; Mackenzie & Cushion, 2013). Bradley y Ade (2018), desde una perspectiva más integral, invitan a analizar el fútbol como un deporte multifacético con aspectos físicos, técnicos y tácticos que se fusionan para influir en el rendimiento, sin excluir un factor de otro. De hecho, afirman que la táctica o el contexto son los principales moduladores del rendimiento físico. Precisamente al analizar cualquier conjunto de datos será necesario tener en cuenta los factores situacionales que condicionan la estrategia del equipo y jugador durante el partido (Lord et al., 2020; Sarmento et al., 2014; Taylor et al., 2008). Algunos de estos factores son por ejemplo, la ubicación del juego (Aquino et al., 2020; Oliva-Lozano et al., 2021; Rampinini, Coutts, et al., 2007; Taylor et al., 2008), la calidad de la oposición (Lago-Peñas et al., 2010; Lago-Peñas & Dellal, 2010; Rago et al., 2021; Rampinini, Coutts, et al., 2007), el momento del juego (e.g., ir ganando o ir perdiendo) (Konefał, Chmura, Kowalczuk, et al., 2019). Otra condición que varía la respuesta de los jugadores durante el partido y que para efectos de la presente propuesta será importante desarrollar, es indudablemente la posición y el rol que debe cumplir un jugador dentro del campo, ya que depende de la formación de juego que se utilice (e.g., 1-4-4-2 o 1-4-2-3-1) y de la posición específica en el terreno de juego requerirá diferentes esfuerzos físicos y diferentes exigencias técnico-tácticas (Arjol- 26 Serrano et al., 2021; Borghi et al., 2021; Dellal et al., 2011; Konefał, Chmura, Kowalczuk, et al., 2019). Por ejemplo, Arjol-Serrano et al. (2021), compararon dos formaciones de juego, la 1- 4-2-3-1 y la 1-4-4-2, e indican que las posiciones específicas de los jugadores analizadas, requieren diferentes exigencias físicas en los centrodelanteros y mediocampistas centrales, mientras que en las acciones técnico-tácticas los cambios fueron más marcados en los laterales, mediocampistas centrales, mediocampistas abiertos y los volantes ofensivos. También han encontrado diferencias significativas entre el sistema 1-3-5-2 comparado con sistemas de cuatro defensores (e.g., 1-4-3-3 o 1-4-2-3-1), especialmente en variables físicas como distancia total, alta intensidad y alta carga metabólica (Tierney et al., 2016). De acuerdo con algunos investigadores, para mejorar el éxito del equipo se requiere un mayor nivel de actividad física de los jugadores en algunas posiciones de la cancha y una mayor actividad técnica de los jugadores en otras (Di Salvo et al., 2013). A continuación, se analizarán los indicadores que han tenido mayor impacto para determinar el rendimiento de los jugadores durante los partidos. Es necesario aclarar que se estudiarán las características individuales, tomando en cuenta las variables tácticas, técnicas o físicas que describen todos los eventos de situaciones de “1 vs. 1” durante el juego ofensivo y defensivo con y sin balón; sin tomar en cuenta la táctica grupal, que representa la cooperación entre subgrupos (e.g., el bloqueo defensivo durante una trampa de fuera de juego) o la táctica de equipo que refiere a la formación del equipo ofensiva y defensivamente. 4.1. Variables técnico-tácticas Son muchas variables técnicas que han sido utilizadas en los estudios; sin embargo, se coincide que entre las más relevantes se consideran los tiros, centros, pases, posesión del balón y jugadas de 1 vs. 1 (Castellano Paulis et al., 2012; Konefał, Chmura, et al., 2019a; Lago-Peñas et al., 2011; Liu et al., 2016; Szwarc et al., 2017), ya que su alta efectividad es correlacionada con el resultado del partido (Konefał, Chmura, Kowalczuk, et al., 2019; Link & de Lorenzo, 2016). Para Lago-Peñas et al. (2011), estas son funciones discriminantes que clasificaron correctamente el 79.7% de los triunfos, empates y pérdidas durante 288 juegos de la UEFA Champions League en tres ediciones (2007-2008, 2008-2009, 2009-2010). 27 4.1.1. Variables de ataque 4.1.1.1. Gol/asistencia Durante la Copa Africana de Naciones (AFCON) 2017, un estudio examinó los indicadores de rendimiento de los partidos que discriminaban entre equipos ganadores, los que empataban y los perdedores. Se recopilaron datos de 32 partidos y se incluyeron variables como el número de goles marcados, el período de tiempo en el que se marcó un gol y el impacto del primer gol en el resultado del partido, entre otras. Los resultados mostraron que los goles marcados (1.80 ± 0.83) fueron el indicador discriminativo del rendimiento de los equipos ganadores (Kubayi & Toriola, 2020). Este hallazgo es algo intuitivo, ya que a mayor cantidad de goles marcados existe una mayor probabilidad de ganar un juego. Eggels et al. (2016), proponen un método para determinar el ganador esperado de un partido de fútbol de élite, estimando la probabilidad de anotar las oportunidades de gol individuales. De acuerdo con los investigadores, los goles son extraños en el fútbol, en el sentido de la gran influencia de un solo gol en el resultado de un partido y consideran que se obtiene una forma más objetiva de analizar el resultado a través de las oportunidades de gol en lugar de los goles reales marcados. Para su análisis toman en cuenta variables como la distancia a la portería, zona del cuerpo con la que se ejecuta el remate, ángulo de remate, origen de la acción, calidad del jugador ofensivo, y la calidad del portero, entre otras. 4.1.1.2. Pase En la literatura se han descrito diferentes indicadores de pases, dependiendo de la cantidad, la precisión, la longitud (e.g., cortos, medios, largos), la dirección (e.g., adelante, atrás, al lado), el origen (e.g., mitad propia o mitad contraria), y han estado vinculados con el éxito de los equipos o clasificando el nivel competitivo de los jugadores (Barron et al., 2020; Konefał, Chmura, Kowalczuk, et al., 2019). La cantidad de pases ha sido la variable que más ha tenido seguimiento por parte de los científicos y es una de las que ha sido muy palpable la evolución que ha tenido en el fútbol en los últimos 45 años, ya que se han visto aumentos en la tasa de pases mayores de 35% cuando se compararon los juegos finales de la Copa del Mundo de 1966 al 2010 (Kempe et al., 2016), o incluso de un 40% en la Liga Premier de Inglaterra al comparar siete temporadas consecutivas desde el 2006 hasta el 2013 (Bush et al., 2015). Este aumento también se ha asociado a la capacidad de los equipos para ganar los partidos (Barron et al., 2020; Konefał, Chmura, Kowalczuk, et al., 2019). 28 Barron et al. (2020), con jugadores de la Liga Premier inglesa, lograron construir 14 modelos predictivos, todos con una precisión ≥ 75%, a partir del uso de ANNs, categorizando tres estatus diferentes de jugadores a partir de la posición de juego. Los investigadores encontraron dentro de las variables predictoras, las relacionadas con la capacidad de pase (48 de las 134 variables medidas) fueron las más importantes. Destacan además los pases acertados, los pases hacia adelante y el origen del pase en campo rival. En otro estudio, Hassan et al. (2020), encontraron que el pase de mediana distancia fue la variable que más peso tuvo en su modelo predictivo, que alcanzó un 83.3% de sensibilidad para la victoria durante la Copa Mundial de fútbol de Rusia 2018. Cintia et al. (2015), elaboraron un indicador de rendimiento basado en el comportamiento colectivo de los pases (“H”), que consistió en la suma de varios parámetros asociados, entre ellos volumen total de pases del equipo, volumen medio de pases entre jugadores, variación del volumen de pases de los jugadores, volumen medio de pase en zonas del campo, y variación del volumen de pases en las zonas del campo. Informaron que en el 73% de las victorias en casa, el equipo local tuvo un indicador H más alto que el equipo visitante, mientras que en el 51% de las derrotas en casa, el equipo tuvo un indicador H más bajo que el oponente de visita. Es importante también tomar en cuenta que el pase y sus variaciones dependerán del estilo de juego que cada entrenador implemente, ya que según Sarmento et al. (2014), secuencias de pase más largas pueden incluso disminuir la probabilidad de remates al marco del equipo contrario. Dentro de esta categoría se incluye el centro, y se define como un lanzamiento del balón al área de penal del adversario desde el costado y ha sido identificado como un factor clave para diferenciar equipos exitosos y no exitosos (Geurkink et al., 2021; Lago-Peñas & Dellal, 2010; Lago-Peñas et al., 2011). Sin embargo, también se ha etiquetado como un método ineficaz para crear oportunidades de gol (Liu et al., 2016). 4.1.1.3. Remate o Tiro al marco Son todos los tiros orientados hacia la portería rival con el objetivo de anotar un gol. Las investigaciones comúnmente han utilizado como predictores de éxito, el tiro total (i.e., cantidad de remates a portería) o la precisión en el remate (Kubayi & Toriola, 2020; Lago- Peñas & Dellal, 2010). También se han estudiado los tiros por fuera de la portería, los tiros al poste-larguero y los tiros bloqueados (Castellano Paulis et al., 2012; Liu et al., 2016). 29 Geurkink et al. (2021), construyeron un modelo de aprendizaje automático predictivo, con una precisión de 89.6%. Utilizaron una amplia gama de indicadores de rendimiento (n = 100), recolectados durante 576 juegos de la primera división de Bélgica y encontraron que los juegos que resultaron en victoria o en pérdida pudieron clasificarse correctamente, siendo los tiros a portería dentro del área de penal el mejor predictor de todas las variables. 4.1.2. Variables defensivas Dentro de las variables defensivas que han estado asociadas al éxito se pueden encontrar las intercepciones (i.e., acción de recuperación del balón que interrumpe el ataque rival), los despejes (i.e., golpe del balón por parte un jugador defensor, orientado hacia zonas alejadas de la propia portería) y los desafíos aéreos (i.e., disputa de dos rivales por el balón que se encuentra más arriba del nivel del hombro) (Taylor et al., 2008). Los duelos también han sido estudiados y son aquellas acciones de 1 vs. 1 que se presentan cuando el balón es divido; es decir, que no pertenece a alguno de los dos equipos. Link y de Lorenzo (2016) afirman que la actividad técnica clave que realizan los futbolistas alemanes consiste en duelos, revelando un aumento de un 16% en el número de duelos durante la fase final de la temporada de la Bundesliga. Sin embargo, Konefał, Chmura, et al. (2019a), encuentran un resultado muy interesante de una relación inversamente proporcional entre el número de duelos y el porcentaje de duelos ganados. Los investigadores identificaron una disminución constante en la cantidad de duelos (durante tres temporadas continuas), independientemente de las posiciones de los jugadores en el campo o el resultado del partido. Esto puede deberse a una mejor toma de decisiones por parte de los jugadores y una mayor conciencia de la elección de la actividad técnica y colectiva que tiene más posibilidades de ser efectiva que llevar el juego a lo individual. Al mismo tiempo, el porcentaje de duelos ganados aumentaba en consonancia con posiciones cada vez más ofensivas. También ha sido clave el factor recuperación del balón en campo rival, que demuestra una reacción defensiva después de perder la posesión del balón (Vogelbein et al., 2014) o recuperar la posesión en el último tercio de la cancha (Almeida et al., 2014), patrones defensivos muy característicos del estilo de juego moderno. 4.2. Rendimiento físico La distancia total recorrida, la distancia recorrida a alta intensidad, el número de sprints realizados, el promedio de la velocidad en la carrera, la velocidad máxima de carrera 30 y la carga, son algunas de las variables más estudiadas (Andrzejewski et al., 2018; Chmura et al., 2018), las cuales se describen a continuación. 4.2.1. Variables relacionadas con distancia 4.2.1.1. Distancia total recorrida Actualmente, los científicos reportan recorridos entre 9 a 13 km/partido (Bradley & Ade, 2018; Chmura et al., 2017; Rampinini, Coutts, et al., 2007; Vigne et al., 2010). Durante el Campeonato Mundial de Fútbol Brasil 2014, los equipos recorrieron mayor distancia entre los cuartos de final y las semifinales; no así en la final. Incluso se logró comprobar que los jugadores de la Selección Alemana (campeona mundial) recorrieron en promedio, mayor distancia total en relación con la media de otros equipos (10.39  1.19 km vs. 10.05  0.95 km) (Chmura et al., 2017). Hassan et al. (2020), destaca dentro de los 75 atributos de juego medidos y su relación con el resultado del partido, como la distancia cubierta sin la posesión del balón y el promedio de distancia cubierta por el equipo son poderosos predictores de éxito, durante el Campeonato Mundial de Fútbol Rusia 2018. No obstante, algunos aún consideran que la distancia recorrida por un jugador es una forma bastante superficial de evaluación del juego y que será necesario tener en cuenta la cantidad de carreras de velocidad y otras actividades de intensidad máxima y submáxima (Andrzejewski et al., 2018). 4.2.1.2. Distancia recorrida a diferentes intensidades Los investigadores han utilizado descriptores genéricos para categorías de movimiento (e.g., trotar, correr, velocidad máxima). También se han creado una serie de umbrales de velocidad (e.g., 0-6 km/h, 6-12 km/h, 12-19 km/h, 19-24 km/h,  24km/h) debido a las variaciones en el sexo del jugador, la maduración, los estándares competitivos y la capacidad física (Bradley & Ade, 2018; Cummins et al., 2013). El análisis de las distancias recorridas a diferentes velocidades durante el juego ha acaparado la atención en la literatura ya que se considera como un reflejo de las demandas físicas de la competencia (Chmura et al., 2018; García-Ramos et al., 2018; Geurkink et al., 2021; Konefał et al., 2020). Vigne et al. (2010), en un estudio retrospectivo de medición durante tres temporadas a un equipo exitoso de la Serie A italiana, demostraron que los jugadores a lo largo del período estudiado cada vez recorrieron menos distancias 31 submáximas, y sugieren que esto se debe a un aumento de las carreras a alta velocidad en la última temporada medida, elevando aún más la demanda física de los jugadores. Algunos umbrales que se han asociado al éxito han sido, por ejemplo, distancia recorrida de 15-20km/h en los partidos del Campeonato Mundial de Rusia 2018 (Hassan et al., 2020) y en la liga profesional belga (Jupiler Pro League), en donde se observaron distancias recorridas entre 6-15km/h. Estas velocidades se justifican como una necesidad de mantener esfuerzos de intensidad baja a media a lo largo del juego (Geurkink et al., 2021). Por su parte, Konefał et al. (2020), exponen algunas conclusiones interesantes en cuanto a velocidades submáximas y su relación con el momento del partido: a. En intensidad submáxima, por cada minuto en que el equipo va ganando, la distancia recorrida se redujo en 1.1 m comparado con cada minuto cuando el equipo estaba perdiendo. b. Cada minuto ganando aumentó en 2.1 m (p < 0.01) la distancia recorrida a baja velocidad (11.1 – 14.0km/h) en comparación con cada minuto perdiendo. c. Para cada minuto ganando, la distancia recorrida caminando y trotando (0-11 km/h) aumentó en 2.2 m (p < 0.05) comparado con cada minuto perdiendo. Por ende, en la interpretación de las variables físicas se debe considerar que “más” no siempre es “mejor”, como lo demuestran las distancias de carrera en las distintas velocidades submáximas (Geurkink et al., 2021). Posiblemente cuando se está ganando, la estrategia del partido será más defensiva, provocando que el equipo esté más compacto y evite dejar espacios, para salvaguardar más eficientemente la propia portería o incluso puede ser que los equipos altamente exitosos pueden realizar actividades de menor intensidad durante los partidos en virtud de ser técnica y/o tácticamente superiores (Di Salvo et al., 2009). 4.2.1.3. Carrera de alta velocidad (HSR, “High speed running”) En la literatura existen diferentes umbrales para determinar la carrera de alta intensidad, comúnmente denominada como “High speed running” (HSR). Algunos estudios la conceptualizan como la distancia recorrida a una velocidad entre 21 km/h y 24 km/h (Oliva-Lozano et al., 2021) o carreras que van de 19.9 a 25.2 km/h (Chmura et al., 2017; Malone et al., 2018; Rampinini, Bishop, et al., 2007). Las HSR representan entre el 5% al 15% del total de la distancia total recorrida en un juego y en la última década se ha observado un incremento de hasta un 40% (Bradley & Ade, 32 2018; Malone et al., 2018). La HSR está muy correlacionada con el estado de entrenamiento del jugador (Mohr et al., 2003) y es considerada una variable predictora del rendimiento grupal (Andrzejewski et al., 2018; Chmura et al., 2017; Malone et al., 2018; Springham et al., 2020). La HSR debe ser desarrollada durante la pretemporada y estar en exposición de carga constante durante los entrenamientos en fase competitiva (Malone et al., 2018), pues se ha demostrado que un óptimo desarrollo de esta cualidad influirá en la capacidad de generar sprints durante los partidos (Springham et al., 2020). También proporcionará protección para evitar lesiones musculares, especialmente para aquellos jugadores que tienen poca participación en los partidos (Malone et al., 2018). 4.2.1.4. Velocidad relacionada con Sprint Esta cualidad es definida como el número de sprints ejecutados por un jugador a una velocidad > 24 km/h y la respectiva distancia recorrida a esa velocidad (Konefał, Chmura, et al., 2019b). Es una de las acciones más importantes en el juego del fútbol y sólo representa el 1-12% de la distancia total recorrida durante el partido (100-700 m) Se realizan cada 90- 180 s y las carreras de velocidad larga tienen una duración promedio de entre 2-4 s (Andrzejewski et al., 2018). Los jugadores de fútbol de élite realizan en promedio 10 sprints por partido, y se alcanzan velocidades superiores a 30 km/h (Oliva-Lozano et al., 2020). La velocidad máxima promedio, también ha sido reconocida como un indicador de rendimiento, el cual ha evolucionado con el fútbol. Se conceptualiza como la media de la velocidad alcanzada cuando el atleta se desplaza sobre 24 km/h. Durante la Copa Mundial de Fútbol de 2010 en Sudáfrica, los jugadores españoles (campeones del torneo) alcanzaron un promedio de velocidad máxima de 25.52 km/h, mientras que en la edición de Brasil 2014 los jugadores alemanes alcanzaron los 27.89 km/h; es decir, hubo un aumento de 2.4 km/h, sugiriendo un desarrollo en esta cualidad (Konefał, Chmura, Kowalczuk, et al., 2019). Konefał, Chmura, et al. (2019b), propusieron un modelo que predice que cada aumento del 1% en esta variable teóricamente se asociará con un aumento del 4.08% en las probabilidades de ganar en temporadas posteriores. 4.2.2. Variables relacionadas con la carga Las variables relacionadas a la carga se suelen convertir en valores compuestos para medir carga aguda. Por ejemplo, -7D de carga promedio sería el análogo a la “fatiga” del 33 jugador. Por su parte, la carga crónica, sería -28D de carga promedio o el análogo a la “aptitud” del jugador. Esta relación carga aguda/carga crónica, permite describir los patrones recientes en la distribución de la carga (Springham et al., 2020). Existen una gran cantidad de índices de carga de trabajo disponibles para los profesionales, creando una matriz compleja de toma de decisiones, que es a menudo difícil de interpretar (Weaving et al., 2019). La gran cantidad de datos derivados que se obtienen con estos registros, necesitan ser controlados para evitar conclusiones erróneas. Un ejemplo de estos índices es el “high metabolic load distance” abreviado en HMLd, que viene siendo la distancia (m) recorrida por un jugador cuando su potencia metabólica está por encima de 25.5 W/kg. Este valor corresponde a una carrera a velocidad constante de 5.5 m/s2 o cuando hay actividades de aceleración y desaceleración significativas. Por lo tanto, es una combinación de aceleración, desaceleración, sprint y carrera a alta velocidad (Springham et al., 2020), lo cual proviene del gasto metabólico de la actividad física. En un estudio llevado a cabo con jóvenes jugadores profesionales ingleses (Springham et al., 2020), se correlacionó la carga previa registrada durante los entrenamientos con el rendimiento físico del partido y se logró concluir que los índices de carga de trabajo se identificaron como variables predictoras, de manera que influían en la capacidad de realizar acciones de alta intensidad como los sprint o las HSR. Se demostró que aplicar cargas agudas altas de HMLd en los días -5,-4,-3 con una puesta a punto en los días -2 y -1 mejoraban considerablemente el rendimiento en HMLd durante los partidos. La notación con el símbolo negativo lo que indica es la cantidad de días previos al juego. Por ejemplo, -5, significaría que son 5 días previos al juego. 4.2.3. Variables relacionadas con aceleración La mayor parte de los estudios utilizan umbrales establecidos de aceleración (ACC) >3m/s2 y desaceleración (DEC) > -3 m/s2 (Andrzejewski et al., 2018; Russell et al., 2016; Varley et al., 2017) ya que tienen un impacto significativo en la carga mecánica y en los indicadores de daño muscular de los jugadores (Oliva-Lozano et al., 2020; Springham et al., 2020). Geurkink et al. (2021), utilizaron umbrales más bajos (ACC: >2m/s2, DEC: -2m/s2) con futbolistas profesionales y encontraron un peso significativo de esa variable en el modelo predictivo encontrado. 34 Se sabe que los jugadores desaceleran a alta intensidad más de lo que aceleran, por lo que se recomienda prestar especial atención a los indicadores de carga mecánica (Oliva- Lozano et al., 2020). 4.3. Análisis por posición 4.3.1. Defensas 4.3.1.1.Defensas centrales Es necesario resaltar que los defensas centrales (DC) han tenido una evolución en los últimos años en cuanto al aumento en el número de pases que ejecutan durante los partidos (Konefał, Chmura, et al., 2019a, 2019b) y en el fútbol profesional inglés, reportaron incluso un 70% de mejora (Bush et al., 2015). De acuerdo con la literatura consultada, para ganar partidos, los DC deben estar dispuestos a interactuar con el balón, para generar muchas ocasiones de pase, de tipo corto (Adams et al., 2013) y hacia adelante (Barron et al., 2020; Bradley et al., 2013). El número de duelos y el porcentaje de duelos ganados representa una actividad clave para estos jugadores (Konefał, Chmura, et al., 2019a, 2019b). Por otra parte, en cuanto a valores físicos, los DC son los que menos distancia total recorren (Di Salvo et al., 2009), menos distancia y menos número en sprints (Andrzejewski et al., 2018; Oliva-Lozano et al., 2020) comparados a los jugadores que participan en otras posiciones. Generalmente las actividades de alta intensidad las realizan cuando deben recuperar o correr contra su portería para minimizar los espacios a sus espaldas (Bradley & Ade, 2018). También deben tener una capacidad esencial para acelerar, por la necesidad de ganar diferentes tipos de duelos con los oponentes (Konefał, Chmura, et al., 2019a, 2019b). 4.3.1.2. Defensas laterales Los defensas laterales (DL) han demostrado un aumento en el número de centros y número de duelos ganados por partido (Barron et al., 2020; Konefał, Chmura, et al., 2019a, 2019b) que, junto a variables de pase como la cantidad, el porcentaje de acierto y la direccionalidad del pase hacia adelante, se han asociado al éxito en el resultado final del partido. El perfil de los DL desde el punto de vista físico es de especial atención ya que presentan los mejores puntajes en sprint en comparación con el resto de las posiciones en cuanto al número, distancia, promedio de distancia de sprint, y velocidad máxima por partido 35 (Oliva-Lozano et al., 2020). Precisamente, la literatura destaca estas variables como predictoras en el resultado del partido (i.e., ganar) cuando estos jugadores presentan altos puntajes en ellas (Andrzejewski et al., 2018; Bradley & Ade, 2018; Bradley et al., 2013; Chmura et al., 2018). Se han encontrado niveles de ACC y DEC más elevados, tanto en distancia alcanzada como en número de eventos (Oliva-Lozano et al., 2020), justificando perfectamente los resultados de Springham et al. (2020) al destacar el rendimiento de estos jugadores en la variable de carga HMLd, definida como una medida global de rendimiento de alta intensidad. 4.3.2. Mediocampistas Junto a los defensas centrales, los mediocampistas son los jugadores que han tenido una mayor evolución en el número de pases, encontrando aumentos de hasta un 50% en la Liga Premier durante las temporadas 2006/07 hasta 2012/13. El número de pases y el porcentaje de acierto en el pase, el total de tiros, el porcentaje de acierto en el pase y el número de duelos ganados han sido también elementos que han caracterizado hoy en día a estos jugadores y han estado relacionados con el gane (Bradley et al., 2013; Konefał, Chmura, et al., 2019a, 2019b). Es también vital en estos jugadores la conexión hacia adelante, a través del pase, buscando el juego entre las líneas del equipo rival (Bradley et al., 2013). Los mediocampistas recorren más distancia total que los defensores y delanteros (Vigne et al., 2010). También recorren distancias a muy alta intensidad (Bradley & Ade, 2018; Konefał, Chmura, Kowalczuk, et al., 2019), lo que provoca una gran carga de trabajo