Entrega Final de curso

Author

Martín Grau Pérez , Lucca Frachelle

Published

December 15, 2024

Resumen de la base

Eventos

El objetivo del presente trabajo es encontrar y modelar los determinantes de éxito de una posesión en el contexto de un partido de fútbol. Para ello, se cuenta con información relativa a los 64 partidos de los mundiales masculino y femenino disputados en Qatar en 2022 y Australia/Nueva Zelanda en 2023, respectivamente. Concretamente, se cuenta con datos de eventing de la consultora especializada StastBomb y se obtuvieron a través de su paquete en R ‘StatsBombR’. Dichos datos de eventing refieren al registro de cada una de las acciones que realizan los jugadores con la pelota en cada uno de los partidos. Dicha base está compuesta por los distintos eventos que se realizaron en el transcurso de cada encuentro y variables asociadas a cada tipo de evento según corresponda (184 variables y 459967 observaciones entre los 2 mundiales). Se considera un evento cada una de las acciones realizadas, ya sea por los jugadores (pases, tiros al arco, atajadas, regates, traslados de balón, etc) así como del resto de los actores de un partido de fútbol (sustituciones, tarjetas, inicio/final de partido, entre otras). Las posesiones están compuestas por varios de estos tipos de acciones. En este caso, la base cuenta con 33 tipos de eventos distintos. Algunos de estas accionesno refieren específicamente a situaciones de juego tales como incios y finales de partidos, sustituciones de jugadores, formaciones iniciales, tarjetas mostradas por el juez, cambios tácticos, sueltas neutrales de balón y pausas en el partido ya sea por lesión u otra situación excepcional. Estos eventos no serán tenidos en cuenta en el análisis ya que se considera que no aportan nada desde el punto de vista del juego y de las posesiones dentro del mismo.

En ese sentido se trabajará con las acciones de juego que involucren la pelota o la disputa de ésta. Mayoritariamente tenemos pases pero también se registran traslados con pelota controlada (Carry), recepción de balón (Ball Receipt), acciones defensivas de presión hacia un rival (Pressure), recuperaciones de pelota (Ball Recovery), duelos (Duel), despejes (Clearance), tiros al arco (Shot), regates (Dribble), atajadas (Goal Keeper), entre otros.

En este contexto se buscará estudiar las distintas secuencias de los equipos en cuanto tienen la posesión a su favor (possession). En ese sentido, tomando en cuenta ambas copas del mundo se cuenta en total con un promedio de un poco más de 177 posesiones por partido para el mundial masculino mientras que un poco menos de 193 para el femenino.

dispersión posesiones y pases por partido según mundial

dispersión posesiones y pases por partido según mundial

Por lo tanto, nuestra observaciones pasarán a ser las posesiones y no los distintos eventos. A estos efectos, con la información contenida en los datos de eventing se conformó una base que nos permite describir cada una de estas secuencias para su posterior estudio y clasificación. Para ello, en una primera instancia, no se trabajará con todas las posesiones sino que por simplicidad nos quedaremos únicamente con aquellas posesiones en las cuales las acciones en las mismas son realizadas por el equipos poseedor del balón o, en su defecto, que las acciones del rival no involucren directamente la pelota: acciones de presión, faltas cometidas o recibidas, atajadas del golero y/o jugadores dribleados del conjunto que está defendiendo (Dribbled Past). De esta manera, la trayectoria de la pelota se ve únicamente afectada por las acciones realizadas por el equipo que tiene la posesión y no por el rival. Nos quedaremos finalmente con 4961 posesiones a nivel masculino y 4409 del mundial femenino para estudiar la trayectoria de la pelota en esas secuencias.

Características de las posesiones

A través de los datos se generará una nueva base que contenga características de las casi 10000 secuencias a estudiar. La elección de dichas características es un tanto arbitraria pero se entiende que pueden ser de valor o utilidad a la hora de describir o encontrar ciertos patrones o estilos de juego:

  • coordenadas de inicio y fin de la posesión (así como las zonas de inicio y fin)

  • cantidad de pases y de traslados de balón (totales y exitosos)

  • cantidad de tiros, de centros, de cambios de frente, de ingresos al área rival con pelota controlado, pases dentro del área y de eventos en general realizados

  • promedio de avance en el terreno según sea por pases o traslados con pelota controlada

  • si la jugada es iniciada por el golero

  • si el golero participa o no de la secuencia

  • si termina en un tiro al arco o en gol

  • velocidad promedio de la posesión teniendo en cuenta los pases y conducciones hacia adelante

  • distancia promedio y mediana de la jugada

  • cantidad de zonas por la que pasa la jugada

  • duración (en segundos) de la posesión

Correlaciones de las caracteristicas de las trayectorias

División en zonas

También podría ser útil tener en consideración no sólo dónde inició y terminó cada jugada sino que también de alguna manera replicar la trayectoria de la pelota en la secuencia. Para ello, se propone dividir la cancha en zonas y analizar hacia dónde el equipo llevó el balón y por cuántos sectores (zonas) del terreno pasó la pelota en la jugada. Cabe aclarar que para el conteo de zonas se tendrá en cuenta únicamente aquellas zonas dónde se realizaron acciones y no necesariamente por dónde pasó la pelota.

División en zonas de la cancha

Idea del modelo

El objetivo del modelo es clasificar las jugadas en exitosas o no exitosas, con un criterio de éxito definido subjetivamente. Para ello, se analizarán distintas características de cada jugada, buscando identificar las variables que permitan predecir con mayor precisión si una jugada será exitosa o no.

Después de la descripción de los datos, se propone la creación de una variable objetivo (a predecir) denominada éxito, que tomará un valor binario para representar el éxito o fracaso de cada jugada.

A continuación, se realizará un análisis exploratorio de datos (EDA) enfocado en esta variable, observando cómo se comporta en función de las características de las jugadas. Este análisis permitirá identificar patrones y relaciones que puedan ser útiles en la clasificación y mejora del rendimiento del modelo.

La variable éxito se define a partir de la categorización de las jugadas:

  • Si la jugada termina en un tiro al arco

  • Si la jugada termina en un córner a favor

  • Si la mayoría de las acciones se realizan bajo presión del rival y pese a ello se logra mantener la posesión

  • Si la secuencia logra llegar hasta el área rival

  • Si la posesión comienza en campo propio y logra llevar al tercio final con al menos 3 acciones

  • Si el rival no logra recuperar la pelota y comete falta

Tanto las trayectorias en las que el rival logra recuperar la pelota así como aquellas que no cumplen ninguna de las 6 condiciones mencionadas se califican como no exitosas (variable exito=0)

Variables a usar

Características de las Variables para el Modelo
Variable Descripción Tipo Rango
possession ID de la posesión Numérica 2:283
tiempo Duración en segs de la jugada Categórica 0:137.71
period Período del partido Numérica 1:4
possession_team.id ID del equipo en posesión Categórica
possession_team.name Nombre del equipo en posesión Categórica
team.name Nombre del equipo Numérica
n Cantidad de acciones de la jugada Numérica 2:146
x_inicio Coordenada X de inicio de la jugada Numérica 0.4:120.5
y_inicio Coordenada Y de inicio de la jugada Numérica 0:79.9
x_fin Coordenada X de fin de la jugada Numérica 0.1:120
y_fin Coordenada Y de fin de la jugada Numérica 0:79.9
n_eventos Número de eventos distintos Numérica 1:11
n_pases Número de pases Numérica 0:51
n_pasesC Número de pases completados Numérica 0:51
n_traslados Número de traslados Numérica 0:38
prom_av_p Promedio de avance por pase realizado Numérica -30.5:104.9
prom_av_t Promedio de avance por traslado realizado Numérica -17.4:56.9
n_jugadores Número de jugadores que participan en la jugada Numérica 1:17
n_centros Cantidad de centros Numérica 0:3
n_cdf Cantidad de cambios de frente Numérica 0:4
n_pases_arearival Número de pases dentro del área rival Binaria 0:3
n_ingresos_arearival Número de ingresos al área rival Categórica 0:2
inicia_golero Si la jugada inicia con el golero Categórica 0: no inicia golero, 1: inicia golero
resultado Estado del marcador al momento de la jugada Categórica 'Empatando', 'Ganando','Perdiendo'
zona_inicio Zona de inicio de la jugada Numérica 1:30
zona_fin Zona de fin de la jugada Numérica 1:30
xG Probabilidad de gol de la jugada (Expected Goal) Numérica 0:0.92805
vel_media_p Velocidad media de los pases Númerica -0.72:1067.5
vel_media_c Velocidad media de los traslados Númerica 0:2275
mundial Mundial al que pertenece el partido Binaria M='Masculino',F='Femenino'
vert_tot Verticalidad total de la posesión Númerica -119.6:116.4
horiz_tot Horizaontalidad total de la posesión Númerica -79.90:79.40
dist.promP Distancia promedio de los pases Númerica 0:108.08
dist.promC Distancia promedio de los trasldos Númerica 0:62.614
dist.medP Distancia mediana de los pases Númerica 0:108.06
dist.medC Distancia mediana de los traslados Númerica 0:62.614
presion Cantidad de acciones que se realizan bajo presión del rival Númerica 0:23
n_eq Cantidad de acciones del equipo que tiene la posesión Númerica 1:142
exito Éxito (o no) de la posesión Binaria 0: no éxito, 1: éxito

EDA

Univariado

Se observa una dispersión mayor en la diferencia en el eje X en las jugadas exitosas respecto de las no exitosas. Además, se observa que la mayoría de las jugadas no exitosas están concentradas en torno al 0, lo cual tiene sentido ya que son dichas secuencias empiezan y terminan en el mismo lugar. La diferencia en X es mayor en las jugadas exitosas que en las no exitosas , lo cual tiene que sentido ya que implica un avance hacia el arco rival.

En este caso el comportamiento no es diferente entre las jugadas que son exitosas y las que no.

Aunque la mayoría de las jugadas tanto exitosas como no exitosas se concentran cercanas a tiempo 0 , la concentración en 0 es mucho mayor en las jugadas que no exitosas.

Aunque los histogramas son similares, no es un detalle menor la moda de la cantidad de pases en la jugada, que es mayor en las secuencias exitosas que en las no exitosas.

Tanto en la cantidad de traslados como en la cantidad de jugadores que participan en la jugada, se observa una mayor concentración de valores cercanos a 0 en las jugadas que no son exitosas.

Bivariado

Se observa que los puntos están concentrados alrededor de 0,0 lo que implica que la mayoría de las jugadas terminan cerca de la posición inicial de la jugada. Lo que llama la atención es que en las jugadas exitosas, están mas dispersas en el eje x, teniendo un concentración mayor en jugadas con diferencias en x mayores positivas. Lo cual indica que estas jugadas se caracterizan por tener un mayor a avance al arco rival.

Aunque en el modelo se quita la variable x_fin para no dar información sobre la posición final de la jugada, es interesante ver el comportamiento del mismo.

Se observa que, a medida que aumenta la cantidad de tipos distintos de jugadas, tienden a tener una mayor proporción de jugadas exitosas en comparación con las no exitosas. La mayoría de las jugadas se concentran en posiciones iniciales con 4 y 5 tipos distintos de jugadas, seguidas de aquellas con entre 1 y 3 tipos. Por otro lado, las posiciones iniciales con más de 5 tipos distintos presentan la menor concentración de jugadas en general.

En las jugadas exitosas, se observa una mayor concentración de pases con distancias promedio moderadas (20-40) y una verticalidad más dispersa, lo que sugiere que las jugadas exitosas tienden a tener una distancio promedio ne pases menor que en las no exitosas. Aunque tanto las jugadas exitosas como las no exitosas se concentran en verticalidades positivas , esto parece natural con el deporte.

Se observa que la mayoría de las jugadas están concentradas en una cantidad relativamente pequeña de jugadas, independientemente de si son exitosas o no. En el rango donde se concentran la mayor cantidad de jugadas (entre 0 y 50), las jugadas exitosas muestran una menor proporción de participación del equipo que tiene la pelota, en comparación con las jugadas no exitosas. Además, se nota que, a medida que aumenta el número de jugadas, la proporción de participación del equipo que tiene la pelota tiende a estabilizarse cerca de 1, particularmente en las jugadas exitosas. Por otro lado, la densidad más alta se encuentra en jugadas con pocas repeticiones, como lo refleja el gradiente de color, indicando que las observaciones más frecuentes corresponden a situaciones menos complejas. Esto sugiere que el éxito de las jugadas podría estar influenciado por un número limitado de interacciones o decisiones rápidas en contextos menos densos de jugadas.

Este punto es muy interesante ya que por un lado mayor variedad de eventos mayor es la proporción de éxito, sin embargo las jugadas se concentran en poco eventos. Lo que de alguna forma da la pauta que las jugadas exitosas son aquellas que hace de todo un poco en cantidad de eventos. Lo que naturalmente hace interesante ver la duración de las jugadas.

En las jugadas exitosas, se observa un incremento constante en el promedio de eventos a medida que aumenta el tiempo, comenzando alrededor de 5 eventos y alcanzando más de 7 en los intervalos de mayor duración. Por otro lado, las jugadas no exitosas tienen un promedio de eventos más bajo, comenzando cerca de 4 y mostrando un aumento más gradual e irregular. Además, la frecuencia de jugadas (representada por el tamaño y color de los puntos) disminuye notablemente conforme el tiempo aumenta, indicando que las jugadas más largas son menos comunes en ambos casos. Estos patrones sugieren que las jugadas exitosas tienden a ser más complejas y dinámicas, involucrando un mayor número de eventos en comparación con las no exitosas.

Hay una relación bastante lineal entre el tiempo de jugada y el número total de eventos.

Modelos

Se proponen 4 modelos distintos para el problema de clasificación de la variable éxito. Una lasso, un árbol, un random forest y un LightGBM. La idea es usar la lasso para entender como influyen los distintos factores en la variable éxito sin perder la interpretabilidad de los resultados. Los otros dos se proponen más con la idea de predecir la variable exito usando la información que se tiene en el conjunto de datos. Se eligen estos modelos uno produce menos overfitting(random forest) y otro produce menos error en la validación(LightGBM).

Lasso

Se utiliza inicialmente un modelo de regresión logística como primer enfoque debido a su capacidad para proporcionar una interpretación clara y directa de las relaciones entre las variables predictoras y el resultado.

Llama la atencion que los dos primeros coeficentes sean n y n_eq y que tengna signos diferentes. Esto se debe a que son buenas predicotras pero estan correlacionadas.

De alguna forma se están compensando los efectos , como se vio en la visualización de la proporción de eventos por equipo vs cantidad de eventos totales.

Las tres variables mas importantes estan relacionadas con la cantidad de eventos. Lo que no llama la atención ya que condice con lo que se vio en el EDA

Matriz de Confusion

Aunque es modelo sencillo, el modelo da buenos resultados, lo que nos motiva a probar más modelos , para mejorar aun mas el rendimiento.

Metric Value
Accuracy 0.778
Sensitivity 0.735
Specificity 0.817
AUC 0.854

Árbol de Decisión

Como primer idea se ajusta un árbol relativamente chico con la idea de ver como están interactuando las variables. Como se puede observan con una profundidad bastante chica logra seprar las jugadas exitosas de loas que no.

Este árbol chico no deja algunas cosas interesantes para resaltar:

Análisis del Árbol

  • Nodo raíz:
    El árbol comienza evaluando n_eventos, la cantidad de eventos en la jugada. Este es el factor más determinante:
    • Si n_eventos >= 6, aumenta la probabilidad de éxito (rama izquierda).
    • Si n_eventos < 6, se procede a la rama derecha.
  • Rama izquierda (n_eventos >= 6):
    La variable siguiente es nzonas, que evalúa cuántas zonas diferentes intervienen en la jugada:
    • Si nzonas >= 3, la probabilidad de éxito es mayor.
    • Si es menor, la probabilidad de éxito disminuye, indicando jugadas más predecibles.
  • Rama derecha (n_eventos < 6):
    En esta parte del árbol, interviene vert_tot (la variación total vertical del pase en el campo).
    • Si vert_tot >= 50, se evalúa dist.promP (la distancia promedio que recorre el pase):
      • Valores de dist.promP < 2.8 aumentan la probabilidad de éxito. Esto sugiere que pases cortos con mayor altura tienen más éxito.
    • Si vert_tot < 50, se vuelve a analizar n_eventos:
      • Cuando n_eventos >= 4, el éxito depende de vert_tot < -42, indicando pases largos y muy verticales como un factor clave.

Interpretación de Variables Clave

  1. n_eventos:
    Es la variable más importante. Jugadas con más eventos tienden a ser más exitosas.

  2. nzonas:
    Participar en 3 o más zonas del campo aumenta la probabilidad de éxito.

  3. vert_tot:
    La variación vertical del pase es crucial, especialmente en la rama derecha.

  4. dist.promP:
    Pases cortos (menores a 2.8 unidades) con altura (vert_tot >= 50) son más exitosos.

  5. x_inicio:
    El valor x_inicio >= 85 indica jugadas que se inician cerca del arco rival (recordando que el arco del rival está en x = 125).


Conclusión

Este árbol, aunque pequeño, muestra patrones interesantes: - Las jugadas con mayor participación (más eventos y zonas) y pases cortos con altura tienen más éxito. - La posición inicial en el campo influye, con jugadas iniciadas cerca del arco rival siendo más exitosas. - Finalmente, el comportamiento de la variable vert_tot y su combinación con otras (como n_eventos y dist.promP) resulta fundamental.

Luego de este análisis inicial, se procede a afinar los hiperparámetros y ajustar un modelo más profundo que capture relaciones más complejas y permita predecir con mayor precisión el resultado de las jugadas.

Los hiperparámetros que se eligen para el árbol de decisión final son los siguientes:

cost_complexity tree_depth min_n
1.94e-05 12 28

La elección de los hiperparámetros se eligieron tomando en cuenta la curva de ROC AUC.

Árbol de Decisión Final

Matriz de Confusión

Se observa que el árbol mejora un poco la performance respecto al la lasso. Sobretodo por que captura interacciones que no se pueden capturar en un modelo lineal.

Metric Value
Accuracy 0.867
Sensitivity 0.841
Specificity 0.890
AUC 0.929

Random Forest

Visualización de la evolución de las métricas según los parámetros

De igual manera, se eligen los hiperparámetros que mejoren la curva de ROC AUC. La elección de los hiperparámetros es la siguiente:

mtry min_n
41 4

Matriz de Confusión

El modelo mejora la performance respecto al lasso y al árbol de decisión.

Importancia de las variables

Como no se puede visualizar las interacciones de las variables por la naturaleza del modelo, se visualizan las variables que tienen mayor importancia. Las que coinciden con las que eligen el árbol de decisión final.

Metric Value
Accuracy 0.896
Sensitivity 0.911
Specificity 0.883
AUC 0.956

LightGBM

Visualización de la evolución de las métricas según los parámetros

De igual manera, se eligen los hiperparámetros que mejoren la curva de ROC AUC. La elección de los hiperparámetros es la siguiente:

trees min_n tree_depth learn_rate loss_reduction
1211 12 11 0.02114 0.0012734

Matriz de Confusion

El modelo mejora la performance respecto al resto de modelos , aunque la mejora respecto al random forest es muy pequeña.

De igual forma que en el random forest, se visualizan las variables que tienen mayor importancia. Donde las variables con mayor importancia coinciden con las que eligen el árbol de decisión final y el random forest.

Metric Value
Accuracy 0.901
Sensitivity 0.899
Specificity 0.903
AUC 0.965

Comparación de los modelos

Model Performance Metrics
Model Accuracy Sensitivity Specificity ROC AUC
Lasso 0.778 0.735 0.817 0.854
Decision Tree 0.867 0.841 0.890 0.929
Random Forest 0.896 0.911 0.883 0.956
LightGBM 0.901 0.899 0.903 0.965

Aunque el mejor modelo en términos de error es el LightGBM, la diferencia de performance respecto al random forest es muy pequeña. Por lo que para poder hacer un análisis interpretable del modelo, se optó por usar el random forest.

Distribución de posiciones iniciales

En el primer gráfico, que muestra las posiciones iniciales de las jugadas según su resultado (éxito = 1 y no éxito = 0), se observa una diferencia clara en la concentración de las jugadas exitosas y no exitosas. Las jugadas exitosas tienden a comenzar más frecuentemente en la zona central alta de la cancha (coordenada X entre 80 y 120, Y entre 40 y 60), lo que sugiere que iniciar jugadas en posiciones cercanas al arco rival incrementa la probabilidad de éxito. En contraste, las jugadas no exitosas parecen distribuirse de manera más homogénea en el campo, con una ligera concentración en la zona central y baja de la cancha. A su vez las jugadas no exitosas tienen un mayor concentración en las bandas de la cancha, lo que sugiere que las posiciones iniciales en estas zonas son menos probables de ser éxitos.

Errores del modelo en el testeo

En el segundo gráfico, se observa que la mayor cantidad de errores del modelo ocurre en la zona cercana al área rival, lo cual no representa un problema significativo ya que es la región donde se concentran la mayoría de las jugadas. Sin embargo, al analizar en detalle los errores según el resultado de la jugada:
- Para jugadas exitosas, los errores parecen estar distribuidos de forma más uniforme a lo largo del campo.
- Para jugadas no exitosas, los errores se concentran principalmente en las zonas cercanas al área rival. Esto indica que el modelo tiende a clasificar como exitosas jugadas no exitosas que ocurren cerca del área, es decir, lo que más le cuesta al modelo es identificar correctamente las jugadas no exitosas en posiciones avanzadas.

Distribución de posiciones finales

Distribución de Posiciones Finales

En el gráfico, se observa que la mayoría de las jugadas exitosas terminan dentro del área rival (coordenada X ≈ 120), lo cual tiene sentido. Por otro lado, las jugadas no exitosas tienden a finalizar en las bandas del campo, lo cual también resulta lógico. Estas pueden corresponder a jugadas que no tienen duración significativa, es decir, comienzan y terminan rápidamente en la misma zona (especialmente en las bandas, donde se observa una concentración de jugadas no exitosas en las posiciones iniciales). Además, por la dinámica natural del deporte, es común que las pérdidas de posesión ocurran en las bandas, donde los espacios son más reducidos y los jugadores suelen enfrentar una mayor presión defensiva.

Errores del modelo en el testeo

Errores del Modelo en el Testeo

En el gráfico de errores del modelo según las posiciones finales, no se observa un patrón claro de concentración en las zonas donde el modelo se equivoca. Los errores parecen estar distribuidos de manera dispersa tanto en las jugadas exitosas como en las no exitosas. Esto indica que el modelo no presenta un sesgo evidente hacia alguna región específica de la cancha.

Sin embargo, se observa que en las jugadas no exitosas, hay algunas pequeñas acumulaciones de errores en posiciones cercanas a las bandas y a zonas intermedias del campo, lo cual puede estar relacionado con la dificultad del modelo para clasificar jugadas que finalizan en áreas menos definidas o de menor relevancia en el juego.

Interpretabilidad del RandomForest

El Aprendizaje Estadístico Interpretable busca enmarcar los resultados de las predicciones en un contexto de interpretación y comprensión de los mecanismos de dichos valores predichos en función de los predictores. Concretamente, en el presente estudio, se busca estudiar las características y cuales son las variables que puedan estar afectando en algún sentido los valores que nos devuelve el RF analizado. En una primera instancia se busca analizar las relaciones entre las variables predictoras más significativas calculadas en los puntos anteriores a través del Partial Dependence Plot que nos da las predicciones promedio para el rango de valores que toma la variable predictora en la muestra. De esta manera, respecto a la verticalidad y horizontalidad total de las jugadas vemos claramente como a menor verticalidad de la jugada (en valor absoluto), mayor probabilidad de éxito en promedio mientras que a mayor horizontalidad (en valor absoluto) mayor probabilidad de éxito. Si bien en este último caso se cuenta con menor cantidad de observaciones en los extremos de la variable predictora analizada, esto es coherente con el resultado anteriormente mencionado en el sentido que, en las jugadas menos verticales, se tiende a arriesgar menos en el sentido de perder la posesión de la pelota. Generalmente, los pases y las conducciones de pelota hacia adelante implican un mayor riesgo de perder la posesión ya que suelen encontrarse mayor cantidad de defensores del equipo rival.

Siguiendo el enfoque de interpretabilidad se analizan las variables de mayor relevancia en RF, resulta de interés la zona de inicio de la jugada. Más precisamente, las coordenadas específicas dónde se inicia la jugada (especialmente y_inicio, es decir el ancho de la cancha).

Por un lado, para la coordenada de la X vemos que la zona del área rival (x>100) tienen una alta probabilidad de éxito, lo cual es esperable debido a que la mayoría de esas posesiones se gestan en zonas cercanas al arco rival. Sin embargo, la mayor probabilidad de éxito se da en posesiones que comienzan alrededor de la mitad de la cancha, es decir para coordenadas entre 50 y 60. Esto puede deberse a que en dicha zona suele haber menor densidad de jugadores rivales lo que permite gestar mejor la jugada y orientarle de tal manera a generar posiciones ventajosas (llegar al arco o área rival) o que el equipo contrario no logre recuperar la pelota.

Por otra parte, para la Y tenemos que, en promedio, la probabilidad de éxito no varía demasiado para cada uno de los valores posibles que puede tomar dicha coordenada. Así todo, la mayor probabilidad (alrededor del 0.527) se da en el extremo derecho del terreno de juego. Esto puede interpretarse como que la mayoría de jugadas de éxito del modelo suelen arrancar en dicho sector del campo, lo que puede obedecer a estilos y patrones de juego específicos de los equipos analizados.

Luego, si tomamos en cuenta la distancia promedio de los pases de la jugada tenemos que la mayoría de las observaciones se encuentran en torno a 15 y 30 unidades (medidas en coordenadas), y es dónde se encuentra, en promedio, la mayor probabilidad de éxito. De alguna manera, este resultado se enmarca en la línea de que pases muy largos son de mayor dificultad y pueden derivar en que el rival recupere la posesión de la pelota. A la inversa, pases más bien cortos no suelen abundar demasiado y también pueden derivar en la pérdida de la posesión debido a una mayor densidad de jugadores rivales.

% error por equipo

Los resultados son similares para los dos mundiales. No se observan equipos con errores muy altos.

Aunque hay una menor varianza en los errores del mundial masculino, si lo vemos en la escala de errores no parece una diferencia muy grande. Las medianas son similares , no parece que se equivoque más en un mundial que en otro. La diferencia en varianza puede deberse a un estilo de juego más variado en el mundial femenino , que el modelo no puede capturar del todo (de todas formas el error es pequeño).

Llama la atención como los equipo con un ranking mayor (perores) tienen un error mayor. Parecería que a un mejor nivel de juego el modelo puede ser más preciso. De todas formas esta relación no parece ser muy fuerte.

Se da algo interesante que y es que hay diferencias entre los mundiales. Por un lado no parece haber una diferencia en el error a mayor cantidad de jugadas en el mundial masculino. Pero en el mundial femenino parece haber una relación negativa entre las jugadas y el error.

Si observamos en detalle los equipos para los cuales el modelo menos logra predecir el éxito de las jugadas (mayor error) son Irán y Costa Rica los cuales no se destacan por tener un juega de mucha posesión (menor cantidad de tiempo la pelota que el rival en promedio) y a su vez jugaron en la fase de grupos contra equipos poderosos y con un estilo de control del juego como lo son Inglaterra, y España y Alemania respectivamente. Esto puede influir en la capacidad de predicción del modelo para dichos equipos ya que en esos partidos se espera que no hayan tenido demasiado tiempo la pelota así como que probablemente hayan tenido que optar por un juego de estilo directo lo que, como se mencionó anteriormente, puede afectar negativamente la probabilidad de éxito debido a que suelen ser pases de mayor dificultad y más alejado del arco contrario.

Modelos por mundial

Como extra se realizaron modelos segmentados por mundial, con la idea de evaluar la diferencia en el rendimiento entre los dos mundiales. Para ello, se utilizó el mismo proceso de modelado y evaluación que se detalló en el análisis de los modelos individuales. Se eligen los hiperparámetros que mejoren la curva de ROC AUC y los modelos usados fueron Random Forest y LightGBM.

De modo de profundizar en el análisis de los determinantes del éxito de las jugadas según características de éstas, se propone estudiar si existen diferencias relevantes en la composición de las posesiones según género. Es decir, se analizan por separado las secuencias uno y otro mundial para ver si existen o no esas diferencias. Precisamente, se lleva a cabo un modelo Random Forest para las 4961 posesiones del mundial masculino de 2022 y las otro para las 4409 del mundial femenino de 2023.

Sin embargo, tanto a nivel de predicción y acierto del modelo como con la significancia de las variables más relevantes no se observan mayores diferencias. Respecto a las predictoras, la importancia de para cada modelo no difiere demasiado de las ya encontradas anteriormente (en el modelo conjunto) ni entre las competiciones de ambos género se observan diferencia en la importancia de alguna variable distinta a la hora de la conformación de las jugadas y en su posterior éxito o no.

Importancia de las variables

Se puede ver en los PDP para distintas variables en ambos modelos (masculino y femenino) se ven similares a tal punto que no se distinguen las diferencias en las probabilidades promedio de éxito según las coordenadas inicio, de la distancia promedio de pases en la jugada, ni en la horizontalidad y verticalidad total de la secuencia.

Modelo Masculino vs Modelo General

Se observa que para el error ya comentado anteriormente del equipo masculino de Costa Rica, éste crece cuando se desagrega el modelo por género.

Modelo Femenino vs Modelo General

Por otra parte, para el modelo femenino vemos que los porcentajes de error en este modelo particular se reducen cuando lo observamos por equipo siendo Filipinas y Suiza los de mayor error (0.12 y 0.07 respectivamente) pero cayendo considerablemente respecto de los 2 equipos de mayor error en el modelo particular masculino: Costa Rica y Ecuador con 0.32% y 0.28 respectivamente.