Para el calentamiento y fase de activación de este artículo me gustaría presentarme brevemente. Mi nombre es David Fombella (@bigdatasport en twitter) y me dedico a la consultoría especializada en Sports Analytics en Stratebi, donde nos dedicamos al Big Data e Inteligencia Artificial desde el punto de vista deportivo y del rendimiento.
Además, disfruto de la docencia en dos másteres sobre Big Data Deportivo (visión global orientado a todos los perfiles) e Inteligencia Artificial aplicada al deporte (orientado perfiles más técnicos y personal TIC) organizados por Campus Big Data y ENIIT. A través de ellos, he tenido la suerte de conocer a Dani Pérez y la gran labor que realiza difundiendo y ayudando a los analistas a través de este portal y en su plano deportivo particular dentro del fútbol femenino.
Siempre parto de la siguiente infografía para explicar el espectro de posibilidades, a nivel de fuentes y herramientas, que existen en el ecosistema Big Data del fútbol (obviando algunas tecnologías de almacenamiento y procesamiento más complejas).
1. Proveedores de datos deportivos
1ª Parte – minuto 0-15
En esta fase inicial de nuestro partido es importante conocer qué proveedores de datos tiene el club. Bien sea por el hecho de pertenecer a una determinada competición (1ª y 2ª División poseen Mediacoach gracias a La Liga, mientras que en 2ª División B se dispone de cuentas Wyscout vía acuerdo con la RFEF); o porque se estén pagando licencias por algún departamento del club (Secretaría Técnica posee licencias de InStat para scouts).
Una vez que tenemos claro los datos con los que contamos, es importante conocer los principales portales web de información que tenemos disponibles. Me gustaría añadir sobre las que se mencionan en este reciente artículo de Álvaro Bernal las siguientes 2 referencias: Sofascore con datos de Opta y un algoritmo de puntuación de rendimientos en partido muy interesante y FBREF con datos estadísticos avanzados proporcionados por Statsbomb.
En estos portales web podrás encontrar: estadísticas del partido, principalmente de eventos que tienen lugar en torno al balón (pases, centros, tiros, faltas, tarjetas, goles, asistencias…), información de valoraciones de mercado y lesiones en el caso de Transfermarkt.
No puedo terminar este punto sin mencionar las páginas web que proporcionan información en categorías inferiores y fútbol no profesional en general, como: LaPreferente, Futbolesta y Futbolme. Aquí, he visto auténticas obras de arte tecnológicas para extraer, automáticamente, datos de actas publicadas por federaciones de fútbol regionales.
2. Datos GPS – físico condicionales
1ª Parte – minuto 15-30
En esta fase intermedia de la primera parte nos centramos en los datos utilizados por el preparador físico y los readaptadores de los clubes.
En el fútbol profesional, en España, los GPS y tecnologías análogas se usan en la mayoría de equipos, donde 40 de los 42 clubes de La Liga cuentan con este tipo de tecnología para sus entrenamientos. Estos dispositivos proporcionan indicadores de volumen, intensidad y carga con un nivel de detalle y precisión altísimo. Esto, permite a sus preparadores realizar, entre otras muchas cosas, un control de carga externa-individualizado.
También se está extendiendo su uso en otras categorías del fútbol como 2ª B y 3ª División. Principalmente, debido a la existencia de dispositivos low cost como PlayerTek, una gama de bajo coste que proporciona unas 70 métricas a un precio de apenas 170€ por dispositivo.
No quiero terminar esta sección sin mencionar otros datos referentes a la gestión del esfuerzo que ayudan a monitorizar la carga interna de cada futbolista. Un ejemplo son los cuestionarios RPE/Wellness, en los cuales se puntúa del 1 al 5 los siguientes aspectos: fatiga, calidad del sueño, nivel de estrés, humor y daño muscular general. Este tipo de cuestionarios se pueden realizar en una simple hoja Excel y pueden aportar datos muy valiosos.
3. Tracking óptico
1ª Parte – minuto 30-45
Terminamos los últimos 15 minutos de la primera parte enunciando en qué consisten los datos más avanzados que hay, hoy en día, en el mundo del fútbol. En los estadios de última generación y en competiciones top mundiales, tienen instaladas cámaras fijas de seguimiento.
Si nos centramos en La Liga, el sistema de tracking utilizado es proporcionado por el sistema Tracab de la empresa ChyronHego.
Existen este tipo de sistemas de seguimiento en: grandes competiciones de FIFA (fases finales de mundiales), 5 grandes ligas europeas, Champions League, MLS…
¿Cuánta información proporcionan estos dispositivos?
Lo habitual es que estos dispositivos ópticos proporcionen información a 25 fotogramas por segundo, por lo que se dispondrá de la posición X, Y de los jugadores y X, Y, Z del balón, 150.000 veces por partido. 150.000 fotogramas x 23 (22+1) = 3,5 millones de puntos aproximadamente en un partido.
Sobre la posición X, Y podemos comenzar a realizar cálculos de velocidades, distancias tácticas (polígono del equipo, amplitud, profundidad …) las posibilidades son casi infinitas.
Personalmente me gusta buscar situaciones en las que nuestro equipo esté realizando una mala vigilancia defensiva o revisión de basculaciones. Existen alertas para avisar al entrenador en el caso de que se den algunas situaciones que consideremos de riesgo.
4. Vídeo etiquetado subjetivo
2ª Parte – minuto 45-60
Arrancamos la segunda parte con fuerzas con los datos generados manualmente gracias a la gran labor de los analistas de vídeo. Esta información posee un gran valor al utilizar el lenguaje del cuerpo técnico.
Sin duda, me encuentro en uno de los lugares más apropiados para mostrar las posibilidades que aparecen después de realizar un etiquetado manual de partidos mediante programas como Nacsport, ERIC Sport, LongoMatch o SportsCode.
Por experiencia, e independientemente del tipo de plantilla de botones (análisis propio/rival, eventos, fases del juego o ABP) que se utilice, será posible exportar las acciones cortadas en un formato XML denominado Timeline (formato estándar entre múltiples compañías proveedoras de datos).
En los archivos Timeline existe una marca de tiempo inicial y otra final junto con el código/categoría del evento etiquetado, por ejemplo un tiro. También se incluyen todos los descriptores/etiquetas que se le hayan añadido a ese evento: 1ª parte, número del jugador, bien/mal, resultado, estado del partido, zona del disparo, finalización…
Se dispondrá siempre de la siguiente información:
- ID de la acción 188 (campo numérico incremental 1, 2, 3, 4, 5, 6, 7, 8).
- Inicio de la acción 5585 (acumulado de segundos).
- Fin de la acción 5600 (acumulado de segundos).
- Categoría o Código ATAQUE (acción principal que marca la realización de un corte de vídeo).
- Descriptores o Etiquetas TIRO A PUERTA, JUGADOR 08, FINALIZACION (1 o varios por cada categoría añadiendo contexto).
La existencia de este tipo de archivos con formatos estándar nos permite, por ejemplo, el intercambio de partidos etiquetados entre distintas plataformas. Ver en este ejemplo de mi canal de Youtube sobre el uso de un XML de InStat en Nacsport.
El club ideal sería uno en el que todos los cuerpos técnicos de cantera etiquetaran partidos y entrenamientos con una plantilla común. Así se podría analizar históricamente las acciones con información interna y de calidad.
5. Procesamiento, Machine Learning y analítica de datos
2ª Parte – minuto 60-75
Llegados a este tramo intermedio de la segunda parte, necesitamos conocer las herramientas y tecnologías que nos ayudarán en esta fase. Son poco visibles, pero sin duda, serán los cimientos de una buena estrategia Big Data de fútbol a nivel global.
Para realizar tareas de ingesta, limpieza y carga en una base de datos necesitaremos herramientas Open Source. Esto nos permite (con un coste cero de licencias) leer ficheros y formatos de datos complejos y almacenarlos en sistemas de base de datos que permitan, de forma global, el acceso a los diferentes departamentos de nuestro club. Huyamos del Excel gigantesco que tarda 5 minutos en abrirse.
En el plano más analítico están los grandes lenguajes de programación de la actualidad, R y Python. Yo empecé usando más R y realmente los dos son lenguajes muy completos. Mi opinión actual es que Python esta un escalón por encima, especialmente para el mundo del fútbol por las siguientes razones:
- Mayor número de librerías Deep Learning (en R están pero llaman internamente a Python).
- Computer Visión – Open CV (para convertir por ejemplo vídeo de partido en datos de tracking).
- AlphaPose (evaluación de la pose humana para responder a preguntas como ¿se perfilan bien nuestros laterales ante centros laterales?)
- OpenPose (evaluación de la pose humana).
El 90% de los vídeos del fabuloso canal de David Sumpter Friends of Tracking utilizan Python y no creo que sea por casualidad. Pero en resumen, debes conocer al menos 1 de los 2 lenguajes bien porque ambos son igual de potentes.
6. Visualización
2ª Parte – minuto 75-90
Se acerca el minuto 90 y tenemos que generar visualizaciones que sean útiles a nuestro cuerpo técnico, médico y secretaría técnica. Llega la hora de los dos gigantes de la visualización Microsoft Power BI y Tableau.
- Power BI es, por decirlo así, el hermano mayor visual de Excel. Gratis en su versión de escritorio y con un entorno de uso similar a Excel, nos permitirá realizar visualizaciones y cuadros de mando interactivos en minutos. Su ritmo de evolución es espectacular, con 1 actualización mensual. Power BI integra perfectamente dentro de ella la ejecución de Python y R. Aquí puedes ver un ejemplo funcional de Power BI con datos de Opta de La Liga 2018-19.
- Tableau es un software que permite a usuarios, con más conocimientos de la herramienta, realizar gráficos prácticamente a medida donde se puede customizar cada mínimo detalle de cada gráfico. Sin embargo, tiene un coste en su versión de escritorio, por lo que la única opción que tiene Tableau gratuita es el uso de Tableau Public, en el que tus cuadros de mando y visualizaciones publicadas serían abiertos y mostrados a todo el mundo.
Suena el pitido final y nos quedamos con ganas de prórroga. Recordad que los datos no marcan goles, ni realizan alineaciones, pero bien utilizados podrían ayudar al entrenador y al resto del cuerpo técnico a conocer mejor a su rival y a su propio equipo con métricas cuantificables de rendimiento.
Fdo: Un humilde apasionado de los datos pero sobre todo del fútbol.