¿Quién es el Data Scientist?

Profile-cropped
¿Quién es el Data Scientist_

La información es poder, y obtener la mayor información posible en un área determinada es el objetivo de cualquier profesional. Cuando esa información es de una magnitud colosal, entonces necesitas ayuda para poder asimilarlo y eso es lo que ocurre en el fútbol con la aparición del Data Scientist.

Soy Mikel Gandarias, el análisis es mi pasión y en la actualidad la desarrollo en el Departamento de Scouting del RCD Mallorca. Los datos son una herramienta más de nuestro día a día, que nos ayudan a conocer mejor al futbolista y tomar mejores decisiones.

La llegada del Data Scientist

El Data Scientist ha llegado de la mano del mundo tecnológico que nos abraza y que crece de manera exponencial. El deporte, y el mundo del fútbol no es ajeno a esta revolución.

Constantemente aparecen herramientas novedosas que evalúan todo lo que ocurre en el campo. Estas herramientas están vinculadas a software avanzado y algoritmos complejos que consiguen que enormes cantidades de datos sean generados, recogidos y tratados. Así tenemos acceso a muchísima información de forma inmediata.

Toda esta revolución ha hecho que la estructura de un club se viese directamente afectada y se adaptase a estos cambios.

El termino Big Data no hace muchos años era una novedad, que asociábamos principalmente al deporte americano, muy unido a la investigación y entornos universitarios.

Después pasó a ser una aventura en forma de lujo que unos pocos equipos emprendieron, apostando por una inversión. Contratando perfiles tecnológicos que hace muy poco eran ajenos completamente al mundo del fútbol.  A partir de ahí, se fue creando un espacio para aprovechar esa cantidad de información y darle sentido. En los últimos  años, ha pasado a ser una obligación necesaria para cualquier club. Cada uno en la medida de sus posibilidades debe actualizarse, adaptarse y poder aprovechar este enorme volcán de información que se genera.

Integración en un Club

Toda esta transformación que se lleva a cabo en la fisonomía de un club va dirigida a abrazar a una ciencia muy específica, que es el Data Science. Esto viene acompañado principalmente de la figura del Data Scientist y Data Analyst.

Pero al hablar de la figura del Data Scientist hay que profundizar un poco en el ecosistema de los datos para entender como es la estructura del Data Science en las áreas deportivas de un Club, como desarrolla su trabajo el Data Scientist y qué puede aportar.

En el fútbol anglosajón nos llevan algo de ventaja en la creación de esa estructura de trabajo en torno al dato. En la mayoría de sus equipos de élite disponen de un departamento propio desde donde coordinan todo el trabajo que se realiza para llegar a los consumidores finales dentro del propio club:

  • Departamento de preparación física con datos físicos.
  • Área médica con la prevención de lesiones.
  • Cuerpo técnico con el análisis propio y de rivales.
  • Departamento de Scouting con toda la información de los jugadores en seguimiento y perfiles establecidos.

Este trabajo no es unidireccional, se complementan en todo momento unos de otros. El feedback es constante e incluso normalmente en cada departamento existe la figura del analista específico que digiere la información. Este analista hace de enlace con el departamento científico y transforma el conocimiento en información útil para la toma de decisiones finales. A día de hoy, incluso entrenadores de primer nivel incluyen analistas de datos en su estructura móvil de cuerpo técnico.

En nuestra liga, ya hay varios equipos que han adoptado esta estructura de departamento especifico de datos, y cada vez más equipos van por ese camino de acercarse a los datos y desarrollar su estructura. Ver entrada, cómo se aplica el Big Data en el Real Madrid.

Departamento de Big Data

Como vemos, en grandes clubes hay cabida para varios perfiles relacionados con el estudio de los datos. El mundo de los datos se puede resumir en tres pilares: volumen, velocidad y variedad.

Básicamente representan la gran cantidad de información que se genera. La necesidad cada vez mayor de utilizar y sacar información de una manera inmediata en tiempo real. Es muy importante que el dato con el que se trabaja sea de calidad. Si el dato no es bueno, corremos un gran riesgo de que la información y el análisis que se realice tampoco sea efectivo, por ello se hace mucho hincapié en la calidad del dato.

Ante toda esta eclosión de información se organiza el departamento de Data Science, el cual debe ser capaz de aglutinar principalmente cuatro funciones:

  • Recoger o adquirir los datos.
  • Almacenarlos.
  • Analizarlos.
  • Transmitir la información cosechada.

Este proceso es un trabajo complejo que necesita una formación especializada y para ello, técnicos que sean capaces de realizarlo. Todos ellos engloban a la figura del Data Scientist.

Etapas en el procesamiento de datos

Como podemos ver, hay mucho trabajo especializado detrás de la visualización final que se transmite directamente al responsable de cada área. El Data Scientist debe conocer varios sectores incluyendo: programación, conocimientos informáticos, conocimientos estadísticos y por supuesto conocimiento de fútbol y su entendimiento. Debe conocer el lenguaje utilizado por los usuarios finales de la información y además, si puede ser, estar en contacto con ellos.

En casos de clubes con grandes estructuras y una amplia capacidad humana pueden dominar todos los aspectos del proceso. De esta forma consiguen, por medio de un equipo amplio de trabajo de Data Scientists, controlar cada una de las etapas y proceso de datos. Para ello deben poseer una especialización concreta y roles determinados.

Podemos enumerar las etapas y sus necesidades:

  • La recolección de datos y su metodología.
  • Organizar toda la información, tanto la generada por recursos propios como la de fuentes externas y almacenarla en bases de datos SQL.
  • Controlar su proceso de calidad.
  • Las herramientas que van a utilizar para la manipulación y programación de dichos datos, Python o R.
  • Debido a que los volúmenes de datos e información deben definir el entorno de trabajo a utilizar, ya sea Hadoop o Spark, ambos son flexibles y escalables.
  • Las herramientas para utilizar en la creación de las visualización de los datos, tales como Tableau o Power BI. Ambas herramientas dan soluciones rápidas y ayudan a comunicar los gráficos, informes y visualizaciones interactivas de manera clara y directa. Dicha visualización debe llegar de una manera atractiva que a simple vista le llegue la información que se quiera transmitir con el contenido justo y necesario.

Hace pocos años conseguir datos estaba al alcance de muy pocos, en cambio hoy, están democratizados lo cual es una de las revoluciones en el mundo de los datos. Cualquier club puede tener acceso a los datos por medio de los numerosos proveedores de datos que existen, Opta – Stats, Instat, StatsBomb, Tracab-Chyronhego… También hay páginas gratuitas para obtener datos de fútbol.

Proveedores de datos

Al fin y al cabo, toda la estructura debe ser multidisciplinar, entrelazada, cooperativa y donde el feedback entre todos los participantes en el ciclo de los datos suma para obtener el resultado idóneo. Lo que queremos obtener de los datos es ayudar al equipo, ese el objetivo final de cualquiera área del club donde los datos participan. La información de los datos se transmite por medio de visualizaciones.

La visualización del dato

El Data Scientist maneja muchos datos en el fútbol, los cuales nos dan mucha información. Los datos principales durante un partido son, eventing (situaciones donde aparece el balón y lo que le rodea) hasta unos 3.500 por partido y tracking (lo que sucede en el campo cada segundo y con cada jugador, posicionamiento y la relación entre todos ellos) son mucho más complejos y nos dan una visión completa del juego. También son de un tamaño mucho mayor, más difícil de manejar y requieren un análisis más profundo. Más de 3 millones por partido.

Toda esta información tras ser tratada se transmite por medio de visualizaciones que hay que analizar. Algunas de las visualizaciones y documentación con la que se tiene que familiarizar el Data Scientist a la hora de entender, contextualizar y analizar los datos para convertirlos en información útil son:

Gráficas de radar y área

Son una herramienta muy útil para crear perfiles de jugadores mediante los eventos y modelos avanzados recogidos. Se crean radares con distintas métricas para poder analizar perfiles de jugadores, comparar jugadores y encontrar jugadores con los perfiles y características que hayamos establecido. Muy útil en el departamento de Scouting.

Gráficas de radar y área

Mapas de calor

Con una imagen y visión rápida se pueden interpretar las zonas de influencia tanto grupal, de una línea o de un jugador en concreto. Hay variedad de mapas de calor para observar y mostrar la influencia de algún aspecto del juego por zonas.

Mapas de calor

Gráficos de redes de pases

Es importante para un análisis táctico y del juego, tanto a la hora de analizar el juego de tu propio equipo, como a la hora de interpretar y entender el juego de un rival. Muestra las conexiones de pases y su frecuencia entre jugadores, dando una información clara de los jugadores claves a la hora de creación. Cuales son los jugadores que participan en esa fase y la zona del campo donde aparecen.

Red de Pases

Lanzamientos por zona y resultado

A la hora de conocer las finalizaciones tanto propias como de rivales, los gráficos de lanzamientos son muy útiles. Señalan la posición del lanzamiento, en distintos colores la probabilidad de gol. Según su figura conocemos la superficie de golpeo y el resultado del lanzamiento.

Lanzamientos y resultado (Fuente: StatsBomb)

Distintos Modelos avanzados

Estos son creados por las distintas variables que se dan en una acción, tales como la parte del cuerpo de un remate, la velocidad, el ángulo respecto a la portería, la posición de los rivales que participan y el portero. Nos puede decir por ejemplo por medio de un tiro, la probabilidad de que ese tiro acabe en gol. Ejemplo los Goles esperados (xG).

Vista de un tiro (Fuente: StatsBomb)

Sonar de pases

Estos gráficos llegaron después de las redes de pases para dar sentido a la dirección de los pases y ayudar a detallar las tendencias individuales de dichos pases. Analizados junto a los mapas de pases, nos indican la influencia de cada jugador en la circulación del balón y la dirección de los pases.

Sonar de pases (Fuente: StatsBomb)

Estas son solo algunas de la visualizaciones en forma de gráficos con las que trabaja constantemente el Data Scientist al analizar un partido, el juego de un rival o un jugador que es seguido por la dirección deportiva.

En la preparación de cada partido se realiza un análisis pre-partido y post-partido con todos los datos que se generan. En todo el desarrollo de este trabajo van de la mano con los analistas tácticos, por medio del vídeo y complementan los datos. Cada cierto tiempo, establecido juntamente con el cuerpo técnico, se realiza un balance del rendimiento del equipo propio.


El mundo del dato tiene su propio universo y el trabajo del Data Scientist aunque sea de gran magnitud,  es solo una gota más dentro de toda la red y estructura de un club. Es un eslabón más en el engranaje de su funcionamiento. El fútbol es en gran parte sorprendente e imprevisible, pero posee otra gran parte de ciencia que es posible de estudiar, conocer y predecir.  

Una de las frases célebres de Billy Bean en la película Moneyball, donde habla del cambio es:

“If we pull this off, we change the game, we change the game for good!”

Los datos han llegado para revolucionar el deporte y con ellos la figura del Data Scientist que analiza, hace preguntas y da respuestas.

Profile-cropped

Acerca del autor

Mikel Gandarias

Analista Técnico - Actualmente RCD Mallorca (Liga Santander).
Experto en Análisis y Scouting.
Entrenador UEFA PRO.
Estudiante Máster Big Data Deportivo @bddeportivo
En continua formación.

Interacciones con los lectores

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Responsable del fichero: Daniel Pérez del Campo Finalidad; resolver las dudas planteadas.La Legitimación; es gracias a tu consentimiento. Destinatarios: tus datos se encuentran alojados en mi plataforma de hosting de loading. Podrás ejercer Tus Derechos de Acceso, Rectificación, Limitación o Suprimir tus datos enviando un email a hola@objetivoanalista.como ante la Autoridad de Control.Encontrarás más información en política de privacidad

Este sitio usa Akismet para reducir el spam. Aprende cómo se procesan los datos de tus comentarios.

regalo_mockup

¿Eres invisible como analista de fútbol?

Potencia tu marca personal y llega a miles de personas

¡Descargate gratis mi guía!
Para empezar hoy mismo como analista de fútbol

Share This