Así utiliza el Real Valladolid el 'big data'

El analista Paco González y su equipo trabajan para el club blanquivioleta tras la incorporación de Miguel Ángel Gómez a la dirección deportiva

El analista y consultor Paco González, en el Centro de Procesamiento de Datos (CPD) del Parque Científico de la Universidad de Valladolid/A. Mingueza
El analista y consultor Paco González, en el Centro de Procesamiento de Datos (CPD) del Parque Científico de la Universidad de Valladolid / A. Mingueza
Arturo Posada
ARTURO POSADAValladolid

El Real Valladolid ha incorporado el ‘big data’ al plan estratégico del club. La llegada de Miguel Ángel Gómez a la dirección deportiva blanquivioleta llevó aparejada la contratación de los servicios de la empresa que encabeza el vallisoletano Paco González, Moneyball Data SL, una firma que actualmente colabora con el Sevilla (donde se inició la relación con el responsable deportivo blanquivioleta), Levante, Real Valladolid, FC Barcelona (simposium informativo), así como con la Universidad Europea del Real Madrid y la Universidad de Valladolid (desde el punto de vista formativo). Pero, ¿cómo funciona todo el proceso de tratamiento masivo de datos aplicado al fútbol? Empecemos por el principio.

  • 1

¿Qué es el ‘big data’?

El historiador israelí Yuval Noah Harari define en el libro ‘Homo Deus’ el dataísmo como «la religión de los datos» que promete «el santo grial científico». «Una única teoría global que unifique todas las disciplinas científicas. Según el dataísmo, la Quinta Sinfonía de Beethoven, la burbuja de la Bolsa y el virus de la gripe no son sino tres pautas de flujo de datos que pueden analizarse utilizando los mismos conceptos y herramientas básicos», escribe Harari. Todo, por tanto, se puede explicar con datos. «El ‘big data’», expone Paco González, «abarca un gran volumen de datos que por su envergadura no puede ser tratado por herramientas habituales informáticas. En el fútbol buscamos patrones de comportamiento y tiene dos aplicaciones: fuera y dentro del terreno de juego. Fuera, es como en cualquier empresa y se aplica a socios, patrocinadores, redes sociales... Dentro del campo, sirve para ahorrar tiempo y minimizar riesgos en la toma de decisiones».

  • 2

Datos, sí, ¿pero qué datos?

Los datos que se manejan en el ‘big data’ no son las estadísticas básicas que se publican habitualmente sobre un partido de fútbol ni tampoco los coloridos ‘mapas de calor’, que plasman las intervenciones de los jugadores con el balón en sus botas. «No puedes tomar decisiones con esos datos. Solo valen para tener cierta información. El ‘big data’ empieza a serlo cuando hablamos de petabytes de datos [un petabyte equivale a un millón de gigas]», subraya Paco González. El gran tesoro radica en los ‘raw data’ (datos en bruto) que generan los partidos de fútbol y que no están al alcance de cualquiera. Es la película completa de un encuentro traducida a datos. Actualmente, solo la UEFA los facilita a los equipos en competición europea. Volveremos sobre esto más adelante.

En los estadios hay cámaras de monitorización de la Liga a través del programa Media Coach que hacen 25 barridos por segundo (frames).

Cada jugador tiene asignado un identificador y ofrece unas coordenadas (XY) en cada ‘frame’. «Si se combinan todos los datos que genera cada jugador a través de 250 parámetros se obtienen aspectos físicos, velocidades, kilómetros recorridos... Eso muestra todo lo que sucede a nivel físico, pero no solo eso. Si el jugador ID1 en la posición X1Y1 se enlaza con el ID8 aparece un pase... Y así hasta 500 variables. Se generan 80 millones de filas en el programa. En papel se necesitarían 20.000 kilómetros para imprimir todos esos datos».

Detalle de uno de los servidores alojados en el CPD
Detalle de uno de los servidores alojados en el CPD

  • 3

Los proveedores

El ecosistema del ‘big data’ se basa en cuatro procesos: toma del dato, depuración del dato, analítica del dato y reporte del dato. «El 90% del éxito está en la toma y en la depuración del dato», subraya Paco González. La empresa Moneyball Data SL utiliza varios proveedores para cruzar la información: Instat, Opta, WyScout, ISF, Transfermakt, Whoscored, Media Coach, los GPS de los entrenamientos que emplean los equipos, el ‘raw data’ que ofrece la UEFA y una aplicación llamada NAC, muy útil para la cantera.

Instat ofrece datos en Excel, con las coordenadas XY de los jugadores, y vídeos. «Pero solo hay un proveedor que muestra los datos con Z, la pelota: la Liga, que lo tiene en posesión», dice González. Opta es el gigante estadístico y uno de los proveedores de la Liga a través de Media Coach. WyScout posee una gran base de datos, con datos XLS (Excel), de fácil tratamiento y XML, archivos más desconocidos para el gran público y muy útiles para los analistas. ISF es una plataforma más específica para el ‘scouting’ de jugadores, que exporta los informes de los distintos ojeadores de un club a un fichero para tomar decisiones óptimas.

La base de datos de Transfermarkt (de fuente abierta) permite conocer lesiones de jugadores y precios de mercado, aunque Moneyball Data aplica algoritmos para ponderarlos (definición de algoritmo: conjunto metódico de pasos que se emplean para hacer cálculos, resolver problemas y alcanzar decisiones; no es un cálculo concreto, sino el método que se utiliza en cada caso). «Dembelé no vale lo mismo antes del fichaje de Neymar que después. No vale lo mismo un jugador en Alemania que en Venezuela en plena crisis política», ejemplifica Paco González. Whoscored ofrece un montón de información de partidos, aunque no de la Segunda División Española. Media Coach arroja datos físicos y vídeos de los encuentros. En el Real Valladolid, los jugadores llevan GPS en entrenamientos y partidos que permiten obtener una cascada de información con diferentes variables: ofrecen ‘raw data’, con valores físicos y técnico-tácticos. NAC permite aplicar a la cantera el mismo tratamiento de datos que se utiliza en el fútbol de élite: los entrenamientos y partidos se graban en vídeo, y se marcan con las etiquetas deseadas (tiro, basculación, ‘tackle’...). El Real Valladolid lo utiliza.

  • 4

Análisis y reporte

Los datos son muchos y variados, pero hay que interpretarlos y depurarlos. Para esto, existen herramientas con diferentes grados de complejidad. IBM Watson Analytics es una de las preferidas por Paco González y su equipo. Hay otras herramientas como R, un lenguaje estadístico de programación que requiere conocimientos más avanzados, o Python, ahora de moda. SAP, el sistema operativo de las industrias, es muy útil, así como SAP. «Si tú entras en un fichero ‘raw data’ no es fácil que lo entiendas. Nuestro objetivo final es generar un archivo de Excel con lo datos requeridos. El reporte final tiene que estar muy definido: cortito y al pie. No puedes darle a Luis César o a Miguel Ángel Gómez 57 páginas para que se las lean».

A través de la herramienta Tableau, se pueden establecer comparativas de jugadores, valorados previamente por los ojeadores del club que permiten determinar cuál es el precio recomendado para un fichaje. El equipo de Moneyball Data ha implementado un algoritmo (ideado por Luismi Gómez, otro de los consultores de la empresa) para ponderar a los futbolistas que proceden de las cinco grandes ligas europeas. Los directores deportivos y presidentes tienen la última palabra para fichar, pero a través de los datos pueden comprobar cómo jugadores que no estaban en su radar más cercano resultan muy interesantes. Actualmente, se pueden comparar datos de 55 competiciones de todo el mundo, que pueden ampliarse a petición de los clubes.

Sin embargo, los analistas de Moneyball Data quieren ir más allá. «El paso que queremos dar es generar un valor que se llame ‘aportación ofensiva’ y que englobe 1.200 parámetros. Para ello estamos colaborando con un equipo de físicos de la Universidad de Valladolid. Se trata de aprender de lo que quiere el fútbol: es cada club el que debe determinar qué conceptos son los más importantes. Puede ser el que ataca tantas veces, el que llega a la segunda línea de rechace...».

  • 5

La alianza con la UVA

¿Por qué Valladolid es una ciudad puntera en este asunto? Responde González: «La UVA es la única universidad pública de España que tiene un grado propio en ‘big data’, Indat, un grado de estadística e informática. Por eso empezamos aquí el curso [de experto en análisis deportivo de datos y ‘big data’], que dirige Funge [Fundación General de la UVA]. Lo que más nos interesa es que gran parte del conocimiento se quede en Valladolid. En la tercera edición hay varios alumnos del Real Valladolid, incluidos jugadores como Toni Villa y Asier Villalibre, que, por cierto, son espectaculares. Se trata de extender el virus y que dentro de dos años haya cinco tíos que hagan este tipo de análisis en Zorrilla. Es una nueva revolución industrial. O estás dentro o tienes un problema». El FC Barcelona, el Real Madrid y la Real Sociedad también están representados en el curso que dirige Paco González.

De izquierda a derecha, Luismi Gómez y Paco González y José Manuel Cuena
De izquierda a derecha, Luismi Gómez y Paco González y José Manuel Cuena

En la primera edición se inscribieron Moisés del Hoyo y Sergi García, entonces preparadores físicos del Sevilla FC. La onda le llegó a Monchi, que acabó contratando los servicios de Paco González para el club hispalense. Cuando Miguel Ángel Gómez, mano derecha de Monchi, llegó al Real Valladolid quiso seguir contando con los datos de Moneyball Data. Del Hoyo se marchó al Levante y la vinculación continúa por ese lado. Sergi García se fue a China y por allí también se pueden abrir nuevos caminos: Paco González anda pendiente de la oferta que previsiblemente le hará el Hebei Fortune, el equipo que entrena Manuel Pellegrini en el gigante asiático, y viajará a China a finales de mes.

Las cabezas visibles de Moneyball Data son Paco González y Luismi Gómez. La empresa cuenta con una estructura de colaboradores que amplían el equipo hasta más allá de la decena de personas. Muchos de ellos no solo trabajan para el Real Valladolid, sino que son abonados del club blanquivioleta, por lo que existe una vinculación sentimental que trasciende la parte estrictamente empresarial

  • 6

Servidores en el CPD

«La nube existe y está aquí», dice José Manuel Cuena, responsable del Centro de Procesamiento de Datos (CPD) del Parque Científico de la UVA y encargado de que la instalación funcione «bajo cualquier circunstancia». «Este CPD, que no es de la Universidad de Valladolid, da servicio al ecosistema de empresas que están instaladas en el Parque Científico. Paco González y su equipo están aquí dentro del espacio de ‘co-working’ [a través del proyecto Open Future de Telefónica]. Es una instalación Tier III: estamos en la ‘Champions’ de los CPD pero no llegamos a semifinales. Tier IV habrá 15 o 20 en el mundo y obligaría a duplicar todas las infraestructuras».

Tres toneladas de baterías darían servicio en caso de un corte de luz «infinito». Varias bombonas consumirían el oxígeno de la sala si se produjera un incendio. La instalación que garantiza la refrigeración cuesta un millón de euros y el habitáculo donde se encuentran los servidores, cinco millones. «Pero lo más importante son los datos. Nuestra obsesión es conservarlos, pase lo que pase. Contemplamos todos los riesgos que pueden suceder», apunta Cuena.

Un total de 500 servidores zumban en una sala de aspecto futurista donde parpadean multitud de luces. Ahí está alojada la información del Sevilla y del Levante en servidores propios. También la del Real Valladolid, dentro del servidor de Moneyball Data. El almacenamiento externo permite disponer de los datos desde cualquier dispositivo autorizado y evita que la información esté dispersa y compartimentalizada, así como que desaparezca si se marchan los responsables de un club. «El concepto no puede ser la información es mía. No, es de la empresa. Nosotros recomendamos a los clubes que hablen con el Parque Científico para que lleguen a un acuerdo con ellos», dice Paco González. Por poco más de cien euros al mes, los datos del Real Valladolid están guardados a buen recaudo, así como los del Sevilla y Levante, que pagan algo más al disponer de servidores propios

  • 7

Los ‘raw data’

Un fichero de ‘raw data’ como los que suministra la UEFA a los equipos que juegan en Europa consiste en líneas y líneas de código y ofrece absolutamente toda la información de un partido. Nada de lo que sucede en el césped escapa al ojo escrutador del ‘big data’. «El formato es el mismo que el que te descargas de un reloj cuando corres», dice Luismi Gómez. «Todo va por id’s [identificadores]. El estadio, la hora a la que comenzó la primera parte y la segunda. Y luego empiezan los ‘frames’, 25 por segundo. En cada ‘frame’ aparece si el balón estaba en juego y quién tenía la posesión. El tipo 7 siempre es el balón, los de tipo 1 son los visitantes y los de 0, los locales. El balón es el único que tiene coordenadas XYZ [la altura]. En solo cinco minutos de partido, ya se han generado 179.000 filas».

«Los mapas de calor solo registran a los jugadores cuando tocan la pelota», interviene Paco González. «Aquí en cambio podemos ver por dónde se mueve un jugador durante todo el partido. Y podemos buscar patrones de comportamiento. Teniendo el ‘raw data’, y tratándolo con un ‘software’ como R, le puedes decir a un entrenador por dónde juega un equipo».

Paco González pone un caso práctico: un técnico dividió el campo en varias franjas y les pidió analizar qué duelos se producían en las distintas zonas. «Pero fuimos más allá de los duelos y le ofrecimos comparar todas las acciones que desease. Una gráfica espacial sirve para visualizarlo todo. Si ves, por ejemplo, que tu lateral tiene un 60% de éxito y el rival un 75%, quizá convenga utilizar una variante con otro defensor o contrarrestarlo tácticamente con otra disposición del equipo».

«El ‘raw data’ desmonta el debate entre la antigua y la nueva escuela en el fútbol. La antigua dice que no se puede analizar el fútbol desde el dato. Estoy de acuerdo porque yo también tengo la gorra de entrenador. Claro que no se puede analizar el fútbol con los datos que da la prensa deportiva, pero si vieran un fichero ‘raw data’ cambiarían de opinión», sentencia Paco González.

  • 8

Parte del equipo de Miguel Ángel Gómez

«Nosotros no hablamos de que vamos a encontrar al nuevo Messi. Tampoco tenemos un algoritmo mágico», recalca Paco González. «Pero antes de tomar una decisión en el Real Valladolid, Miguel Ángel Gómez consulta a su equipo de trabajo y entre ellos estamos nosotros. Nos dice: quiero fichar a Pepito, sácame datos físicos, lesiones, tiros a puerta, etcétera. Lo que nos pida. Él es el que decide con esos datos y otros. Aquí no hay fórmula de la Coca-Cola, pero el ‘big data’ sirve para ahorrar tiempo en los procesos, minimizar al máximo el riesgo en la toma de decisiones y, como decía Luis Aragonés, ayudar a ganar, ganar y volver a ganar. Si esto sigue creciendo tendré que decidir con qué clubes trabajo porque puede haber conflicto de intereses. Si el Real Valladolid ascendiese a Primera y se convirtiera en un equipo ‘top’, entre los siete-ocho primeros, yo solo podría trabajar con Sevilla o con Valladolid».

  • 9

Auge del dataísmo

Finalicemos con algunas frases de Yuval Noah Harari, el historiador israelí que ha saltado a la fama mundial con sus libros ‘Sapiens’ y ‘Homo Deus’. En este último escribe, a propósito del dataísmo: «La nueva consigna dice: ‘Si experimentas algo, regístralo. Su registras algo, súbelo. Si subes algo, compártelo’ […] Para los verdaderos creyentes, estar desconectado del flujo de datos supone arriesgarse a perder el sentido mismo de la vida. ¿Qué sentido tiene hacer o experimentar algo si nadie se entera y si no aporta algo al intercambio global de información? […] El capitalismo no derrotó al comunismo porque fuera más ético, porque las libertades individuales fueran sagradas, sino porque el procesamiento de datos distribuido funciona mejor que el procesamiento de datos centralizado, al menos en periodos de cambios tecnológicos acelerados. Sencillamente, el comité central del Partido Comunista no pudo adaptarse al mundo rápidamente cambiante de finales del siglo XX. Cuando todos los datos se acumulan en un búnker secreto y todas las decisiones importantes las toma un grupo de ancianos ‘apparatchiks’, se pueden producir bombas nucleares a espuertas, pero no se obtendrá un Apple ni una Wikipedia […] Quizá el lector no esté de acuerdo con la idea de que los organismos son algoritmos y que jirafas, tomates y seres humanos son solo métodos diferentes de procesar datos. Pero tiene que saber que este es el dogma científico actual, y que está cambiando nuestro mundo hasta hacerlo irreconocible».

El fútbol no es ajeno a esta revolución. El ‘big data’ ha llegado al césped y a los despachos para quedarse.

Fotos

Vídeos