

Los modelos de inteligencia artificial de Google, OpenAI y Anthropic perdieron dinero apostando en partidos de fútbol a lo largo de una temporada de la Premier League, según un nuevo estudio que sugiere que incluso los sistemas más avanzados tienen dificultades para analizar el mundo real durante períodos prolongados.
El informe “KellyBench”, publicado esta semana por la startup de IA General Reasoning, pone de relieve la brecha entre las capacidades que la IA avanza rápidamente en ciertas tareas —como la escritura de software— y sus deficiencias en otro tipo de problemas humanos.
General Reasoning, con sede en Londres, puso a prueba ocho de los principales sistemas de IA en una recreación virtual de la temporada 2023-24 de la Premier League, proporcionándoles datos históricos detallados y estadísticas sobre cada equipo y los partidos anteriores. Los sistemas recibieron instrucciones para construir modelos que maximizaran los rendimientos y gestionaran el riesgo.
Los “agentes” de IA realizaron entonces apuestas sobre los resultados de los partidos y el número de goles marcados, para evaluar cómo se adaptaban a nuevos eventos y a datos actualizados sobre los jugadores a medida que avanzaba la temporada.
Se evitó que los sistemas pudieran acceder a internet para consultar resultados, y cada uno tuvo tres intentos para obtener ganancias.
Claude Opus 4.6 de Anthropic obtuvo el mejor desempeño, con una pérdida media del 11% y rozando el equilibrio en uno de los intentos.
Grok 4.20 de xAI quebró en una ocasión y no logró completar los otros dos intentos. El Gemini 3.1 Pro de Google consiguió un beneficio del 34% en un intento, pero quebró en otro.
“Todos los modelos de frontera que evaluamos perdieron dinero a lo largo de la temporada y muchos sufrieron la ruina total”, concluyeron los autores del estudio, señalando que la IA “tuvo un rendimiento sistemáticamente inferior al de los humanos” en este escenario.

Los resultados ofrecen cierto consuelo a los profesionales de cuello blanco y a las empresas que temen que la IA pueda quitarles el trabajo, en un contexto en que está sacudiendo las cotizaciones de sectores que van desde las finanzas hasta el marketing.
Ross Taylor, uno de los autores del estudio y director ejecutivo de General Reasoning, declaró: “Hay muchísimo revuelo en torno a la automatización con IA, pero no se está midiendo demasiado lo que ocurre cuando se sitúa a la IA en entornos de largo plazo”.
Añadió que muchos de los análisis de referencia que se utilizan habitualmente para evaluar la IA tienen deficiencias porque se desarrollan en “entornos muy estáticos” que poco se parecen al caos y la complejidad del mundo real.
El artículo de General Reasoning, que aún no ha sido revisado por pares, sirve de contrapeso al creciente entusiasmo en Silicon Valley por los enormes avances recientes de la IA en su capacidad para completar tareas de programación informática con escasa o nula intervención humana.
Taylor, exinvestigador de Meta AI, señaló: “Si pones a prueba la IA en tareas del mundo real, los resultados son muy malos. Sí, la ingeniería de software es muy importante y tiene un gran valor económico, pero hay muchas otras actividades con horizontes temporales más largos que también merece la pena analizar”.
















