Wenn ChatGPT auf die WM tippt: Ein neu­er Live-Bench­mark für Sprach­mo­del­le?

Kann ein Sprachmodell wie ChatGPT einschätzen, ob die deutsche Nationalmannschaft die Fußball-Weltmeisterschaft gewinnt? Was zunächst wie eine Frage für Fußballfans klingt, bietet aus wissenschaftlicher Sicht eine besondere Möglichkeit: Die Vorhersagen großer Sprachmodelle, sogenannter Large Language Models (LLM), lassen sich in einem realen Entscheidungskontext evaluieren. Denn anders als bei vielen abstrakten Testaufgaben zeigt sich bei Fußballprognosen später eindeutig, ob eine Vorhersage richtig war. Im Projekt „LLM-SoccerArena“ untersucht ein Team der Universität Paderborn, der Ludwig-Maximilians-Universität München (LMU) sowie der Universität zu Köln, wie gut große Sprachmodelle reale Informationen verarbeiten und Vorhersagen unter Unsicherheit treffen können.

Viele etablierte Benchmarks für große Sprachmodelle testen abstrakte Aufgaben in stark vereinfachten oder statischen Umgebungen. Solche Tests sind wichtig, stoßen aber zunehmend an Grenzen. Medizinische Examensfragen, juristische Aufgaben oder MBA-Tests werden von vielen modernen Modellen mittlerweile häufig sehr gut gelöst. Zugleich sagen solche Aufgaben nur begrenzt etwas darüber aus, wie zuverlässig Modelle in echten Entscheidungssituationen unter Unsicherheit agieren. Hier setzt die Idee von „LLM-SoccerArena“ an. Wie in einem Tippspiel geben Modelle Vorhersagen ab, die sich erst später anhand realer Ergebnisse überprüfen lassen. 

Das Projekt untersucht, wie gut große Sprachmodelle wie ChatGPT, Claude oder Mistral Ergebnisse realer Fußballspiele prognostizieren können. Die Plattform umfasst ein Live-Leaderboard, das täglich aktualisiert wird, sowie eine Übersicht aller Modellvorhersagen. „Wir interessieren uns nicht nur dafür, welches Modell am Ende richtig liegt“, sagt Prof. Dr. Stefan Feuerriegel von der LMU. „Entscheidend ist, wie ein Modell zu seiner Vorhersage kommt: Welche Informationen sucht es? Welche berücksichtigt es? Und kann es relevante Signale von bloßen Popularitätsmustern unterscheiden?“ 

Die Erkenntnisse sind auch für die Management-Forschung relevant. Führungskräfte nutzen große Sprachmodelle zunehmend, um Marktinformationen zu strukturieren, Szenarien zu bewerten oder Prognosen vorzubereiten, etwa zu strategischen Entscheidungen, Wettbewerbern, Produkteinführungen oder Risiken. In solchen Fällen hängt die Qualität der Antwort nicht nur vom logischen Denken ab. Modelle müssen auch Informationen über die reale Welt erfassen und einordnen, wie etwa die Relevanz und Aktualität von Informationen sowie die die Zuverlässigkeit von Quellen und abgeleiteten Einschätzungen.

Eine ähnliche Herausforderung stellt sich bei „LLM-SoccerArena“. Für eine gute Fußballprognose reicht es nicht, allgemeines Fußballwissen abzurufen. Ein Modell muss Informationen zur aktuellen Form, zu Verletzungen, Trainer*innenentscheidungen, vergangenen Begegnungen, Kaderqualität oder Wettquoten einordnen und daraus eine überprüfbare Prognose ableiten. Die Plattform nutzt Fußballspiele damit als realitätsnahes Testfeld für die Frage, wie gut große Sprachmodelle in echten Entscheidungssituationen abschneiden. „Der große Vorteil von LLMs im Vergleich zu statistischen Vorhersagemodellen ist, dass LLMs flexibel auf neue und auch unstrukturierte Informationen reagieren können. Zum Beispiel Gerüchte aus Social Media“, erläutert Prof. Dr. Oliver Müller, Professor für Wirtschaftsinformatik an der Universität Paderborn und Direktor des Kompetenzbereichs „Artificial Intelligence“ im Software Innovation Lab des SICP – Software Innovation Campus Paderborn.

Fußball bietet für diese Fragen ein besonders interessantes Forschungsfeld. In der Management-Forschung wird Fußball häufig genutzt, weil so reale Entscheidungen unter vergleichsweise strukturierten Konditionen getroffen und evaluiert werden können. Spiele finden zu klar definierten Zeitpunkten statt, Entscheidungen und Ereignisse sind öffentlich sichtbar und das Ergebnis, also der Erfolg einer Mannschaft, ist kurze Zeit später eindeutig messbar. Dadurch lässt sich systematisch untersuchen, ob Vorhersagen tatsächlich zutreffen und welche Modelle unter welchen Bedingungen besser abschneiden. 

Das Projekt vergleicht dabei zwei Ansätze: Zum einen geben Modelle Prognosen auf Basis ihres internen Wissens ab. Zum anderen wird getestet, wie gut Modelle zusätzliche externe Informationen aus dem Internet abrufen und verarbeiten können. Das ist nicht trivial, denn im Internet finden sich nicht nur zuverlässige und aktuelle Informationen. Bei dieser sogenannten agentischen Suche stellt sich daher zunächst die Frage, ob ein Sprachmodell überhaupt die richtigen Informationen recherchiert. Prüft es aktuelle Verletzungen, Startaufstellungen, Formkurven, Trainer*innenwechsel, direkte Duelle, Turnierkontext oder Wettquoten? Danach muss es diese Informationen sinnvoll gewichten. Eine hohe Wettquote, eine prominente Mannschaft oder ein einzelnes starkes Spiel einer Mannschaft können irreführend sein. 

Und welche Mannschaft gewinnt nun die Weltmeisterschaft? In den aktuellen Vorhersagen der Modelle prognostizieren GPT-5.5 von OpenAI und Claude Opus 4.8 Spanien als Weltmeister, während Mistral Large Frankreich voraussagt. Mit den ersten realen Ergebnissen kann gemessen werden, welche Modelle zuverlässiger in der Aufgabenstellung sind. 

Auch die Unterschiede zwischen den Vorhersagen sind wissenschaftlich interessant. „Eine mögliche Erklärung für unterschiedliche Prognosen liegt in den Trainingsdaten der Modelle“, sagt Prof. Dr. Markus Weinmann, Professor für Business Analytics an der Universität zu Köln. „Modelle können dazu neigen, verbreitete Internetmeinungen oder Muster aus ihren Trainingsdaten zu reproduzieren.“ Teams mit großer globaler Sichtbarkeit oder besonders vielen Erwähnungen im Internet könnten dadurch systematisch bevorzugt werden. Auch die Sprache und Herkunft der Trainingsdaten können eine Rolle spielen. Wenn ein Modell besonders viele Texte aus einem bestimmten Sprachraum verarbeitet hat, kann sich das auf seine Einschätzungen auswirken. Das könnte ein Grund sein, weshalb Mistral, als Sprachmodell einer französischen Firma, vermutlich auf Frankreich tippt. 

Damit ist „LLM-SoccerArena“ mehr als ein spielerischer Vergleich von Fußballtipps. Das Projekt bietet einen Live-Benchmark für reale Entscheidungs- und Prognoseaufgaben: Es ist konkret keine Wettempfehlung, sondern macht sichtbar, wie gut große Sprachmodelle Informationen unter Unsicherheit suchen, bewerten und in überprüfbare Vorhersagen übersetzen können.

 

Die Plattform finden Sie hier: http://llm-soccerarena.com/.

AdobeStock/MilanovaCreating

Kontakt