letzter login: Fr., 12. Juni 2026 · daniel@home ~

Daniel Deusing

cat blog/ai-agents-fantasy-football.mdx

Ich habe mir ein Team aus KI-Agenten gebaut, das meine Fantasy-Fußball-Hausaufgaben macht

Jeden Morgen loggt sich ein Team von KI-Agenten in meine Comunio-WM-Liga ein, liest die echten Fußballnachrichten, prüft die eigenen Schlüsse nach und hinterlässt mir ein einziges Dashboard — plus eine wachsende Akte über die Rivalen, gegen die ich biete.

10. Juni 2026 · #ai #agents #football

Ich spiele in einer Fantasy-Liga zur WM 2026. Wer das ernsthaft betreibt, hat einen Nebenjob: Jeden Tag gibt es Verletzungsnews, die man über ein Dutzend Seiten hinweg jagen muss, Spielerwerte bewegen sich, Gebote wollen abgewogen werden — und dazu das nagende Gefühl, genau das eine Wichtige übersehen zu haben. Ich hatte keine Lust, meine Abende damit von Hand zu verbringen.

Also habe ich das naheliegende 2026er-Ding getan und die Hausaufgaben einer KI übergeben.

Und hier ist der Teil, bei dem ich präzise sein will, weil er der ganze Punkt ist. Ich habe nicht ein Programm geschrieben, das die Seite per Timer scrapt und ein paar Regeln abspult, die ich letzten Monat eingetippt habe. Ich habe ein kleines Team aus KI-Agenten gebaut. Jeden Morgen loggen sie sich ins Spiel ein, entscheiden, was sich nachzuschlagen lohnt, lesen die echten Fußballnachrichten, überlegen, was das für meinen Kader bedeutet, prüfen ihre eigenen Schlüsse nach und hinterlassen mir ein einziges Dashboard. Die Analyse entsteht frisch, auf Abruf — sie ist nicht in Code eingebacken, den ich vorab geschrieben habe. Diesen Unterschied bitte festhalten: Er ist die Grenze zwischen einem statischen Tool und etwas, das eher einem Kollegen ähnelt — und der Grund, warum das Ganze für ein Unternehmen überhaupt relevant ist.

Gebaut habe ich es, um Zeit zu sparen und besser zu bieten. Hier ist die Tabelle, die ich dir hinlegen würde, wenn du fragst, ob es funktioniert. Stand heute Morgen, am Tag vor dem Eröffnungsspiel:

ManagerKäufeNetto-HandelsbilanzVermögen seit Tag 1
Worldcup Allstars22−26,77M−11,30M (−20,6%)
Ich52+3,52M+9,29M (+17,3%)

Gleiche Liga, gleiche Spieler auf dem Markt, drei Wochen Handel. Das Gesamtvermögen der Worldcup Allstars ist um ein Fünftel geschrumpft. Meins ist um ein Sechstel gewachsen. Der Abstand zwischen uns beträgt unterm Strich fast 21 Millionen Euro — und die WM ist noch nicht einmal angepfiffen.

Die letzte Spalte ist die, die ich in einem Meeting verteidigen würde. Das ist keine Gefühlsmetrik: Es ist die Buchführung des Systems selbst, die heutiges Cash + Kaderwert gegen das stellt, womit jeder Manager an Tag 1 gestartet ist. Die mittlere Spalte ist die Handelsbilanz, die das treibt — hast du über alle Käufe und Verkäufe hinweg Wert verschenkt oder herausgeholt? Worldcup Allstars sind voll auf große Namen gegangen und haben 27M an Überzahlung verloren. Ich habe auch überzahlt — im einstelligen Prozentbereich, weil ich bestimmte Spieler eben haben will — aber ich habe oft genug über Marktwert verkauft, um allein im Handel positiv zu bleiben. Über drei Wochen aufsummiert ergibt das einen 21M-Abstand aus nahezu identischen Startpositionen. (Nahezu identisch, genau genommen zu ihren Gunsten: Sie sind an Tag 1 etwas reicher gestartet als ich.) Das Kassenbuch selbst ist unten, genau so, wie das Dashboard es rendert.

Die Markt-Saldo-Tabelle: eine Zeile pro Manager mit Käufen, Verkäufen, ausgegebenem Geld, Überzahlung auf beiden Seiten, Netto-Handelsbilanz und Performance seit Tag 1, Zellen in Rot und Grün
Das Kassenbuch hinter den Zahlen — Käufe, Verkäufe, Saldo, Performance seit Tag 1. Rot ist verschenkter Wert, Grün ist herausgeholter Wert. (Das Dashboard spricht praktischerweise ohnehin Deutsch.)

Und jetzt, warum diese Tabelle mehr wert ist, als sie aussieht — und wo das Ganze für mich leise aufgehört hat, Fußball zu sein.

In diesem Spiel kauft man Spieler nicht zu einem sichtbaren Preisschild. Man bietet in einer verdeckten Auktion: Jeder gibt ein versiegeltes Gebot ab, niemand sieht das der anderen, und die höchste Zahl gewinnt einfach — wie verschlossene Umschläge bei einer Ausschreibung. Die eigentliche Frage ist also nie „Was ist dieser Spieler wert?“, sondern „Was werfen die anderen Manager auf ihn?“ Und Menschen sind darin herrlich berechenbar: Sie überzahlen große Namen (jeder will den Messi, den Kimmich), und sie verlieren ihre Disziplin in sehr bestimmten Momenten.

Genau das zeichnen meine Agenten still und leise auf. Jeder Kauf in der Liga, markiert damit, wie weit er über dem fairen Wert lag — von wem, bei welchem Spieler, an welchem Tag. Daraus fällt ein Modell des Verhaltens meiner Gegner: wer überzahlt, bei welcher Sorte Spieler, wann und um wie viel. Wenn ich also ein verdecktes Gebot abgebe, rate ich nicht ins Dunkle — ich preise gegen das, was diese konkreten Rivalen schon immer getan haben. Die Undisziplinierten lasse ich die glänzenden Namen überzahlen und halte mich aus dem Krieg raus; und wenn ich jemanden wirklich will, biete ich gerade genug, um über ihrer vorhergesagten Zahl zu liegen — und keinen Euro mehr.

Das ist der Vorteil, für den ich das gebaut habe. In einem Markt, in dem ich niemandes Gebote sehen kann, bevor sie gewonnen haben, geben mir die Agenten das Nächstbeste — eine tägliche, wachsende Akte über die Leute, gegen die ich biete, damit ich ihr Verhalten vorhersagen kann, bevor ich mich festlege. Und das funktioniert nur, weil die Agenten jeden Morgen wiederkommen und neu hinschauen, statt dass ein statischer Analyzer läuft, den ich einmal geschrieben und dann sich selbst überlassen habe.

Aber der Reihe nach. Hier ist das Ganze.

Was das hier eigentlich ist

Das Fantasy-Spiel heißt Comunio. Falls du es nie angefasst hast: Du managst einen Kader echter Fußballer mit einem Budget im Echtgeld-Stil. Ihre Werte steigen und fallen damit, wie sie tatsächlich draußen auf dem Rasen spielen, und du kaufst und verkaufst sie — in diesen verdeckten Auktionen — gegen andere menschliche Manager in deiner Liga. Es ist die Börse, nur dass die Assets Muskelfasern haben und du die Orders der anderen nicht siehst.

Zur WM 2026 spiele ich in einer Liga. Und irgendwo in der Planung kam der Gedanke, den jeder vielbeschäftigte Mensch irgendwann hat: Das wird meine Abende fressen. Statt die Hausaufgaben von Hand zu machen, habe ich also Agenten dafür gebaut — damit ich die Entscheidung in zwei Minuten treffe statt in zwei Stunden.

Jeden Tag, ganz von allein:

  • loggen sie sich auf comunio.com ein und ziehen den Live-Zustand der Liga — mein Cash, meinen Kader, die Tabelle, wer auf was bietet
  • lesen sie die echten Fußballnachrichten, die Spielerwerte bewegen
  • prüfen sie ihre eigenen Schlüsse gegen unabhängige Quellen, bevor sie ihnen trauen
  • erzeugen sie Ergebnisprognosen für jedes Spiel der anstehenden Runde, mit Konfidenzangaben
  • und rendern ein Dashboard: das Geld, die Empfehlungen, die Prognosen und die Belege hinter jedem Urteil

Das ist alles. Ein Bildschirm. Ich öffne ihn zum Kaffee, sehe alles, entscheide. Ja, ich habe einem Rudel KI-Agenten beigebracht, meine Hausaufgaben zu machen, und nein, es tut mir nicht leid.

Hier ist die Tour. Achte darauf, was jeder Teil wirklich tut — und wenn du nur überfliegst, dann überflieg den allerletzten Abschnitt, wo ich erkläre, wie es verdrahtet ist. Das Geschäftliche steckt in 1 bis 7.

1. Das Geld, auf einen Blick

Ganz oben im Dashboard: fünf Karten, heute Morgen aktualisiert. Cash: 0,30M — fast nichts, mit Absicht: Ich bin voll in den Kader investiert, und die Strategie-Box sagt das wortwörtlich („Kader komplett, keine Pflichtkäufe — Cash für gezielte Upgrades halten“). Kaderwert: 62,75M. Gesamtwert: 63,05M. Neunzehn Spieler. Tabellenplatz: 3 von 11 nach Gesamtwert.

Bei der letzten Zahl lohnt es sich, kurz zu verweilen. Comunio teilt jedem Manager einen zufälligen Start-Kader zu, und meiner war schwach: Mein Tag-1-Kader war 13,76M wert, nahe am Liga-Minimum, während der bestbestückte Rivale mit 20,70M startete — rund 50% mehr als ich. Das ist das Blatt, das man bekommt; Jammern bewegt die Tabelle nicht. Drei Wochen disziplinierten Handels später, am Tag bevor die WM tatsächlich beginnt, sitzt mein Portfolio nahe der Spitze. Die anderen Manager sehen dieselbe Rangliste wie ich; sie sehen nur nicht, warum meine sich nach oben bewegt hat.

Oberer Teil des WM-2026-Liga-Dashboards: ein Countdown-Banner mit noch einem Tag bis zum Anpfiff, die beiden Eröffnungsspiele, fünf Geld-Karten und der Anfang der Tabelle eingehender Angebote mit Messis Zeile
Das Cockpit heute Morgen: ein Tag bis zum Anpfiff, die beiden morgigen Eröffnungsspiele, die fünf Geld-Karten — und die ersten eingehenden Angebote, bereits gegen meine Verkaufsuntergrenzen gepreist.

2. Die News kommen zu mir — und zwar mit Quellen

Hier hört es auf, ein Spielzeug zu sein.

Über die Kader-Ansicht verteilt sitzen kleine Notiz-Zellen, jede mit klickbaren Quellenlinks. Hier ist eine Geschichte, die sie über eine einzige Woche verfolgt haben — mein teuerster Spieler:

Messi, vor ein paar Tagen: neue Oberschenkelverletzung aus dem letzten MLS-Spiel. Trainiert separat, verpasst beide Testspiele. Startelf-Wahrscheinlichkeit auf 50 gesenkt — Startplatz nicht gesichert. (espn.com, rotowire.com)

Messi, heute Morgen: wieder hochgestuft auf fit — 20 Minuten und ein Elfmetertor im Island-Testspiel am 9. Juni; ESPNs Injury-Tracker führt ihn als „IN — Expected to Play“. Startelf-Wahrscheinlichkeit wieder bei 85. (espn.com, rotowire.com)

Nichts davon habe ich selbst gejagt. Die Agenten haben es getan, während ich schlief — erst die schlechte Nachricht, dann die Erholung, jeder Schritt mit Belegen dran: ESPN, RotoWire, Sky Sports, CBS, Sports Mole, World Soccer Talk. Jede Behauptung verlinkt dorthin zurück, wo sie herkommt. So sieht das auf dem Board aus — erst die Kader-Ansicht, dann was passiert, wenn man über Messis Zeile fährt:

Die Kader-Analyse-Tabelle: jede Spielerzeile mit Position, Nation, einem Startelf-Wahrscheinlichkeits-Balken, Marktwert, einem Urteils-Tag und einer Notiz-Zelle mit verlinkten Quellen
Die Kader-Ansicht: Jeder Spieler trägt einen Status, einen Startelf-Wahrscheinlichkeits-Balken, ein Urteil und eine Notiz-Zelle mit verlinkten Quellen.
Eine ausgeklappte Empfehlungskarte über Messis Zeile: Urteil HOLD, das Fitness-Upgrade nach dem Island-Testspiel, die Begründung, eine Verkaufsuntergrenze von 23M und der Rat zum 17,2M-Angebot
Fahr über eine Empfehlung, und die volle Karte klappt auf. Das ist Messis von heute Morgen: das Fit-Upgrade nach dem Island-Testspiel, die Begründung, die 23M-Verkaufsuntergrenze — und was mit dem 17,2M-Angebot auf dem Tisch zu tun ist (ablehnen).

Eine Behauptung ohne Quelle ist ein Gerücht. Eine Behauptung mit Link ist etwas, worauf man handeln kann. Die ganze Maschine ist auf dieser einen Unterscheidung gebaut.

3. Empfehlungen — mit Konfidenzzahl und Begründung

Jeder Spieler bekommt einen Startelf-Wahrscheinlichkeits-Balken und ein Tag: BUY, CHECK, HOLD, SELL, GAMBLE oder AVOID. Kein Bauchgefühl. Eine Zahl und ein Urteil.

Ein paar echte, alle vom heutigen Board:

  • Rogers — 62% Startelf — CHECK. Englischer Mittelfeldspieler, auf dem Markt für 4,55M. Die Recherche von heute Morgen hatte ihn bei 50 — ein Münzwurf. Der Audit-Durchlauf suchte nach etwas, das die Sache entscheidet, und kam mit drei unabhängigen Signalen zurück: Der Wettmarkt preist ihn mit 2/7 für die Startelf ein, der Trainer hat ihn halb benannt, die Kaderhierarchie stimmt zu. Wahrscheinlichkeit auf 62 angehoben, Zielpreis auf 6,0M erhöht — und das Urteil bleibt trotzdem CHECK, nicht BUY: „noch keine offizielle Startelf-Bestätigung“. Es nennt sogar die zwei cash-reichen Rivalen, die wahrscheinlich gegen mich bieten — mit dem Hinweis, dass beide historisch überzahlen.
  • Unai Simón — 92% — HOLD. „Mein einziger gesetzter Stammtorwart eines Titelfavoriten. Spaniens Nummer eins, keine Konkurrenz. Das Angebot auf dem Tisch liegt 3% unter Markt — ablehnen. Nicht unter 7,4M (+25%) verkaufen.“
  • Nübel — 3% — AVOID. Deutschlands dritter Torwart, nicht mal in der Kaderhierarchie. „Kein Gebot ergibt Sinn.“ Zwei Rivalen — beide aktuell ohne Torwart — bieten trotzdem auf ihn.

Alle drei sitzen auf dem heutigen Board. Rogers führt die Transferziel-Liste an, das Unai-Simón-Angebot steht in der Tabelle eingehender Angebote, und die Langform-Begründung lebt in den Kader-Empfehlungen:

Die Transferziel-Tabelle mit einklappbarer Strategie-Box obendrauf; Rogers führt die Liste mit Urteil CHECK und 62% Startelf-Wahrscheinlichkeit an
Die Transferziel-Liste mit ihrer Strategie-Box, Rogers ganz oben — Wahrscheinlichkeit auf 62 angehoben, Urteil weiterhin CHECK, nicht BUY.
Die Tabelle eingehender Angebote: jedes Gebot auf meine Spieler gegen Marktwert, Verkaufsuntergrenze und eine Empfehlung pro Zeile gestellt
Eingehende Angebote, jedes Gebot gegen meine Verkaufsuntergrenzen gepreist — das Unai-Simón-Angebot liegt 3% unter Markt: ablehnen.
Empfehlungskarten pro Spieler im Kader, jede mit Urteils-Tag, Startelf-Wahrscheinlichkeit, Zielpreisen und mehreren Sätzen Begründung
Die Empfehlungskarten pro Spieler mit voll ausgeschriebener Begründung — das Board hinter den Stichpunkten.

Schau dir die Rogers-Karte noch einmal an. Das System hat den Münzwurf nicht stehen lassen — es hat Belege gejagt, inklusive eines Wettmarkts, der einzigen Quelle, bei der echtes Geld daran hängt, recht zu haben. Dann hat es seine eigene Zahl bewegt, dokumentiert warum — und sich trotzdem geweigert, das Urteil über CHECK hinaus anzuheben, weil ein wahrscheinlicher Starter kein bestätigter ist. Das ist keine Maschine, die Gewissheit vortäuscht. Das ist eine Maschine, die ihre Hausaufgaben vorzeigt, wenn sie ihre Meinung ändert — und nur so einer würde ich eine Entscheidung anvertrauen. Eine Maschine, die dir sagt, wann sie unsicher ist, ist zehn wert, die immer überzeugt sind.

Die Zielpreise sind auch keine Schätzungen. Darunter liegt ein Modell: ein Aufschlag dafür, wie stark die Nation des Spielers ist (ein Elite-Team addiert +35%, ein starkes +27%, ein schwächeres +12%), wie knapp die Position ist, welche cash-reichen Rivalen wahrscheinlich gegen mich bieten — und ob der Spieler überhaupt verfügbar ist. Tore werden nach Position gewichtet. K.-o.-Runden zählen doppelt, weil sie das nun mal tun. Es ist ein Bewertungsmodell, das zufällig von Fußballern handelt.

Ein kurzer Umweg — lies die letzten drei Abschnitte noch einmal

Halt kurz an und lies die Abschnitte 1, 2 und 3 noch einmal — aber zieh den Fußball ab.

Eine Live-Sicht auf dein Cash und deine Asset-Position, und die Lücke zwischen dem, was du nominell hältst, und dem, was du heute tatsächlich bewegen kannst. Ein Strom von Außen-Nachrichten über die Dinge, die du besitzt, jede Meldung mit Link zur Herkunft, über Nacht gesammelt, ohne dass jemand einen Finger rührt. Ein Satz gewichteter Empfehlungen, jede mit Konfidenz und Klartext-Begründung, der sich selbst leise herabstuft, wenn die Beweislage wackelt — und der deinen Zug gegen Rivalen preist, die du nicht sehen kannst.

Das ist kein Fantasy-Fußball-Bildschirm mehr. Das ist ein Portfolio überwachen, oder einen Markt beobachten, oder ein verdecktes Gebot gegen Wettbewerber und Lieferanten preisen, deren Karten du nicht siehst. Gleiches Muster, andere Substantive. Und genau deshalb schreibe ich das hier auf.

Okay. Zurück zum Spiel.

4. Ein Cockpit statt zehn Tabs

Alles lebt auf einem einzigen Dashboard. Ein WM-Countdown-Banner ganz oben („1 Tag bis zum Anpfiff — Eröffnungsspiel 11.06.2026“ — das ist morgen, und ja, diese Stelle verschafft mir ein kleines Kribbeln). Dann die fünf Geld-Karten. Dann eingehende Angebote auf meine Spieler. Dann Transferziele mit einklappbarer Strategie-Box. Dann mein Kader und seine Empfehlungen.

Acht Tabs — Übersicht, Mein Kader, Tabelle, Konkurrenz, Transfers, Faktencheck, Prognosen, Genauigkeit — und ein schwebender Datums-Picker, der zwischen Tages-Snapshots springt. Ich kann durch die Geschichte der Liga zeitreisen und zusehen, wie sich die Geschichte eines Spielers Tag für Tag verändert hat. (Die letzten beiden Tabs sind neu diese Woche. Sie sind das System, das sich selbst benotet — Abschnitt 7.)

Einer dieser Tabs, die Liga-Tabelle, ist unten — und sie ist ein gutes Beispiel für stille Aufklärungsarbeit, denn Comunios eigene Tabelle zeigt dir von den anderen Managern genau eine Spalte: den Teamwert. Meine rekonstruiert den Rest aus dem Transferbuch, das sie führt — Cash und Gesamtwert pro Manager und eine Zahl, auf die ich still stolz bin: Kaufkraft = Cash plus ein Viertel des Teamwerts, die Comunio-Regel für das Maximum, das ein Manager gleichzeitig in offenen Geboten binden darf. Diese Spalte sagt mir für jeden Rivalen, wie viel er genau jetzt tatsächlich auf einen Spieler werfen kann. In einer verdeckten Auktion ist die Decke des Bietkriegs, in den du gleich gehst, der Unterschied zwischen Raten und Preisen.

Die rekonstruierte Liga-Tabelle: Rang, Managername, Guthaben, Teamwert, Kaufkraft und Gesamtwert für die elf Manager
Die rekonstruierte Liga-Tabelle: Guthaben, Teamwert, Kaufkraft und Gesamtwert für alle 11 Manager. Das offizielle Spiel zeigt allen nur die Teamwert-Spalte — der Rest ist die eigene Buchführung meines Systems.

Der Punkt ist: Ich jage nicht mehr. Zehn Tabs und ein Spreadsheet wurden durch einen Bildschirm ersetzt, der die Jagd schon erledigt hat. Denk an den Report, den dein Team wirklich braucht, gegenüber dem, den es Donnerstagnachmittag von Hand zusammenbaut. Das ist die Lücke, die das hier schließt.

5. Das Kassenbuch — vorhersagen, wer überzahlt, um wie viel und wann

Zurück zum Anfang, denn in einem Markt mit verdeckten Geboten ist das hier das Näheste daran, die Karten der Gegner zu sehen.

Das System führt eine vollständige Historie jedes Kaufs und Verkaufs in der Liga. Für jeden Manager verfolgt es vier Dinge: Überzahlung als Käufer (Geld, verloren durch Zahlen über Markt), Prämie als Verkäufer (Geld, herausgeholt durch Verkaufen über Markt), das Netto aus beidem und die letzte Zeile — wie sich das Gesamtvermögen jedes Managers seit Tag 1 bewegt hat.

Worldcup Allstars, die Verliererseite der Eingangstabelle, haben als Käufer im Schnitt +97% überzahlt (−34M an Bietkriege verloren), einiges durch Verkäufe bei +67% zurückgeholt (+7,4M aus dem Bietkrieg von jemand anderem extrahiert), aber das Netto steht bei −27M. Gesamtvermögen: −20,6%. Ich habe auch überzahlt — im Schnitt 5%, weil ich bestimmte Spieler eben will — aber wenn ich verkauft habe, lag ich im Schnitt bei +25% Prämie, genug, um allein im Handel positiv zu sein. Netto: +3,5M Handelsbilanz. Gesamtvermögen: +17,3%.

Und weil eine Metrik, die man nicht zerlegen kann, eine Metrik ist, der man nicht trauen sollte, erklären sich die zwei entscheidenden Spalten beim Hover selbst:

Ein Tooltip über meiner Performance-Zelle zerlegt die +9,29M Vermögensänderung in Start-Cash, Tag-1-Kaderwert, die resultierende Baseline und den heutigen Gesamtwert
Keine Blackbox: Fahr über meine Performance-Zelle, und das Dashboard zeigt seine Rechnung — 40M Start-Cash + 13,76M Tag-1-Kader = 53,76M Baseline, 63,05M Gesamtwert heute, +9,29M.
Ein Tooltip, der den Tag-1-Startkaderwert jedes Managers neben seiner aktuellen Position auflistet
Der zweite Hover legt die Tag-1-Baseline jedes Managers neben seinen heutigen Stand.

Nach Turnierphase betrachtet ist die ganze Liga ein bisschen verrückt geworden: Im Fenster vor dem Turnier gab es 256 Transfers, 190,56M Gesamt-Überzahlung, im Schnitt +39% über fairem Wert. Und die Pro-Spieler-Ansicht fördert Zeilen wie diese zutage:

Kimmich, gekauft am 24. Mai, bezahlt 20,56M — Marktwert am Tag danach: 9,26M. Überzahlt um 11,30M. +122%.

Alle Liga-Transfers nach Überzahlung sortiert; die oberste Zeile zeigt Kimmich, gekauft von Worldcup Allstars für 20,56M — 11,30M und 122% über Marktwert
Die komplette Transferhistorie der Liga, sortiert nach Überzahlung. Die Kimmich-Zeile thront ganz oben; dasselbe Muster wiederholt sich bis ganz unten — 256 Deals, 190M über Marktwert bezahlt.

Ein Mann, mehr als das Doppelte. Und weil die Agenten jeden dieser Fälle protokollieren, wird aus dem Muster eine Prognose: dieser Manager jagt immer große deutsche Namen, jener verliert in der Woche vor dem Anpfiff die Disziplin, diese Position geht verlässlich für +50% weg. In einer versiegelten Auktion ist das der Vorteil — ich biete nicht mehr gegen den Wert eines Spielers, ich biete gegen die bekannte Gewohnheit eines Rivalen.

Ich mache den Substantiv-Tausch einmal richtig, damit man die Form außerhalb des Spiels sieht. Ich habe dieselbe Idee — dasselbe Kassenbuch, dieselbe Zwei-Quellen-Regel — auf einen kleinen Stapel Lieferantenrechnungen gerichtet, für einen Freund, der bei einer mittelgroßen Firma den Betrieb leitet. Sie markierte einen Lieferanten, dessen Stückpreise über mehrere Quartale nach oben gekrochen waren, während der Markt sich nicht bewegt hatte, und sie nagelte den Monat fest, in dem die Drift begann. Niemandem war es aufgefallen, weil niemand einen einzelnen Bildschirm dafür beobachtete; die Erhöhungen waren klein und über Abrechnungen verstreut. Mehr ist es nicht. Ein Kassenbuch, das nie blinzelt, das auf den Moment wartet, in dem jemand anfängt, zu viel zu zahlen — oder zu verlangen — und das das Muster jedes Spielers lernt, damit der nächste Zug vorhersehbar wird.

6. Der Teil, auf den ich am stolzesten bin: Es prüft sich selbst

Hier trennt sich ein echtes System von einer cleveren Demo. Diese Agenten trauen ihren eigenen Schlüssen nicht.

Es gibt einen ganzen Tab dafür — den Faktencheck — und einen separaten Agenten, der jede Fußball-Behauptung des Systems nimmt und sie gegen die zitierten Quellen plus frische zu verifizieren versucht. Jede Behauptung bekommt ein Urteil: bestätigt, unsicher oder widerlegt. Ein Lauf neulich zählte 96 bestätigt, 30 unsicher, 11 widerlegt — 137 Behauptungen in einem einzigen Durchgang auditiert, ausgelegt in einer Tabelle mit Behauptung, Urteil, etwaiger Korrektur und den Belegen:

Die Faktencheck-Audit-Tabelle an einem nachrichtenreichen Tag: Zeilen von Behauptungen mit Urteils-Badges in Grün, Gelb und Rot, plus Spalten für Korrektur, Belege und Quellen
Die Audit-Tabelle: Behauptung, Urteil, Korrektur, Belege, Quellen. Grün ist bestätigt, Gelb unsicher, Rot widerlegt — und die roten sind der Grund, warum es den Tab gibt.

Der Lauf von heute Morgen hat alle drei Urteile auf einer Seite, und jedes ist eine kleine Geschichte. Der Marokko-Call (Ez Abde fällt mit Knieverletzung aus, verpasst die Gruppenphase) kam als bestätigt zurück: Der marokkanische Verband plus drei unabhängige Outlets stimmen überein. Eine Recherche-Datei hatte Englands WM-Auftakt als Ghana am 12. Juni; der Faktenchecker hat das widerlegt — England eröffnet am 17. gegen Kroatien, Ghana ist das dritte Gruppenspiel — und die Datei mit zitiertem Spielplan korrigiert. Und das Messi-Upgrade aus Abschnitt 2 kam als unsicher zurück: „fit“ ist etwas zu optimistisch, RotoWire führt ihn weiter als kurzfristige Entscheidung, und Argentiniens Trainer hat nur versprochen, „jedes Risiko zu vermeiden“ — was keine Startelf-Garantie ist. Der Optimismus des Rechercheurs und die Skepsis des Auditors, Seite an Seite auf derselben Seite, bevor ich auf eines von beidem einen Cent gewettet habe. Hier ist diese Seite, von vor ein paar Stunden:

Die Faktencheck-Tabelle von heute Morgen: die Behauptung zu Englands nächstem Spiel als widerlegt markiert, die Rogers-Startelf-Wahrscheinlichkeit nach oben korrigiert, die Ez-Abde-Verletzung bestätigt und die Messi-Fitness-Behauptung als unsicher markiert
Das Audit von heute Morgen, genau wie beschrieben: der England-Spielplan-Fehler widerlegt und korrigiert, die Rogers-Startelf-Wahrscheinlichkeit mit zitiertem Wettmarkt angehoben, die Ez-Abde-Verletzung vom Verband bestätigt — und die Messi-„fit“-Behauptung als grenzwertig markiert.

Die Regel, nach der das lebt, ist die strenge: Eine Behauptung ist erst „bestätigt“, wenn eine unabhängige zweite Quelle zustimmt. Eine Quelle ist eine Spur. Zwei sind ein Fakt.

Jetzt der ehrliche Vorbehalt, denn ein Faktenchecker, der nur seine Siege zeigt, will dir etwas verkaufen. Dass zwei Quellen übereinstimmen, ist nicht kugelsicher — manchmal formulieren beide Outlets nur denselben Agenturbericht um, und schon hat man ein Gerücht zweimal „bestätigt“. Ich stütze mich, wo es geht, auf unabhängige Urheber, aber korrelierte Quellen sind ein echter Fehlermodus — und genau die Art Ding, die der nächste Abschnitt im Offenen erwischen soll. Die ehrliche Schlagzeile für jeden, der so etwas ernsthaft betreiben würde, ist nicht „es zitiert Quellen“, sondern „wie oft stellt sich eine bestätigte Behauptung als falsch heraus“ — und die kann ich erst beantworten, wenn Spiele gespielt sind.

Den Faktenchecker gibt es auch aus einem unglamourösen Grund: Am Anfang lagen die Agenten daneben. Einer las eine veraltete Startelf-Wahrscheinlichkeit. Einer steckte einen Spieler in die falsche Turniergruppe. Einer preiste einen Transfer am falschen Marktwert. Einer referenzierte einen Spieler, der mit niemandem in irgendeinem echten Kader übereinstimmte — ein Geist — und ohne die Prüfung hätte ich es gemerkt, indem ich auf jemanden biete, den es nicht gibt. Der Faktenchecker ist das Narbengewebe dieser Fehler: die Schicht, die eine Entscheidung auditiert, bevor ich auf ihr handle — so wie ein Finanzteam die Person, die die Rechnung bucht, von der trennt, die sie freigibt.

7. Das System benotet sich selbst, live

Das Neueste, das ich hinzugefügt habe — und das, was ich am gespanntesten beobachte — ist der Teil, in dem die Agenten ihre Prognosen vorab deklarieren, öffentlich, und sie dann gegen die Realität abrechnen, sobald gespielt wurde.

Der Prognosen-Tab tippt jedes Spiel der laufenden Runde — gerade alle 24 Spiele der Auftaktrunde, neu getippt, sobald die Nachrichten sich bewegen — jedes mit Ergebnis, Konfidenz in Prozent, Begründung und Quellen. Drei Calls vom heutigen Board:

  • Mexiko gegen Südafrika — morgen das Eröffnungsspiel — 2:0 bei 72% Konfidenz. „Mexiko eröffnet im Azteca mit klarem Heimvorteil und einem eingespielten 4-3-3 um Jiménez und Alvarado; Südafrikas Linksverteidiger ist mit Oberschenkelproblemen fraglich, und offensiv haben sie gegen Topgegner das ganze Jahr Grenzen gezeigt. Plausible Alternative: 1:0 — Eröffnungsspiele sind traditionell zäh.“ Quellen: rotowire.com.
  • Südkorea gegen Tschechien — 2:1 bei 58%. Gestern stand in genau dieser Zeile 1:1 bei 50% — ein ehrlicher Münzwurf, kein klarer Vorteil. Über Nacht hat sich die Begründung aktualisiert: Koreas Spitzenpersonal (Son, Lee Kang-In, Kim Min-Jae) in einem hoch pressenden 3-4-3, die Tschechen gestützt auf einen Stürmer, dessen Backup angeschlagen ist. Der Tipp wanderte auf 2:1, weil die Information gewandert ist — öffentlich, mit der gestrigen Version weiterhin in der Snapshot-Historie. Und wo es wirklich keinen Vorteil gibt, sagt es das auch: Elfenbeinküste gegen Ecuador steht bei 1:1, 50%, ein eingestandener Münzwurf. Das ist die Disziplin, die ich will.
  • Katar gegen Schweiz, 13. Juni — 0:2 bei 75%. Die eingespielte Schweizer 4-2-3-1 und der deutlich tiefere Kader; Katar hat sich seit 2022 kaum verstärkt und ist gegen organisierte europäische Abwehrreihen offensiv harmlos.
Die Prognosen-Tabelle: 24 Spiele der Auftaktrunde, jedes mit Anstoßzeit, beiden Teams, einem getippten Ergebnis, einem Konfidenz-Balken, einer einzeiligen Begründung und Quellenlinks
Das volle Board: 24 Spiele der Auftaktrunde, jedes mit Anstoß, getipptem Ergebnis, Konfidenzzahl, Begründung und Quellen. Morgen hört das auf, eine Liste von Meinungen zu sein, und fängt an, eine Bilanz zu werden.

Und dann gibt es einen separaten Tab — Genauigkeit — der gerade leer ist. Zwei Sektionen leben dort: Prognose-Genauigkeit (vergleicht jedes getippte Ergebnis mit dem tatsächlichen) und Startelf-Kalibrierung (prüft, ob die „80% sicher“-Behauptungen in der Praxis auch zu 80% eintreffen, gebündelt nach Konfidenzlevel).

Beide Sektionen sagen aktuell: „Noch keine verifizierten Spieltage — Werte erscheinen, sobald der erste Spieltag abgeschlossen ist.“ Genau das sollen sie sagen. Die Infrastruktur steht — öffentlich, datiert, rechenschaftspflichtig. Sie beginnt sich morgen Abend zu füllen, und ab dann kann man die Hausaufgaben des Systems gegen die Realität prüfen, ohne mir irgendetwas glauben zu müssen.

Der Genauigkeit-Tab mit zwei leeren Sektionen — Prognose-Genauigkeit und Startelf-Kalibrierung — die beide angeben, dass noch keine verifizierten Spieltage existieren
Mein Lieblings-Screenshot in diesem Artikel: eine Seite, die nur existiert, um das System zu benoten, mit Absicht leer, fotografiert am Tag bevor sie sich zu füllen beginnt.

Das ist der Teil, der für jede Business-Frage zählt. Ein System, das man nicht benoten kann, ist ein System, dem man nicht trauen kann. Die meisten „KI-Dashboards“, die man dir 2026 zeigen wird, werden still und leise nie gegen die Ergebnisse abgerechnet, die sie vorhergesagt haben. Dieses hier hat die Benotungsseite eingebaut, mit benannten Spalten, bevor der erste Ball überhaupt rollt.

8. Wie es gebaut ist

Für die Engineers und die Neugierigen: Hier ist die Form davon, in schlicht.

Zuerst das, worauf ich die ganze Zeit bestehe, einmal richtig ausgesprochen. Ein normales Stück Software holt Daten nach Zeitplan und führt die Regeln aus, die du vorab geschrieben hast; ändere die Frage, und du änderst den Code. Das hier funktioniert nicht so. Jeden Morgen entscheiden die Agenten, was nachzuschlagen ist, lesen es, denken darüber nach und können zu einem Schluss kommen, den ich nie vorprogrammiert habe — sie ändern ihre Meinung, wenn die Nachrichten sich ändern. Die Daten werden täglich geholt, und die Analyse wird on demand berechnet, von KI, nicht aus einem statischen Skript abgespielt. Das ist der Unterschied zwischen einem automatisierten Report und einem angestellten Analysten, der zufällig aus Tokens besteht.

Es ist ein Multi-Agent-System. Die einfache Version: Statt einer großen KI, die alles nacheinander macht, lasse ich ein Team kleiner Spezialisten gleichzeitig laufen, jeder mit einem Job. Ein „Agent“ ist hier nur ein kleiner KI-Arbeiter mit einer Aufgabe und einer Checkliste — als würde man je einem Analysten pro Region dasselbe Briefing geben und alle gleichzeitig arbeiten lassen.

Die tägliche Pipeline ist eine saubere Linie: einloggen → Liga importieren → Kassenbuch aktualisieren → recherchieren → empfehlen → Spiele tippen → Fakten checken → Dashboard rendern.

Die Recherche ist der schöne Teil. Ich starte einen Researcher-Agenten pro Nation, alle parallel. Spaniens, Schwedens und Englands Researcher arbeiten zur selben Zeit, und jeder liefert eine prognostizierte Startelf, Verletzungs- und Form-Notizen pro Spieler, Startelf-Wahrscheinlichkeiten, Ergebnis-Tipps mit Konfidenz und überzahlungsbewusste Kauf-Urteile zurück — als strikt strukturierte Daten, nicht als Prosa. Dann starte ich einen Faktenchecker-Agenten pro Nation, ebenfalls parallel, und entscheidend: Er ist unabhängig und read-only — er kann nichts ändern, er kann nur Befunde zurückgeben. Der Researcher schlägt vor; der Faktenchecker verfügt. Diese zwei Rollen zu trennen ist der ganze Trick: Das Ding, das eine Behauptung aufstellt, darf nicht auch das Ding sein, das sie freigibt.

Die Klempnerei, die kein Urteilsvermögen braucht — Geld-Tracking, Tabelle, die Bewertungs-Arithmetik, das Genauigkeits-Scoring — lebt in schlichtem Code ganz ohne KI. Das ist Absicht, und es ist der Teil, den die meisten falsch herum machen: Setz das teure Werkzeug nur dort ein, wo es seine Miete verdient. Die billigen, mechanischen Prüfungen — sieht dieser Preis vernünftig aus, passt dieses Urteil zu seiner eigenen Wahrscheinlichkeit, existiert diese Spieler-ID überhaupt, ist getipptes 2:0 gleich tatsächlichem 2:0 — laufen in schlichtem Python. Die teuren KI-Aufrufe sind für das tragende Urteil reserviert: das offene Web zu lesen, um die Handvoll Behauptungen zu verifizieren, auf denen eine Entscheidung tatsächlich ruht. Ich deckle bei zwei, drei Web-Fetches pro Nation und cache die Anker-Quellen. Zu wissen, welche deiner Probleme hartes Reasoning sind und welche bloß Arithmetik, ist das meiste von dem, was eine KI-Demo von einem KI-System trennt, das man sich auf Dauer leisten kann — und die meisten „KI“-Systeme, die ich in freier Wildbahn sehe, machen es exakt falsch herum und wundern sich, warum die Rechnung furchteinflößend ist.

Ein Wort zu den Kosten, weil es das Erste ist, was ich fragen würde. Mit der Arithmetik außerhalb des Modells und gedeckelten Fetches landet ein voller Tageslauf im Cent-Bereich — kleine einstellige Dollarbeträge über alle Nationen an einem vollen Tag, nicht die schwindelerregende Rechnung, auf die sich Leute einstellen, wenn sie „Multi-Agent“ hören. Der Grund, warum es billig ist, ist die Disziplin, nicht Glück: Das Modell macht nur je den Teil, in dem ein Modell einzigartig gut ist.

Der Login ist eine echte Browser-Session, von Playwright gegen comunio.com gefahren. Die Zugangsdaten kommen zur Laufzeit über ein Service-Token aus einem Passwort-Vault — nie geprintet, nie geloggt, nie im Code — und die Session wird über die Läufe hinweg wiederverwendet. Für eine Hobby-Liga reicht das völlig. Für ein Unternehmen ist es der Punkt, an dem das echte Gespräch anfängt, nicht endet: wo die Daten liegen, wer eine Empfehlung überstimmen darf, ob ein Auditor den Trail akzeptieren würde — und der wirklich dornige Teil: Eine Fantasy-Seite zu scrapen, auf der man einen Account hat, ist trivial, während Wettbewerber-Monitoring und Drittdaten bei einer regulierten Firma ein Terms-of-Service- und Zugriffs-Minenfeld sind, um das man von Tag eins herum designt. Ich erwähne das nicht, um es wegzuwinken, sondern weil so-tun-als-wäre-es-nicht-da die Art ist, wie diese Projekte im Legal-Review sterben.

Hat es funktioniert? Ehrliche Antwort: Frag mich in einem Monat — aber die Seite ist offen.

Das Turnier beginnt morgen, am 11. Juni 2026. Während ich das schreibe, ist noch kein Ball gerollt. Ich werde dir also nicht erzählen, dass meine Agenten gewinnen, denn noch hat niemand irgendetwas gewonnen. Der Messi-Bogen und die Rogers-Korrektur oben sind keine bewiesenen Calls — sie sind das System, das seine Meinung ändert, während die Nachrichten reinkommen, und genau das ist das Verhalten, das ich wollte. Aber die Anzeigetafel ist noch leer.

Was ich zeigen kann, ist das System, das unter Druck ehrlich bleibt, vor dem Anpfiff, wo es schon überprüfbar ist:

Der Angulo-Bogen. Am 22. Mai hielt es ihn trotz Verletzungs-Flag — Startelf-Wahrscheinlichkeit 50, Wert 0,49M — gegen den Instinkt zum Panikverkauf. Am 25. Mai behauptete eine Quelle, er sei „fit, p80“; der Faktenchecker hat das widerlegt und auf p45 korrigiert. Dann, am 7. Juni: bestätigt fit, p72, Wert hoch auf 1,43M, Kaderplatz offiziell. Der Wert wanderte 0,49 → 0,52 → 1,43M, während alle anderen zuckten. „Kein Panikverkauf, bis zur Kader-Deadline halten“ war der Call, und er hielt. Die drei Snapshots unten sind die eigenen, datierten Aufzeichnungen des Systems zu diesem Bogen — ich kann mit dem Datums-Picker jederzeit dorthin zeitreisen:

Dashboard-Snapshot vom 22. Mai: Angulos Zeile mit Verletzungs-Flag, Startelf-Wahrscheinlichkeit 50, Wert 0,49M und Urteil HOLD
22. Mai: bei 0,49M durch das Verletzungs-Flag gehalten — kein Panikverkauf, halten bis zur Kader-Deadline.
Dashboard-Snapshot vom 25. Mai: Der Faktenchecker markiert die optimistische Fit-bei-p80-Behauptung als widerlegt und korrigiert die Startelf-Wahrscheinlichkeit auf 45
25. Mai: die verfrühte „fit, p80“-Behauptung vom Faktenchecker widerlegt und auf p45 korrigiert.
Dashboard-Snapshot vom 7. Juni: Angulo bestätigt fit bei Startelf-Wahrscheinlichkeit 72, sein Wert auf 1,43M gestiegen, Kaderplatz offiziell
7. Juni: bestätigt fit, Wert fast verdreifacht auf 1,43M. Archiviert, überprüfbar, kein nachträgliches Umschreiben möglich.

Die Foden-Falle. Am 22. Mai: AVOID. „Nicht in Englands 2026er-Kader. Ohne WM wertlos. Die teuerste Falle auf dem Markt — nicht bieten.“ Schlicht korrekt, und ein Rivale hat trotzdem +63% für ihn überzahlt. Die Warnung stand genau da im Dashboard, mit ihren Quellen — sie steht immer noch im Snapshot vom 22. Mai. Jemand hat sie nur nicht gelesen.

Der Snapshot vom 22. Mai von Fodens Empfehlungskarte: Urteil AVOID, markiert als nicht in Englands 2026er-Kader und als teuerste Falle auf dem Markt bezeichnet
Die Warnung, wie sie am 22. Mai gerendert wurde. Die +63% Überzahlung passierte trotzdem — nur nicht durch mich.

Und die Tabelle ganz oben in diesem Artikel — Worldcup Allstars 20,6% im Minus, ich 17,3% im Plus — ist die Buchführung des Systems, bevor ein einziges Spiel gespielt wurde, über einen Abstand von fast 21M, der allein daraus entstand, wie jeder von uns sich im Markt verhalten hat.

Das ist also der ehrliche Stand der Dinge. Die Agenten sind diszipliniert, sie zitieren ihre Quellen, sie auditieren sich selbst, und sie benoten sich bereits auf einer öffentlichen Seite, die morgen Abend zu zählen beginnt. Ob sie die Liga tatsächlich gewinnen, können nur Juni und Juli beantworten.

Genau deshalb mache ich daraus eine Serie. Zwei Fortsetzungen kommen, beide nachträglich gegen die Realität abgerechnet, ohne Gnadenbonus:

  1. Wie genau waren die Prognosen? Die Seite dafür hat das System schon — leer, während ich das schreibe, füllt sich ab morgen. Ich schreibe es nach der Gruppenphase ordentlich auf, mit der rohen Prognose-Genauigkeit und den Kalibrierungskurven der Startelf-Wahrscheinlichkeiten.
  2. Wie genau war die Information, die es gesammelt hat? Eine separate und wohl wichtigere Frage — nicht „hat die Wette sich ausgezahlt“, sondern „war das Bild des Systems von der Welt überhaupt korrekt?“ Dort bekommen die Falsch-Bestätigt-Quote und das Problem korrelierter Quellen ihre öffentliche Abrechnung.

Die zweite ist die Frage, die ich stellen würde, bevor ich irgendeinem Entscheidungssystem traue, Fantasy oder nicht. Ein System, das durch Glück gewinnt, und eines, das gewinnt, weil es klar gesehen hat, sehen auf der Anzeigetafel identisch aus. Die Fortsetzungen sind mein Versuch, die beiden auseinanderzuhalten — öffentlich, wo man meine Arbeit prüfen kann.

Eine Notiz, bevor ich dich gehen lasse: Die Form unter der Haube — autonome Agenten, die frisch nachschauen, jede Behauptung belegen, sich selbst auditieren und ihre eigenen Prognosen gegen die Realität benoten — ist nicht fußballspezifisch. Dasselbe Muster funktioniert gegen jedes bewegliche Ziel: Beschaffungsdaten, Wettbewerberpreise, Lieferantenrisiko, die Märkte, in denen du tatsächlich lebst. Eine Fußball-Liga ist nur der Ort, an dem ich es öffentlich beweisen wollte — da, wo die Benotung ehrlich ist und die Einsätze niedrig sind. Wenn die Form auf etwas passt, womit du auf der Arbeit lebst — und du sehen willst, wie ein Prototyp aussieht, der auf deine Domäne zeigt — die Tür ist offen. Andernfalls ist der klügere Zug, zuerst die Genauigkeits-Seiten zu beobachten: Wenn ein System seine eigenen Prognosen nicht gegen die Realität benoten kann, ist der ganze Rest egal.

Jetzt finde ich heraus, ob die Agenten recht hatten. Die Wertung beginnt mit dem Anpfiff.

[pagr] daniel@home:~/blog/ai-agents-fantasy-football