KI-Marathon-Studie 2026: Forscher testen LLMs

Eine neue Studie im British Medical Bulletin hat untersucht, ob aktuelle KI-Modelle brauchbare Marathon-Trainingspläne generieren können. Die Forscher ließen Claude, ChatGPT, Gemini und DeepSeek jeweils einen 6-Monats-Plan für drei Leistungsstufen erstellen. Das Ergebnis: grundsätzlich solide Pläne mit bekannten Schwächen. Spannend wird es aber bei der Frage, was der Abstract über die Methodik verrät – und was nicht.

Auf einen Blick

Forscher testen acht KI-Modelle für Marathon-Trainingspläne – laut Abstract mit einem einfachen Prompt ohne persönliche Angaben. Die Pläne treffen die sportwissenschaftlichen Grundlagen, schwächeln aber bei der Differenzierung zwischen Leistungsstufen. Die Modellauswahl mischt Flaggschiff- und Budget-Modelle ohne erkennbare Begründung. Zentrale Frage: Testet die Studie die KI – oder schlechtes Prompting? Volltext nicht frei zugänglich.

1. Was die Studie untersucht hat

Montaruli et al. (2026) haben acht große Sprachmodelle getestet: Claude 3.5 Sonnet, Claude 3.5 Haiku, ChatGPT 4.0, ChatGPT o1, ChatGPT 4 (Free), Gemini 2.0 Flash, Gemini 2.0 Flash Thinking und DeepSeek R1. Jedes Modell sollte einen 6-Monats-Marathon-Trainingsplan für drei Athleten-Level generieren – Beginner, Intermediate und Advanced. Die Ergebnisse wurden dann qualitativ mit der sportwissenschaftlichen Fachliteratur zu Marathon-Training verglichen.

Die Studie ist deskriptiv angelegt. Es gibt keine reale Intervention, keine Probanden und keine Leistungsdaten. Die Forscher bewerten ausschließlich, ob die KI-generierten Pläne den etablierten Prinzipien entsprechen: progressive Umfangssteigerung, Intensitätsverteilung (mehr als 80 % im niedrigen Bereich), Periodisierung und Tapering vor dem Wettkampf.

2. Die Ergebnisse: Solide Grundlagen, bekannte Schwächen

Laut Abstract enthielten die meisten KI-Pläne die wesentlichen Bausteine eines evidenzbasierten Marathontrainings. Progressive Wochenkilometer, ein klarer Taper und eine Intensitätsverteilung mit dominantem Low-Intensity-Anteil – das sind keine Überraschungen. LLMs haben diese Prinzipien aus tausenden Fachartikeln, Büchern und Forenbeiträgen gelernt. Dass sie die Grundstruktur eines Trainingsplans kennen, ist erwartbar.

Spannender sind die Schwächen. Einige Modelle gaben keine konkreten Wochenkilometer an. Die Unterscheidung zwischen Intermediate und Advanced war bei mehreren Modellen praktisch nicht vorhanden – beide Stufen wurden behandelt, als wären sie identisch. Tempovorgaben für fortgeschrittene Läufer waren inkonsistent oder wenig praxisnah. Genau diese Differenzierung ist der Punkt, an dem Trainingsplanung komplex wird – und an dem die Frage relevant wird, wie detailliert der Prompt eigentlich war.

3. Transparenz-Problem: Der Volltext bleibt hinter der Paywall

Vorab eine wichtige Einschränkung: Ich konnte nur das Abstract lesen. Der Volltext ist im British Medical Bulletin bei Oxford University Press hinter einer Paywall. Einzelartikelzugang kostet 53 Euro. Das ist kein Einzelfall, sondern ein strukturelles Problem der akademischen Publikationslandschaft.

Die Ironie dabei: Ein Großteil der Forschung, die in solchen Journals landet, ist öffentlich finanziert. Universitäten, die mit Steuergeldern arbeiten, produzieren Wissen – und Verlage verkaufen es dann zurück an die Öffentlichkeit, die es bereits bezahlt hat. Für eine Studie, die untersucht, ob KI Trainingspläne für Freizeitläufer erstellen kann, ist das besonders absurd. Die Zielgruppe – also du – soll davon profitieren, darf die Ergebnisse aber nicht lesen.

Was das für diesen Artikel bedeutet: Alle folgenden Einordnungen basieren auf dem frei zugänglichen Abstract. Ob die Methodik im Volltext detaillierter beschrieben wird, ob die genauen Prompt-Formulierungen dokumentiert sind, ob Modell-spezifische Ergebnisse aufgeschlüsselt werden – das bleibt für mich und wahrscheinlich auch für die meisten Leser unklar. Falls du institutionellen Zugang hast oder auf Plattformen wie ResearchGate suchst, findest du dort möglicherweise eine freigegebene Version der Autoren.

OPEN ACCESS UND WISSENSCHAFT

Viele Fachzeitschriften bieten Open-Access-Optionen an – die aber von den Autoren bezahlt werden müssen (oft 2.000–4.000 €). Das führt zu einem System, in dem öffentlich finanzierte Forschung entweder für die Leser oder für die Autoren teuer ist. Preprint-Server wie arXiv oder medRxiv sind eine Alternative, werden in der Sportwissenschaft aber noch zu selten genutzt.

4. Die offene Frage: Wie wurde gepromptet?

Hier wird es interessant – und gleichzeitig unsicher, weil wir nur den Abstract kennen. Laut Abstract wurden die Modelle angewiesen, einen 6-Monats-Marathon-Trainingsplan für drei Leistungsstufen zu erstellen. Ob der Prompt darüber hinaus weitere Details enthielt – Alter, aktueller Trainingszustand, Wochenkilometer, Zeitbudget, Verletzungshistorie, Zielzeit – geht aus dem Abstract nicht hervor. Erwähnt wird davon nichts. Falls der Prompt tatsächlich so minimalistisch war, wie es den Anschein hat, wäre das ein methodisches Problem.

Denn genau das wäre der Fehler, den viele Anfänger machen – und der zum Prompt-Paradoxon passt: Wer nicht genug über ein Thema weiß, stellt keine guten Fragen. Die KI antwortet trotzdem selbstbewusst – nur eben nicht gut. Ob die Forscher diesen Fehler tatsächlich gemacht haben oder ob der Volltext einen differenzierteren Prompt dokumentiert, lässt sich von außen nicht beurteilen.

Das Grundprinzip bleibt aber unabhängig vom konkreten Prompt gültig – und ist durch eine andere Studie zur Prompt-Qualität bei KI-Trainingsplänen auch mit Experten-Bewertungen belegt: Ein LLM, das nur „erstelle einen Marathonplan für Fortgeschrittene“ bekommt, muss raten. Ist der Läufer bei 40 km/Woche oder bei 80? Läuft er seit 2 Jahren oder seit 10? Hat er eine Zielzeit von 3:15 oder 2:50? Ohne diese Informationen fällt es jedem Modell schwer, sinnvoll zwischen Intermediate und Advanced zu differenzieren. Dass genau das als Schwäche identifiziert wurde, könnte also weniger ein KI-Problem sein als eine Konsequenz des Studiendesigns.

4.1 Auffällige Modellauswahl

Neben dem Prompt fällt auch die Auswahl der getesteten Modelle auf. Die Studie wurde im Juni 2025 eingereicht und im September 2025 überarbeitet. In der Modell-Liste stehen Claude 3.5 Sonnet neben Claude 3.5 Haiku (Free), drei verschiedene ChatGPT-Varianten, Gemini 2.0 Flash, Gemini 2.0 Flash Thinking und DeepSeek R1.

Das wirkt auf den ersten Blick ungewöhnlich. Haiku ist Anthropics kleinstes, günstigstes Modell – bewusst als schneller, effizienter Allrounder konzipiert, nicht als Flaggschiff für komplexe Aufgaben. Es mit Sonnet im selben Test zu haben, ohne die Leistungsklassen einzuordnen, ist ein bisschen so, als würde man einen Stadtlauf-Schuh und einen Wettkampf-Racer vergleichen, ohne das zu erwähnen. Ähnlich bei Gemini 2.0 Flash – das ist die leichtgewichtige Variante, nicht das stärkste Gemini-Modell, während 2.5 bereits verfügbar war. Ob die Forscher die Unterschiede zwischen den Modell-Tiers bewusst gewählt haben oder einfach getestet haben, was frei verfügbar war, lässt sich aus dem Abstract nicht ablesen.

Möglicherweise erklärt der Volltext diese Auswahl. Aber falls die Forscher tatsächlich einfach genommen haben, was gerade zugänglich war, wäre das nachvollziehbar – schwächt aber die Vergleichbarkeit der Ergebnisse. Ein differenzierter Test hätte entweder nur Flaggschiff-Modelle verglichen oder die Unterschiede zwischen Leistungsklassen explizit als Variable untersucht — genau diese Trennung habe ich in meinem eigenen KI-Fitness-Benchmark mit 15 Modellen sauber gezogen.

Garbage In, Garbage Out gilt nicht nur für Daten – sondern auch für Prompts. Wenn eine Studie KI-Trainingspläne bewertet, ist die Qualität des Prompts mindestens so entscheidend wie die Qualität des Modells.

Gleiche KI, anderer Prompt, anderes Ergebnis – die Studie testet vermutlich die erste Variante.

Ob der Volltext hier mehr Kontext liefert, kann ich nicht sagen. Vielleicht haben die Forscher bewusst einen minimalistischen Prompt gewählt, um den „Worst Case“ abzubilden – das wäre methodisch nachvollziehbar und sogar sinnvoll. Dann müsste die Studie das aber klar kommunizieren und die Ergebnisse entsprechend einordnen: nicht als „Was kann KI?“, sondern als „Was passiert, wenn man KI ohne Kontext nutzt?“ Im Abstract fehlt diese Unterscheidung. Das ist ein relevantes Ergebnis – aber ein anderes, als der Titel der Studie nahelegt.

→ Vertiefung: Trainingsplan mit KI erstellen – so geht’s richtig

5. Was die Studie trotzdem richtig macht

Die offenen Fragen zur Methodik ändern nichts daran, dass die Grundidee der Studie wertvoll ist. KI-generierte Trainingspläne werden zunehmend genutzt – von Hobbyläufern bis zu ambitionierten Athleten. Die Frage, ob diese Pläne sportwissenschaftlich fundiert sind, ist berechtigt und bisher kaum untersucht.

Die Studie ordnet die Ergebnisse auch angemessen ein. Die Autoren betonen, dass Individualisierung fehlt, dass professionelle Supervision nicht ersetzt wird, und dass randomisierte Studien mit realen Läufern und physiologischen Daten nötig sind. Das ist die richtige Forderung. KI-Trainingspläne an der Fachliteratur zu messen ist ein erster Schritt – aber kein Beweis dafür, dass diese Pläne in der Praxis funktionieren.

6. Was fehlt – und was als Nächstes kommen müsste

Soweit aus dem Abstract ersichtlich, testet die Studie LLMs als Black Box: ein Prompt rein, ein Plan raus. Das bildet nicht ab, wie die meisten erfahrenen Nutzer mit KI arbeiten. In der Praxis iterierst du: Du gibst Kontext, bewertest die Antwort, korrigierst, verfeinerst. Gute KI-Trainingspläne entstehen im Dialog, nicht im Single-Shot.

Zukünftige Studien sollten drei Dinge anders machen. Erstens: optimierte Prompts nutzen, die persönliche Daten wie Alter, aktuellen Trainingsumfang, Verletzungshistorie und Zielzeit enthalten. Zweitens: die Pläne in einer realen Intervention testen – mit Läufern, die danach trainieren und deren Leistungsentwicklung gemessen wird. Drittens: physiologische Daten wie VO₂max, Laktatschwelle (der Punkt, ab dem dein Körper mehr Laktat produziert als abbauen kann) oder HRV (Herzfrequenzvariabilität – ein Maß für die Erholungsfähigkeit deines autonomen Nervensystems) integrieren, um zu prüfen, ob KI-Pläne individuell anpassbar sind.

Die Autoren fordern genau das. Bleibt zu hoffen, dass zukünftige Studien diesen Anspruch einlösen – mit präziseren Prompts, transparenter Methodik und offenem Zugang zu den Ergebnissen.

Fazit: Guter Ansatz, offene Fragen

Diese Studie stellt die richtige Frage – und liefert eine brauchbare Momentaufnahme. Die Ergebnisse decken sich mit dem, was Praktiker längst beobachten: KI-Modelle kennen die Grundlagen evidenzbasierten Trainings. Wo es schwächer wird, ist die Individualisierung. Ob das an den Modellen liegt oder am Studiendesign, lässt sich ohne Volltext nicht abschließend beurteilen. Der Abstract deutet aber darauf hin, dass Prompt-Qualität und Modellauswahl methodisch stärker hätten reflektiert werden können.

Für dich als Nutzer bestätigt das die Grundregel: Dein Trainingsplan wird nur so gut wie dein Prompt. Ohne Fachwissen und ohne persönlichen Kontext bekommst du einen Plan, der „irgendwie passt“ – aber nicht zu dir. Das Werkzeug ist mächtig. Aber du musst wissen, wie du es benutzt.

Quelle: Montaruli, G., Nikolaidis, P. T., Racil, G., Maffulli, N., Migliaccio, G. M., & Padulo, J. (2026). Artificial intelligence–generated marathon training programs: reliable tools in exercise prescription for athletic performance? British Medical Bulletin, 157(1), ldag010. DOI: 10.1093/bmb/ldag010 | PubMed

Studie testet KI-Trainingspläne für Marathon – aber wie gut war der Test selbst?

1. Was die Studie untersucht hat

2. Die Ergebnisse: Solide Grundlagen, bekannte Schwächen

3. Transparenz-Problem: Der Volltext bleibt hinter der Paywall

OPEN ACCESS UND WISSENSCHAFT

4. Die offene Frage: Wie wurde gepromptet?

4.1 Auffällige Modellauswahl

5. Was die Studie trotzdem richtig macht

6. Was fehlt – und was als Nächstes kommen müsste

Fazit: Guter Ansatz, offene Fragen

Das könnte dich interessieren

HRV-Apps: was eine Studie über 206 Apps zeigt

ACSM Krafttraining-Leitlinie 2026: Neu nach 17 Jahren

Schweiß-Biomarker im Funktionstextil: Laborwerte ohne Blut?