Vorweg, weil die Schlagzeile sonst in die Irre führt: Hier geht es nicht darum, welches KI-Modell die besten Trainingspläne schreibt. Die vier LLMs aus dieser Studie — GPT-4o, Claude 3.7, DeepSeek R1 und Grok-3 — sind Stand heute alle veraltet. Spannend ist, wie getestet wurde: Eine im Mai 2026 in Frontiers in Physiology erschienene Studie hat KI-generierte Trainingspläne erstmals systematisch nach FITT-VP bewerten lassen — einem etablierten Raster aus der Sportmedizin. Diese Testmethodik bleibt relevant, wenn die Modellnamen längst ausgetauscht sind. Und sie liefert einen Startpunkt für eine Frage, die mich seit Monaten umtreibt: Wie misst man objektiv, ob ein KI-Trainingsplan taugt?

KI-generiertes Bild
FITT-VP-Studie: Welche KI schreibt den besseren Trainingsplan?
Auf einen Blick
Auf einen Blick: Eine Studie in Frontiers in Physiology hat Trainingspläne von GPT-4o, Claude 3.7, Grok-3 und DeepSeek R1 von zertifizierten Experten nach dem FITT-VP-Raster bewerten lassen — Claude 3.7 gewann mit 50,2 von 60 Punkten. Wichtiger als das Ranking ist die Methode: Alle vier Modelle sind heute veraltet, aber FITT-VP aus der Sportmedizin macht KI-Pläne erstmals objektiv vergleichbar. Der Test misst allerdings nur die Planstruktur auf dem Papier — keine echten Trainingsergebnisse, keine Periodisierung, keine sportartspezifische Qualität. Die sechs FITT-VP-Fragen kannst du trotzdem heute schon nutzen, um deinen eigenen KI-Plan zu prüfen.
Was die Studie gemacht hat
Drei zertifizierte Trainingsexperten bewerteten die Pläne von vier LLMs für 30 erfundene Patientenprofile — Dimension für Dimension statt nach Bauchgefühl. Die Forscher Huan Feng und Xiaojun Wang bauten die Profile aus epidemiologischen Daten und klinischen Leitlinien und ließen sie in drei Stufen von Sportmedizin-Studierenden und Experten gegenprüfen. Jedes Modell bekam dieselben 30 Fälle. Jeder erzeugte Plan wurde unabhängig bewertet: null bis zehn Punkte pro FITT-VP-Dimension, maximal 60 Punkte pro Plan.
Das Setup erinnert an die Marathon-Studie vom Februar — auch dort beurteilten Menschen die KI-Pläne. Der Unterschied: Hier gab es ein festes, dimensionsweises Raster. Genau das macht Ergebnisse vergleichbar — zwischen Modellen, zwischen Studien, über die Zeit.
Das Ergebnis — und warum es schon Geschichte ist
Claude 3.7 gewann mit 50,2 von 60 Punkten, DeepSeek R1 lag mit 40,3 deutlich hinten — und beide Modelle sind heute überholt. Dazwischen: Grok-3 mit 47,4 und GPT-4o mit 44,0. Die Unterschiede waren statistisch eindeutig, kein Zufallsrauschen.
Im Detail: Claude 3.7 punktete vor allem bei Trainingsdauer und Progression, also der Steigerungslogik über die Wochen. DeepSeek R1 patzte ausgerechnet bei Intensität und Trainingsart — zwei Stellschrauben, an denen ein Plan für dich steht oder fällt. Grok-3 war beim Umfang solide, kam aber mit komplexen Vorerkrankungen schlecht zurecht.
Nur: Alle vier Modelle stammen aus 2024 und Anfang 2025. In KI-Zeitrechnung ist das eine Ewigkeit. Wer aus der Studie abliest „nimm Claude für deinen Plan", zieht die falsche Schlussfolgerung aus einer brauchbaren Arbeit. Das Ranking ist der vergängliche Teil. Das Raster nicht.
FITT-VP: ein Maßstab aus der Sportmedizin
FITT-VP haben die Studienautoren nicht erfunden — es ist ein etablierter Standard der Trainingsverschreibung, geprägt vom American College of Sports Medicine (ACSM). Zuhause ist das Raster in Sportmedizin, Prävention und Reha: überall dort, wo Bewegung wie ein Medikament dosiert wird.
Kurz erklärt: FITT-VP Frequency: wie oft pro Woche. Intensity: wie anstrengend. Time: wie lange pro Einheit. Type: welche Trainingsform. Volume: Gesamtumfang pro Woche. Progression: wie der Plan über die Zeit gesteigert wird.
Als Testkriterium für LLMs ist das eine kluge Wahl. Jede Dimension lässt sich einzeln bewerten, von Menschen, reproduzierbar über alle Modelle hinweg. Nichts anderes machen die großen KI-Benchmarks für Mathe oder Programmieren: definierte Aufgaben, festes Bewertungsraster, klare Punktzahl. Und wie diese Benchmarks misst auch FITT-VP nur eine Facette — dazu gleich mehr.
Was der Test misst — und was nicht
Die Studie misst, ob ein Plan auf dem Papier sauber gebaut ist — nicht, ob er dich schneller oder stärker macht. Drei Grenzen benennen die Autoren selbst: Die Profile waren synthetisch, kein echter Mensch hat nach diesen Plänen trainiert. Jedes Modell wurde nur einmal pro Fall befragt — dabei können LLMs auf identische Fragen unterschiedlich antworten. Und bewertet wurde Expertenurteil, nicht Trainingsergebnis.
Für dich als Sportler kommt eine vierte Grenze dazu: FITT-VP stammt aus Reha und Gesundheitskontext. Periodisierung, sportartspezifische Übungsauswahl, Wettkampf-Timing — all das taucht im Raster nicht auf. FITT-VP prüft das Fundament eines Plans, nicht das ganze Haus. Was Studien zum Vergleich KI gegen Trainer insgesamt zeigen, habe ich an anderer Stelle aufgedröselt — und woran KI-Pläne in der Praxis konkret scheitern, auch.
Das ist kein Totschlagargument gegen die Studie. Es heißt nur: Ein hoher FITT-VP-Score zeigt, dass ein Plan sauber gebaut ist — nicht, dass er der richtige für dich ist.
Warum mich die Methode mehr interessiert als der Sieger
Die Studie funktioniert — als Blaupause dafür, wie man KI-Trainingspläne überhaupt seriös bewertet. Hype wäre die Schlagzeile „Claude ist der beste KI-Coach"; die geben die Daten nicht her. Was sie hergeben: Menschliche Rater plus festes Raster schlagen Bauchgefühl, und die Qualitätsunterschiede zwischen Modellen sind real und messbar.
Ich arbeite gerade selbst an einem Bewertungsraster für KI-Trainingspläne — eines, das Sportler statt Patienten in den Mittelpunkt stellt. FITT-VP wird darin eine Schicht sein: der Struktur-Check. Für Periodisierung, sportartspezifische Logik und Coaching-Qualität braucht es eigene Kriterien, und ob meine Gewichtung am Ende trägt, weiß ich ehrlicherweise erst, wenn ich sie an echten Plänen durchgetestet habe. Mehr dazu, wenn es so weit ist.
Bis dahin kannst du das Raster heute schon nutzen: Nimm deinen letzten KI-Plan und stell ihm die sechs FITT-VP-Fragen. Steht da, wie oft, wie hart, wie lange, was genau, wie viel pro Woche — und wie es weitergeht, wenn Woche vier vorbei ist? Jede Dimension ohne konkrete Zahl ist eine Nachfrage wert. Genau bei diesen Details haben in der Studie selbst die besten Modelle Punkte liegen lassen. Und falls du noch gar keinen KI-Plan hast: Wie du dir Schritt für Schritt einen Trainingsplan mit KI erstellst, habe ich bereits aufgeschrieben.
Quellen
Feng H, Wang X. Comparative performance of four large language models in generating evidence-based exercise prescriptions using FITT-VP framework. Front Physiol. 2026;17:1846567. doi.org/10.3389/fphys.2026.1846567
ACSM's Health & Fitness Journal: Developing the P (for Progression) in a FITT-VP Exercise Prescription (2018). journals.lww.com


