KI-Trainingsplan Studie: Was passiert, wenn Experten urteilen

Du hast KI schon mal nach einem Trainingsplan gefragt — oder zumindest darüber nachgedacht. Die eigentliche Frage ist nicht ob das funktioniert, sondern woran du erkennst, ob das Ergebnis gut ist. Eine neue Studie liefert dazu einen unbequemen Befund: Selbst Experten sind sich dabei kaum einig.

Auf einen Blick

Forscher ließen Gemini 2.5 Trainingspläne für komplexe Patientenfälle erstellen und baten drei Experten, diese zu bewerten. Die Experten waren intern konsistent — aber untereinander kaum einer Meinung. Der Grund: Jeder priorisierte anders, Sicherheit vs. Progression. Das ist kein Fehler der Studie — das ist ein Befund über Trainingsplanung generell. Und er gilt genauso für deinen Eigentrainer-Alltag mit KI.

Drei Experten, drei verschiedene Urteile — über denselben Plan

Kennst du das: ein Trainer sagt mehr Volumen, der nächste sagt mehr Intensität — und beide sind überzeugt, recht zu haben. Das ist kein Einzelfall, das ist Struktur. Genau das hat diese Studie in einem kontrollierten Setting sichtbar gemacht. Drei Sportmediziner und Trainingswissenschaftler bewerteten dieselben KI-generierten Pläne — und kamen zu fundamental unterschiedlichen Urteilen. Einer priorisierte strikte Sicherheitsgrenzen, ein anderer legte mehr Wert auf realistische Progression und Alltagstauglichkeit.

Jeder für sich war dabei völlig konsistent — aber sie waren sich gegenseitig kaum einig. Die Studie nennt das die „inhärent expertenabhängige Natur der Trainingsempfehlung.“ Einfacher gesagt: Es gibt kein objektives Richtig in der Trainingsplanung. Es gibt Experten mit unterschiedlichen Erfahrungen und Prioritäten — und KI bildet genau diesen Zustand ab. Methodisch gilt: Mit nur drei Ratern ist diese Aussage ein starkes Signal, aber kein präziser Messwert.

„KI braucht Expertenkontrolle“ — welchem Experten genau?

Die Standardantwort auf KI-generierte Trainingspläne lautet: Lass das von einem Experten prüfen. Klingt vernünftig. Aber wenn drei Experten über denselben Plan drei verschiedene Urteile fällen — welchem vertraust du dann? Die Forderung nach Aufsicht verschiebt das Problem nur. Sie löst es nicht.

Ich vergleiche das immer so: Es gibt ein klares Falsch und Gefährlich — da sind Experten meistens einer Meinung. Und es gibt ein Optimum — das eigentlich niemand kennt. Das Ziel ist, sich so nah wie möglich daran zu bewegen. Zum Glück gibt es dafür oft mehrere gültige Wege. Experten streiten sich fast immer über diesen mittleren Bereich, nicht über die absoluten Grenzen.

Das bedeutet nicht, dass Expertenwissen wertlos ist. Es bedeutet, dass es keine neutrale Instanz gibt, die dir sagt ob dein KI-Plan gut ist. Auch ein erfahrener Trainer bringt seine eigene Schule, seine eigene Priorisierung mit. Den Unterschied merkst du nur, wenn du selbst genug weißt, um die Antwort einzuordnen.

Mehr Prompt-Struktur hilft — bis zu einem Punkt

Die Studie testete drei Stufen der Prompt-Strukturierung: von einem einfachen Basis-Prompt bis zu einem detaillierten Schema mit festen Ausgabeformaten. Stufe 1 auf Stufe 2 brachte messbar bessere Ergebnisse in Sicherheit und Leitlinientreue. Stufe 3 — noch detaillierter — verbesserte die Scores aber nicht weiter, bei einem der Fälle wurden sie sogar schlechter. Das ist ein bekanntes Muster, das frühere Studien zu ChatGPT-Trainingsplänen ähnlich gezeigt haben.

Die Studie gibt dafür keine direkte Erklärung — eine naheliegende Möglichkeit: Wenn ein Prompt zu eng definiert ist, folgt das Modell starr dem Schema und verliert dabei die Flexibilität, die einen guten Plan ausmacht. Für dich als Eigentrainer heißt das: Kontext liefern ja, aber das Modell nicht in eine Schablone zwingen. Wer nicht weiß was progressive Belastungssteigerung oder Deload bedeutet, kann es nicht anfragen — und das LLM ergänzt fehlendes Trainingswissen nicht aus dem Nichts.

Was bleibt, wenn man die klinische Verpackung weglässt

Die Studie untersucht komplexe Patientenfälle — Diabetes, Arthrose, Krebs-Nachsorge. Genau bei diesen Gruppen ist fehlerhafte Trainingsplanung nicht nur suboptimal, sondern potenziell gefährlich. Das macht die Studie ethisch relevant — und macht den Befund für gesunde Eigentrainer paradoxerweise noch interessanter: Wenn selbst in diesem Hochrisiko-Kontext kein Expertenkonsens entsteht, was sagt das über Trainingsplanung generell? Aber der Kernbefund gilt trotzdem: KI-generierte Trainingspläne sind so gut wie der Prompt dahinter. Wer das systematisch angehen will — mit einem strukturierten Ansatz statt Trial-and-Error — findet dazu den Claude Trainingsplan-Skill als Ausgangspunkt.

Was mich an dieser Studie interessiert: Sie zeigt, dass die Frage „Ist dieser KI-Plan gut?“ keine objektive Antwort hat — auch nicht von Experten. Das ist kein Grund, KI-Tools abzulehnen. Es ist ein Grund, sie mit eigenem Urteil zu nutzen statt ihnen blind zu vertrauen. Wer die Grundlagen kennt, erkennt wann ein Plan Sinn ergibt — und wann nicht. Das gilt für KI-Output genauso wie für den Rat eines Trainers.

Die Studie ist open access bei MDPI verfügbar.

KI-Trainingspläne unter der Lupe: Wenn Experten sich nicht einig sind

Drei Experten, drei verschiedene Urteile — über denselben Plan

„KI braucht Expertenkontrolle“ — welchem Experten genau?

Mehr Prompt-Struktur hilft — bis zu einem Punkt

Was bleibt, wenn man die klinische Verpackung weglässt

Das könnte dich interessieren

HRV-Apps: was eine Studie über 206 Apps zeigt

ACSM Krafttraining-Leitlinie 2026: Neu nach 17 Jahren

Schweiß-Biomarker im Funktionstextil: Laborwerte ohne Blut?