Studie: Prompt-Qualität bestimmt ChatGPT-Trainingspläne

Wer ChatGPT einen Trainingsplan entlocken will, steht vor einer grundlegenden Frage: Wie viel Information muss rein, damit etwas Brauchbares rauskommt? Eine neue Studie aus dem Bereich Sportwissenschaft liefert jetzt harte Zahlen – und bestätigt dabei ein Problem, das viele Nutzer unterschätzen.

Auf einen Blick

Forscher ließen GPT-4 acht Trainingspläne generieren – vier mit vagem Prompt, vier mit detailliertem. 11 Sportwissenschaftler bewerteten die Ergebnisse blind. Resultat: Detaillierte Prompts liefern messbar bessere Pläne – persönlicher, sicherer, umsetzbarer. Aber selbst identische Prompts erzeugen jedes Mal strukturell andere Pläne.

Was die Studie untersucht hat

Die Studie „More details, less variability?“ ist im Fachjournal Biology of Sport erschienen (Yang et al., 2025) und frei zugänglich. Das Forschungsteam – angesiedelt an den Universitäten Granada, Fuyang und Sichuan – wollte zwei Dinge messen: Erstens, wie stark die Qualität von ChatGPT-Trainingsplänen von der Detailtiefe des Prompts abhängt. Zweitens, wie stabil die Ergebnisse bei wiederholter Eingabe desselben Prompts sind.

Das Szenario war bewusst realistisch gewählt. Eine echte Mutter – ohne sportwissenschaftlichen Hintergrund – sollte einen Trainingsplan für ihren 15-jährigen Sohn generieren lassen. Ziel: Abnehmen und allgemeine Fitness verbessern. Der Sohn ist 175 cm groß, wiegt 75 kg, spielt gern Basketball und geht laufen.

Zwei Prompts, acht Pläne, elf Experten

Die Forscher verglichen zwei Prompts mit unterschiedlicher Informationstiefe. Der einfache Prompt enthielt nur das Alter, das Ziel und den Zeitraum. Der detaillierte Prompt lieferte zusätzlich Größe, Gewicht, Gesundheitsstatus, Hobbys und – entscheidend – eine konkrete methodische Anweisung: Plane nach dem FITT-Prinzip (Frequenz, Intensität, Zeit, Art), biete Übungsalternativen an und gib das Ergebnis als Tabelle aus.

Prompt – Einfach (Protokoll 1)

Prompt

Please design a one-month training program for my 15-year-old son aimed at weight loss and general fitness.

Prompt – Detailliert (Protokoll 2)

Prompt

My son is 15 years old, 175 cm tall, and weighs 75 kg. He is healthy, with no history of surgery or chronic illness. At school, he enjoys playing basketball and running. Please create a one-month training program focusing on weight reduction and physical fitness enhancement. The plan should follow the FITT principle, specifying frequency, intensity, time, and type of exercise. Make sure the exercise types are age-appropriate and suitable for his health status, and include 2–3 alternative exercise options to ensure variety. Present the plan in a table format, seamlessly integrating weekdays and rest days, along with relevant annotations where necessary.

Jeder Prompt wurde viermal in frischen GPT-4-Sitzungen eingegeben, jeweils mit 10 Minuten Abstand. Das ergibt acht Trainingspläne, die anschließend anonymisiert an 11 Sportwissenschaftler gingen. Die Experten – im Durchschnitt 35 Jahre alt mit über 18 Jahren Praxiserfahrung – wussten nicht, welcher Prompt welchen Plan erzeugt hat. Sie bewerteten jeden Plan auf einer Skala von 1 bis 5 in vier Kategorien: Wie individuell ist der Plan? Wie wirksam? Wie sicher? Und wie realistisch umsetzbar?

Die Ergebnisse: Besser, aber nie gleich

Detaillierte Prompts schnitten in allen vier Kategorien besser ab – und die Unterschiede waren nicht nur spürbar, sondern statistisch belastbar. Besonders deutlich bei Personalisierung, Sicherheit, Machbarkeit und dem Gesamtscore. Einzige Ausnahme: Bei der Wirksamkeit ging der Trend zwar in dieselbe Richtung, aber die Stichprobe war zu klein, um den Unterschied statistisch abzusichern.

Kategorie	Einfacher Prompt	Detaillierter Prompt	Unterschied belastbar?
Personalisierung	3,7 / 5	4,2 / 5	Ja
Wirksamkeit	3,7 / 5	4,1 / 5	Tendenz, aber nicht abgesichert
Sicherheit	3,3 / 5	4,0 / 5	Ja
Machbarkeit	4,1 / 5	4,6 / 5	Ja
Gesamt	14,8 / 20	16,8 / 20	Ja

Durchschnittliche Experten-Bewertung pro Kategorie (Skala 1–5, Gesamt = Summe aller vier Kategorien, max. 20). Quelle: Yang et al. (2025), Biology of Sport.

Außerdem prüften die Forscher, wie stark die Outputs schwanken, wenn man denselben Prompt mehrfach eingibt. Ergebnis: Detaillierte Prompts lieferten stabilere Ergebnisse – vor allem bei Sicherheit und Machbarkeit streuten die Bewertungen weniger. Aber insgesamt war der Unterschied in der Schwankung nicht groß genug, um als gesichert zu gelten.

Und hier liegt der Punkt, der viele Nutzer überraschen dürfte: Selbst mit identischem, detailliertem Prompt lieferte GPT-4 jedes Mal einen strukturell anderen Plan. Andere Übungen, andere Intensitäten, andere Aufteilung der Trainingstage. LLMs arbeiten nicht wie ein Taschenrechner, der bei gleicher Eingabe immer dasselbe ausspuckt. Sie wählen bei jeder Ausgabe aus wahrscheinlichen Wörtern – und das erzeugt jedes Mal ein anderes Ergebnis.

Was das für die Praxis bedeutet

Die Studie belegt mit Zahlen, was in der Praxis offensichtlich ist: Garbage In, Garbage Out. Je weniger Kontext du einem LLM gibst, desto generischer und inkonsistenter wird das Ergebnis. Der einfache Prompt führte teils dazu, dass ChatGPT überhaupt erst Rückfragen stellte, statt einen Plan zu liefern. Der detaillierte Prompt hingegen gab dem Modell genug Struktur, um zielgerichtet und sicherer zu arbeiten.

DAS PROMPT-PARADOXON IN AKTION

Die Studie illustriert exakt das Problem, das wir das Prompt-Paradoxon nennen: Die Mutter im Experiment hatte keine sportwissenschaftliche Ausbildung. Ohne Anleitung der Forscher hätte sie vermutlich den einfachen Prompt verwendet – und einen generischeren, weniger sicheren Plan erhalten. Wer wenig über Training weiß, stellt die falschen Fragen. Das FITT-Prinzip (Frequenz, Intensität, Zeit, Art) im detaillierten Prompt zu fordern, setzt voraus, dass man davon gehört hat.

Besonders relevant ist der Sicherheitsaspekt. Die Sicherheitsbewertung machte den größten Sprung aller Kategorien – von 3,3 auf 4,0 von 5 Punkten. Detaillierte Prompts führten also zu Plänen, die sportwissenschaftliche Richtlinien deutlich besser einhielten. Bei einem 15-Jährigen ist das keine akademische Übung, sondern eine Frage der Verletzungsprävention.

Gleichzeitig zeigt die Studie eine Grenze, die kein noch so guter Prompt beseitigt: LLMs würfeln bei jeder Ausgabe – auf hohem Niveau, aber sie würfeln. Wer heute einen Plan generiert und morgen den identischen Prompt eingibt, bekommt etwas anderes. Das ist kein Bug, sondern Architektur. Für Nutzer heißt das: Einen KI-generierten Trainingsplan nie ungeprüft übernehmen, sondern als Entwurf behandeln, den man mit eigenem Wissen oder einer Fachperson abgleicht.

→ Vertiefung: Trainingsplan mit KI erstellen – so geht’s richtig

Einordnung und Limitierungen

Die Studie ist methodisch sauber aufgesetzt – die Experten wussten nicht, welchen Prompt sie bewerten, und die Ergebnisse basieren auf echtem Fachwissen statt Selbsteinschätzung. Aber einige Einschränkungen verdienen Erwähnung. Das Szenario beschränkt sich auf einen einzigen Anwendungsfall: einen jugendlichen Anfänger mit Gewichtsverlust-Ziel. Ob die Ergebnisse auf fortgeschrittene Athleten und Athletinnen, Rehabilitation oder Krafttraining übertragbar sind, bleibt offen. Außerdem wurde ausschließlich GPT-4 getestet – ein Modell, das zum Zeitpunkt der Studie (März 2025) bereits nicht mehr das aktuellste war. Neuere Modelle wie GPT-4o, Reasoning-Modelle (o1, o3) oder Konkurrenten wie Claude und Gemini könnten bei strukturierten Aufgaben wie Trainingsplanung anders – und möglicherweise besser – abschneiden. Die Studie sagt also etwas über GPT-4, nicht über „KI-Trainingspläne“ im Allgemeinen. Die Prompts waren auf Englisch, was die Übertragbarkeit auf deutschsprachige Nutzung einschränkt. Und mit vier Durchläufen pro Prompt ist die Datenbasis dünn, auch wenn die Unterschiede messbar waren.

Trotzdem: Als eine der wenigen Studien, die KI-generierte Trainingspläne systematisch durch ein Experten-Panel bewerten lässt, liefert sie einen wichtigen Datenpunkt. Sie bestätigt, was erfahrene Prompter intuitiv wissen – und gibt dem Ganzen ein wissenschaftliches Fundament.

Fazit

Die unbequeme Wahrheit bleibt: Ein guter Prompt ersetzt kein Trainingswissen – aber er macht den Unterschied zwischen einem generischen Wochenplan und einem Ergebnis, das Experten als personalisiert, sicher und umsetzbar bewerten. Wer KI für Trainingspläne nutzt, sollte mindestens Alter, Körperdaten, Gesundheitsstatus, Ziele, Präferenzen und eine methodische Struktur wie das FITT-Prinzip mitliefern. Und dann das Ergebnis trotzdem kritisch prüfen – denn beim nächsten Mal kommt etwas anderes raus.

Quelle: Yang, Z., Zhang, X., Li, H. & Ye, J. (2025). More details, less variability? A crossover design study on the impact of information granularity on ChatGPT’s training program stability. Biology of Sport, 43, 379–392. Volltext (Open Access)