Welches KI-Modell hat das beste Fitness-Wissen?

Für aktuelles, evidenzbasiertes Training: GPT-5.2 oder Claude 4.6 — beide haben Cutoff August 2025 und kennen neuere Sportwissenschaft. Für Trend-Themen und Community-Wissen: Grok 4. Für zeitkritische Recherchen, bei denen es auf neue Studien ankommt: Perplexity.

Kann ich einem KI-Trainingsplan vertrauen?

Für allgemeine Strukturen — Progressionslogik, Grundübungen, Erholungsplanung — ja. LLMs sind bei bewährten Trainingsprinzipien solide. Für spezifische medizinische Situationen, Verletzungshistorie oder stark unterrepräsentierte Gruppen (Frauen 50+, Nischensportarten) gilt: immer mit eigener Fachkenntnis oder echtem Trainer-Input kombinieren.

Was ist ein Knowledge Cutoff und warum ist er für Fitness relevant?

Der Knowledge Cutoff ist das Datum, nach dem das Modell nichts Neues mehr kennt. Für Fitness bedeutet das: Studien, Methoden oder Erkenntnisse, die danach erschienen sind, existieren für das Modell nicht — egal wie selbstsicher die Antwort klingt. GPT-5.2 und Claude 4.6 kennen Stand August 2025. Llama 4 endet bei August 2024 — ein relevanter Unterschied bei sich schnell entwickelnden Feldern wie Sporternährung oder Supplementierungsforschung.

KI Trainingsdaten: GPT, Claude & Gemini im Training & Fitness-Vergleich

Wenn ein LLM dir einen Trainingsplan erstellt, zieht es dieses Wissen nicht aus deinen Fitnessdaten heraus. Es zieht ihn aus Text. Millionen Seiten Text — Blogs, Studien, Bücher, Foren — die vor einem bestimmten Datum ins Internet gestellt oder digitalisiert wurden.

Das klingt nach einem harmlosen technischen Limit. Der Haken liegt tiefer: Diese Texte haben Lücken, Schwerpunkte und Verzerrungen — und genau die tauchen in deinem Trainingsplan auf, ob du es willst oder nicht.

Warum ChatGPT bei der Marathon-Vorbereitung solide performt, bei Powerlifting aber schwächelt. Warum KI-generierte Pläne für Frauen über 40 oft problematisch sind. Warum ein LLM von einer Trainingsmethode, die dieses Jahr publiziert wurde, noch nie gehört hat. Die Antwort liegt immer in den Trainingsdaten — und wer das versteht, prompts besser.

Auf einen Blick

LLMs lernen Fitness aus Text, nicht aus Bewegungsdaten oder echtem Training
Jedes Modell hat andere Quellen — und damit andere Stärken und blinde Flecken
GPT-5.2 und Claude 4.6 haben den frischesten Wissensstand (Cutoff August 2025)
Demographische Lücken betreffen besonders Frauen, ältere Sportler und Nischensportarten
Wer seinen Kontext explizit nennt, bekommt bessere Antworten — immer

Was LLM-Trainingsdaten überhaupt sind

LLMs wie ChatGPT, Claude oder Gemini wurden nicht auf Trainingsplänen trainiert — sie wurden auf Text trainiert. Der Unterschied ist entscheidend.

Pre-Training heißt: Das Modell liest gigantische Mengen Text und lernt Muster darin. Es lernt, was nach was kommt, welche Konzepte zusammenhängen, wie Texte strukturiert sind. Fitness-Wissen entsteht dabei nicht durch eigene Trainingserfahrung, sondern durch das Lesen von Texten über Training.

Konkret heißt das: Das LLM hat tausende Artikel über progressive Overload gelesen, hunderte Studien zu Periodisierung, Dutzende Bücher über Krafttraining. Es hat daraus ein Modell des Konzepts „Training“ abgeleitet — aber es hat noch nie eine Hantelstange angefasst oder eine Trainingseinheit gespürt. Das Modell weiß, was in Texten steht. Was in keinem Text steht, weiß es nicht.

Das Modell lernt nicht aus dir

LLMs lernen nicht aus deinen Prompts. Wenn du ChatGPT heute eine schlechte Antwort gibst, ist das für das Modell morgen irrelevant. Die Wissensbasis ist eingefroren — das Datum, an dem das Training abgeschlossen wurde, nennt sich Knowledge Cutoff, vergleichbar mit dem Erscheinungsdatum eines Buches: alles was danach publiziert wurde, ist schlicht nicht drin.

Woher das Fitness-Wissen kommt

Die drei Hauptquellen für LLM-Wissen über Training sind Webseiten und Blogs, wissenschaftliche Studien und Bücher — alle drei mit unterschiedlichen Stärken und unterschiedlichen Verzerrungen.

Webseiten und Blogs

Webseiten und Blogs machen mengenmäßig den größten Teil des Trainingsdatensatzes aus — Schätzungen zufolge 60–80% des gesamten Pre-Training-Korpus. Der größte einzelne Datensatz heißt Common Crawl: ein automatisierter Crawl von Milliarden Webseiten, der regelmäßig aktualisiert und als Rohmaterial für LLM-Training genutzt wird. Fitness-Blogs, Foren, Ratgeberseiten — alles landet dort drin. Das bedeutet: Themen, die viel im Web diskutiert werden, kennt ein LLM gut. Nischenmethoden oder neue sportwissenschaftliche Ansätze kaum.

Das eigentliche Problem ist aber nicht die Menge, sondern die Struktur dahinter. Ich kenne diese Branche — und wie Content in ihr oft entsteht. Es geht nicht darum, ob jemand KI als Schreibwerkzeug nutzt oder nicht. Das Problem ist, wenn Leute über Themen schreiben, die sie schlicht nicht beherrschen. Trainingsartikel werden recherchiert, indem man schaut was Konkurrenten schreiben, und dann leicht umformuliert. Das Ergebnis: Hunderte Artikel mit derselben Kernaussage, die sich gegenseitig bestätigen — ob sie fachlich korrekt ist oder nicht.

Für ein LLM sieht das wie Konsens aus. Das Modell kann nicht unterscheiden, ob ein Text von jemandem mit 15 Jahren Coaching-Erfahrung stammt oder von jemandem, der drei Stunden gegoogelt hat. Es sieht: Muster taucht auf vielen Seiten auf, auf Seiten mit vielen Verlinkungen → muss wohl stimmen. Popularity ist nicht dasselbe wie Korrektheit — aber LLMs können diesen Unterschied im Trainingsprozess nicht zuverlässig auflösen.

Wissenschaftliche Studien

Wissenschaftliche Literatur macht etwa 10–20% des LLM-Trainingsdatensatzes aus — aus Quellen wie PubMed, arXiv und anderen akademischen Repositorien. Sportwissenschaft ist davon nur ein kleiner Bruchteil: Schätzungen auf Basis von Domänenanteilen in PubMed/PMC gehen von unter einem Prozent des Gesamtdatensatzes aus — keine exakte Zahl, aber die Größenordnung ist klar. Das ist kein Angriff auf die Sportwissenschaft, das ist schlicht Proportionalität — Medizin, Physik und Informatik produzieren um ein Vielfaches mehr Publikationen.

Dazu kommt der demographische Bias, der sich durch die gesamte Literatur zieht: Sportwissenschaftliche Forschung wurde jahrzehntelang hauptsächlich an jungen, männlichen, westlichen Testpersonen durchgeführt. Frauen, Menschen über 50 und Anfänger ohne Trainingshintergrund sind systematisch unterrepräsentiert — nicht weil Studienleitende das so wollten, sondern weil diese Gruppen für die klassische Leistungssportforschung weniger relevant waren.

Dazu kommt, dass nicht alle Studien frei zugänglich sind. Paywall-Artikel hinter akademischen Lizenzen sind im LLM-Training schlechter repräsentiert als Open-Access-Publikationen. Was das Modell über Sportwissenschaft weiß, ist also auch eine Funktion davon, welche Studien ohne Bezahlschranke im Netz verfügbar waren — und Open-Access-Veröffentlichungen sind in der Sportwissenschaft noch keine Selbstverständlichkeit.

Bücher und Fachliteratur

Bücher sind oft die qualitativ zuverlässigste Quelle — sofern sie digitalisiert und im Trainingsdatensatz vorhanden sind. Klassiker wie „Science and Practice of Strength Training“ (Zatsiorsky & Kraemer) oder „Periodization“ (Bompa & Haff) haben vermutlich ihren Weg in die Trainingsdaten großer LLMs gefunden. Ihr Einfluss auf die Antwortqualität bei Kraftsport-Themen ist real.

Der Nachteil: Bücher haben Veröffentlichungsdaten. Ältere Standardwerke können Konzepte enthalten, die durch neuere Forschung revidiert wurden. Das LLM merkt das nicht — es gewichtet den Text nach Muster, nicht nach Aktualität.

Quelle	Anteil (Schätzung)*	Stärke	Schwäche
Webseiten / Blogs (Common Crawl)	~60–80%	Breite Themenabdeckung, aktuelle Diskussionen	Qualität unkontrolliert, Kopier-Kaskaden, Trainingsmythen ranken oft genauso gut wie seriöse Quellen
Wissenschaftliche Studien (PubMed, arXiv)	~10–20%	Methodisch strukturiert, peer-reviewed	Demographischer Bias (jung/männlich), Paywall-Filter, Sportwiss. <1% des Gesamt
Bücher / Fachliteratur	~5–10%	Höchste Qualität, strukturiertes Wissen	Nur digitalisierte Werke, möglicherweise veraltet, neuere Revisionen fehlen

* Schätzungen auf Basis öffentlich dokumentierter Pre-Training-Corpora (u. a. The Pile, DOLMA, C4). Exakte Anteile variieren je nach Modell und sind von den Anbietern nicht vollständig offengelegt.

Woher kommt LLM-Wissen über Training? Die drei Hauptquellen — und ihre Lücken Webseiten & Blogs Größte Menge (~60–80%) Breite Themenabdeckung ⚠ Qualität stark variierend ⚠ Kopier-Kaskaden ⚠ Trainingsmythen ranken gut Wiss. Studien Methodisch strukturiert (~10–20%) Peer-reviewed ⚠ Demogr. Bias (jung, männl.) ⚠ Paywall-Filter ⚠ Sportwiss. <1% des Gesamt Bücher & Fachliteratur Höchste Qualität (~5–10%) Strukturiertes Wissen ⚠ Mögl. veraltet ⚠ Nur digitalisierte Werke ⚠ Neuere Revision fehlt KNOWLEDGE CUTOFF Alles nach dem Cutoff-Datum fehlt im Modell — neue Studien, neue Methoden, neue Tools. Workaround: Relevante Quellen selbst als Kontext mitgeben.

Welches Modell weiß was — der Vergleich (April 2026)

Das ist der Punkt, den fast niemand erklärt: Nicht alle LLMs haben dieselben Quellen. Und die Unterschiede sind für Fitness-Fragen relevant. Cutoff, Datenbasis und Web-Search-Zugang entscheiden mit darüber, welche Antwortqualität du realistisch erwarten kannst.

Momentaufnahme: Stand April 2026

Modellversionen und Cutoff-Daten ändern sich schnell — die Tabelle unten zeigt den Stand April 2026. Die genannten Versionsnummern (GPT-5.2, Claude 4.6 etc.) können bei deinem Lesen bereits überholt sein. Den aktuellen Cutoff deines Modells findest du direkt beim Anbieter: OpenAI, Anthropic, Google. Die Prinzipien dahinter — Quellenverteilung, demographische Lücken, Cutoff-Effekt — bleiben unabhängig von Versionsnummern stabil.

Modell	Knowledge Cutoff	Besondere Datenquellen	Fitness-Implikation
GPT-5.2	August 2025	CommonCrawl, Bücher, Wikipedia, proprietär	Frischestes Sportwissen; Bing-Suche verfügbar
Claude 4.6	August 2025	CommonCrawl + Anthropic-kuratiert	Ähnlich aktuell wie GPT-5; Daten-Zusammensetzung nicht vollständig offengelegt
Gemini 3 Pro	Januar 2025	Google-Web-Crawl-Snapshot, Google Books, wahrscheinlich YouTube-Transkripte	Breite Fitness-YouTube-Abdeckung; Web-Suche als separates Inference-Tool (nicht Trainingsdaten); 7 Monate hinter GPT/Claude
Grok 4	November 2024	X/Twitter public posts + Web	Stark bei Trend-Fitness (Zone 2, Carnivore etc.) — anfälliger für Bro-Science
Llama 4	August 2024	CommonCrawl + Facebook/Instagram-Posts (public)	Laien-Fitness-Diskurs stark; Sportwiss. schwach; 1 Jahr hinter GPT
Perplexity	Real-time	Live-Suche, zitiert Quellen	Kein Cutoff-Problem — Qualität hängt von Quellauswahl ab

GPT-5.2 und Claude 4.6 kennen Studien, die 2024–2025 veröffentlicht wurden — etwa neuere Erkenntnisse zu Protein-Timing, Zone-2-Training oder HRV-Messung. Llama 4 kennt diese nicht. Grok 4 hat den Twitter-Fitness-Kontext tief verinnerlicht — was bei Trend-Themen hilft, bei evidenzbasierter Trainingsplanung aber Vorsicht erfordert. Llamas Facebook/Instagram-Datenbasis macht es bei praxisnahem Community-Wissen stark — und gleichzeitig anfällig für Mythen, die dort besonders schnell zirkulieren.

Faustregel: Für fundamentale Trainingsplanung reichen GPT-5.5 oder Claude Opus 4.8 — wie sich die Modelle bei echten Fitnessfragen im direkten Test schlagen, zeigt mein KI-Modell-Vergleich. Für zeitkritische Fragen zu neuer Supplementierungsforschung oder aktuellen Sporternährungs-Empfehlungen: Perplexity oder ein Modell mit aktivierter Web-Suche. Wer Claude strukturiert einsetzen will, findet einen fertigen Startpunkt im Claude Training & Fitness Skill — für Gemini gibt es den Gemini Fitness Coach als Gem.

Demographische Lücken — wer in den Daten fehlt

Sportwissenschaftliche Studien haben ein Standardproblem: Sie testen hauptsächlich junge Männer zwischen 18 und 30, oft Sportstudenten. Frauen, Menschen über 50, Anfänger ohne Trainingshintergrund und Menschen mit Vorerkrankungen sind systematisch unterrepräsentiert.

Für ein LLM bedeutet das: Empfehlungen zum Thema Krafttraining für Frauen in der Perimenopause basieren auf einem deutlich schmaleren Wissensfundament als Empfehlungen für junge Männer. Das ist kein LLM-Problem — das ist ein Problem der Sportwissenschaft, das sich im LLM spiegelt. Das Modell hat gelesen, was publiziert wurde. Und publiziert wurde hauptsächlich Forschung an einer bestimmten Gruppe.

In der Praxis zeigt sich das so: Wenn du als 54-jährige Frau, die seit 8 Monaten trainiert, einen Prompt stellst und deinen Kontext weglässt, bekommst du die Empfehlung, die für den impliziten Default-User optimiert ist — den 28-jährigen Mann mit 2 Jahren Trainingserfahrung. Das ist nicht Böswilligkeit, das ist Statistik.

Das bedeutet nicht, dass ein LLM für diese Gruppen nutzlos ist. Es bedeutet, dass du beim Prompten mehr Kontext liefern musst — und die Antworten kritischer einordnen solltest. Dazu gehört auch, explizit nach den Limitierungen zu fragen: „Welche Aspekte dieser Empfehlung könnten für meine Situation weniger gut passen?“

Sportart-spezifische Lücken und das Knowledge Cutoff

Marathon und Radfahren sind im deutschsprachigen und englischsprachigen Web gut dokumentiert. Powerlifting und Olympic Weightlifting ebenfalls. Aber bereits bei Sportarten wie Klettern, Kampfsport oder Rudern wird die Datenbasis dünner — und bei echten Nischendisziplinen ist das LLM-Wissen oft dünn bis zufällig.

Das liegt nicht daran, dass LLMs diese Sportarten ignorieren würden. Es liegt daran, dass schlicht weniger Text darüber existiert. Ein LLM kann nur aus dem lernen, was im Web publiziert wurde — und Nischensport hat schlicht eine kleinere Community, die darüber schreibt.

Knowledge Cutoff beachten

Jedes LLM hat einen festen Cutoff — alles danach fehlt vollständig, egal wie selbstbewusst die Antwort klingt. Welches Datum das für dein Modell konkret ist, ändert sich mit jeder neuen Version. Den aktuellen Cutoff findest du beim Anbieter — oder du fragst das Modell direkt: „Was ist dein Knowledge Cutoff?“ Die Antwort ist in Sekunden da und immer aktueller als jede Liste in einem Artikel.

Neue Trainingsmethoden haben es besonders schwer. Eine Methode braucht Zeit, um im Web dokumentiert zu werden — und dann weitere Zeit, um überhaupt ins LLM-Pre-Training aufgenommen zu werden. Sportwissenschaftliche Konzepte, die dieses oder letztes Jahr in Fachzeitschriften erschienen sind, existieren für die meisten aktuellen Modelle praktisch nicht.

Das gilt auch für Trainingskonzepte, die sich in der Community schnell verbreitet haben. Ein Ansatz der viral gegangen ist, aber vorher kaum publiziert war, könnte im LLM-Wissen fehlen oder falsch repräsentiert sein — selbst wenn jeder in deiner Trainingsgruppe ihn kennt.

Was das für deinen Prompt bedeutet

Wer weiß, woher das Wissen eines LLMs kommt, kann es gezielter abfragen — und weiß, wann er skeptisch sein sollte.

Du kannst deiner App nicht die richtigen Fragen stellen, wenn du die Antworten nicht einordnen kannst. Das ist das Prompt-Paradoxon.

Je mehr du über Training weißt, desto besser kannst du die Schwächen des LLMs kompensieren. Du erkennst, wenn eine Antwort zu generisch ist. Du weißt, welche Empfehlungen für deine Situation spezifisch sein müssen. Du kannst das LLM gezielt auf fehlende Informationen hinweisen — oder eigene Quellen mitgeben.

Wenn du zu einer Gruppe gehörst, die in den Trainingsdaten unterrepräsentiert ist, sag das explizit im Prompt. Alter, Geschlecht, Trainingserfahrung, Ziel — das ist Kontext, der den Unterschied macht. Ohne diesen Kontext bekommst du die Standard-Empfehlung für den impliziten Default-User.

Das gilt genauso für das Cutoff-Problem. Wenn du weißt, dass dein Thema neuere Entwicklungen betrifft, benenne das direkt im Prompt — zum Beispiel so:

Prompt

Dein Knowledge Cutoff liegt bei [Datum]. Falls du zu diesem Thema neuere Entwicklungen nach diesem Datum nicht kennst, sag das explizit — ich arbeite mit einer Primärquelle weiter. Berücksichtige außerdem, dass sportwissenschaftliche Studien einen bekannten Bias Richtung junge, männliche Testpersonen haben. Mein Profil: [Alter, Geschlecht, Trainingserfahrung, Ziel, Sportart].

Wenn du eine Nischensportart betreibst oder mit einer neueren Methode arbeitest, gib dem LLM die relevanten Grundlagen mit. Copy/Paste aus Studien, eine kurze Erklärung des Ansatzes — das kompensiert die Wissenslücke für dieses Gespräch. Das LLM speichert nichts dauerhaft, aber es kann damit in diesem Kontext arbeiten.

Web Search als Workaround — welches Modell was kann

Der direkteste Weg, das Cutoff-Problem zu umgehen: Web Search. Wenn das Modell aktuelle Inhalte abrufen kann, kompensiert das zumindest teilweise das eingefrorene Trainingswissen. Wie stark dieser Workaround greift, hängt davon ab welches Tool du nutzt — und ob du Web Search überhaupt aktiviert hast.

Tool	Web Search	Aktivierung	Hinweis
Perplexity	Ja — Kern-Feature	Immer aktiv	Web Search ist das Hauptprodukt, keine Umstellung nötig
Gemini	Ja — Google-powered	Automatisch	Direkte Google-Suche-Integration, standardmäßig aktiv
ChatGPT	Ja	Automatisch (Free & Plus)	Wird bei relevanten Prompts selbstständig genutzt
Claude	Ja	Manuell zuschalten	Toggle in der Oberfläche — standardmäßig nicht aktiv

Stand: April 2026 — kann sich ändern

Features wie Web Search werden von den Anbietern laufend angepasst — was heute automatisch aktiv ist, kann morgen hinter einem Toggle verschwinden oder umgekehrt. Diese Tabelle gibt den Stand zum Publish-Zeitpunkt wieder. Im Zweifel: einfach das jeweilige Modell direkt fragen, ob es auf aktuelle Webinhalte zugreifen kann.

Web Search löst das Cutoff-Problem — schafft aber sofort ein neues. Das Modell sucht im selben Web, das wir weiter oben bereits als problematisch identifiziert haben: Blogs ohne Fachkenntnis, Kopier-Kaskaden, Trainingsmythen die gut ranken. Nur halt jetzt in Echtzeit. Wenn ChatGPT mit aktivierter Web Search nach „bestes Krafttraining für Frauen über 50″ sucht und die ersten drei Treffer Ratgeberseiten ohne sportwissenschaftlichen Hintergrund sind, landet genau dieses Halbwissen in deiner Antwort — frisch gecrawlt, wirkungsvoll verpackt.

Garbage In, Garbage Out — nur jetzt in Echtzeit.

Web Search ist trotzdem sinnvoll — aber nur wenn du weißt, wonach du suchst. Wer dem Modell konkrete Quellen nennt, bekommt bessere Ergebnisse als wer es frei suchen lässt. Das lässt sich direkt im Prompt steuern:

Prompt

Suche ausschließlich in PubMed (pubmed.ncbi.nlm.nih.gov) nach peer-reviewed Studien zu [Thema]. Gib mir Titel, Jahr und DOI — kein freies Web-Browsing.

Der Filter bist du — nicht das Modell.

Wissen haben ≠ Wissen korrekt anwenden

Selbst wenn ein LLM eine Studie kennt, heißt das nicht, dass es sie richtig anwendet. Es kann dir mit vollster Überzeugung eine Metaanalyse nennen — und dabei Autor, Jahr oder Kernaussage verfälschen. Es gibt keinen eingebauten Unsicherheitsindikator. Das Modell klingt bei einer korrekten Antwort genauso selbstsicher wie bei einer falschen.

Das ist ein eigenständiges Thema, das über die Datenquellfrage hinausgeht. Wo genau das passiert — mit konkreten Fitness-Beispielen und woran du es erkennst — zeigt Wo KI-Trainingspläne scheitern.

Fazit: Das LLM weiß, was im Text steht

LLM-Wissen über Training ist nicht gleichmäßig verteilt. Es ist ein Spiegel dessen, was publiziert wurde — mit allen Schwerpunkten, Verzerrungen und Lücken, die das mit sich bringt. Dazu kommt, dass das Modell vorhandenes Wissen nicht immer korrekt anwendet. Wer das versteht, kann das Werkzeug sinnvoll einsetzen und einen perfekten Trainingsplan mit KI erstellen. Wer das ignoriert, bekommt Standardantworten für Standardsituationen — formuliert mit der Selbstsicherheit eines Olympia-Coaches.

Das LLM weiß, was im Text steht. Was in keinem Text steht, weiß es nicht. Dein Job ist es, die Lücken zu kennen — und sie selbst zu füllen.

KI-Trainingsdaten: Was LLMs über Fitness & Trainng wirklich wissen