Läufer nach dem Training blickt auf seine GPS-Sportuhr — VO2max-Schätzung per Wearable vs. Labortest

VO2max per KI berechnen: Was LLMs und Wearables wirklich leisten

Christopher KlenkChristopher Klenk11 Min. Lesezeit

Kann KI meinen VO2max schätzen? Technisch ja — aber ob das Ergebnis brauchbar ist, hängt stark davon ab, welche Art von KI du meinst. Ein LLM wie ChatGPT rechnet mit Formeln die du ihm gibst. Ein Wearable-Algorithmus wertet Sensordaten aus. Beide schätzen — auf völlig unterschiedlichen Wegen, mit unterschiedlicher Präzision.

Die Antwort unterscheidet sich je nach Methode erheblich. Und der interessanteste Befund aus der Forschung: Mehr KI bedeutet nicht automatisch mehr Genauigkeit. Ein Wearable ohne jede ML-Komponente schlägt manche KI-gestützte Lösung in der Fehlerquote.

Auf einen Blick

LLMs (ChatGPT, Claude, Gemini) können VO2max berechnen — wenn du ihnen valide Inputs gibst (Wettkampfzeit, Cooper-Test, HF-Daten). KI-Wearables (Garmin, Apple Watch) schätzen mit ~3–16% Fehlerquote aus Sensordaten — stark abhängig vom Fitnesslevel. Polar erreicht ~8–13% — mit physiologischer Formel, ohne ML, aber mit gemischter Evidenz. Für Trendbeobachtung reichen Wearables. Für Trainingszonenplanung und Wettkampfvorbereitung bleibt der Laktatstufentest der Goldstandard.

Welche Methoden stecken hinter der Schätzung — und was messen sie wirklich?

Erstmal: Kein Wearable und kein LLM misst deinen VO2max. Sie schätzen ihn — auf völlig unterschiedlichen Wegen.

Kurz erklärt: Was VO2max überhaupt bedeutet

VO2max beschreibt, wie viel Sauerstoff dein Körper pro Minute und Kilogramm Körpergewicht maximal verwerten kann. Korrekt gemessen wird er im Labor per Spiroergometrie unter Maximalbelastung — du läufst oder trittst so lange bis nichts mehr geht, während du eine Maske trägst und dein Atemgasaustausch gemessen wird. Alles andere ist eine Näherung.

Wearables wie Garmin und Apple Watch nutzen Herzfrequenz und GPS-Pace als primäre Inputs. Das Grundprinzip: Deine HF-Reaktion bei einer bestimmten Pace verrät etwas über deine aerobe Kapazität. Der Algorithmus — bei Garmin ist das FirstBeat Analytics, bei Apple ein hauseigenes Modell — vergleicht diese Reaktion mit Populationsdaten aus Millionen Trainingseinheiten und interpoliert daraus einen VO2max-Wert.

Polar geht einen anderen Weg. Kein Training nötig, kein GPS. OwnIndex nutzt Ruhepuls, HRV und dein Benutzerprofil — statisch, reproduzierbar. Das Modell basiert auf jahrzehntelanger Forschung in Zusammenarbeit mit der Universität Jyväskylä, nicht auf ML. Ein gut kalibriertes einfaches Modell kann ein komplexes Modell schlagen — aber die Evidenz ist gemischter als die Marketing-Kommunikation vermuten lässt.

LLMs wie ChatGPT, Claude oder Gemini machen etwas anderes: Sie rechnen. Sie wenden validierte sportphysiologische Formeln auf deine Eingaben an. Das Ergebnis ist so gut wie dein Input — worüber ich im nächsten Abschnitt mehr schreibe.

Infografik: Die drei Methoden zur VO2max-Schätzung im Vergleich — LLM, GPS-Wearable und Ruhemessung

Drei Methoden, drei völlig verschiedene Wege zur selben Zahl.

ChatGPT, Claude, Gemini: So berechnest du deinen VO2max mit einem LLM

Ja — ChatGPT, Claude und Gemini können deinen VO2max berechnen. Aber das Wort „berechnen“ ist hier absichtlich gewählt: LLMs messen nichts, sie rechnen. Sie wenden validierte sportphysiologische Formeln auf deine Eingaben an. Das Ergebnis ist so gut wie dein Input.

Das häufigste Missverständnis: Man schreibt „Kannst du meinen VO2max schätzen?“ — und das LLM fängt an zu fragen oder zu improvisieren. Was funktioniert, ist ein klarer Input mit einer der drei validierten Methoden:

Methode 1: Daniels VDOT (beste Methode für Läufer)

Jack Daniels — Sportwissenschaftler, nicht der Whiskey — hat VDOT als praktische Abkürzung entwickelt. Die Idee: Deine Wettkampfzeit auf einer bekannten Distanz verrät alles Wichtige über deine aktuelle aerobe Leistungsfähigkeit — Sauerstoffaufnahmekapazität und Laufökonomie zusammen. VDOT ist deshalb kein direkt gemessener physiologischer Wert, sondern ein Performance-Index: Er beschreibt, welcher VO2max-Wert deiner Wettkampfleistung rechnerisch entspricht. Aus diesem einen Wert leiten sich alle Trainingspaces ab — Easy, Marathon, Tempo, Intervall, Wiederholung. Der entscheidende Vorteil gegenüber einem Labortest: Du brauchst kein Equipment, nur eine ehrlich gelaufene Zeit. Und du kannst VDOT über die Saison tracken — steigt er, wird das Training besser.

Voraussetzung: Eine Wettkampfzeit auf einer bekannten Distanz, gelaufen unter normalen Bedingungen.

Prompt-Beispiel: „Ich bin die 10km in 47:32 gelaufen, bei normalen Wetterbedingungen und ausgeruht. Berechne meinen VDOT nach Daniels und gib mir die Trainingspaces für Easy, Marathon, Tempo und Intervall.“

Das LLM gibt dir einen VDOT-Wert und die zugehörigen Trainingszonen in min/km — direkt verwertbar für deinen nächsten Trainingsplan.

Screenshot: VDOT-Berechnung mit Claude — Prompt mit 10km-Wettkampfzeit, Output mit Trainingspaces in min/km

So sieht ein VDOT-Prompt in der Praxis aus — Input rein, Trainingszonen raus.

Methode 2: Cooper-Test (ohne Gerät, ohne Rennerfahrung)

Du läufst 12 Minuten so weit wie möglich. Distanz in Meter messen.

Prompt-Beispiel: „Cooper-Test: Ich bin in 12 Minuten 2.480 Meter gelaufen. Berechne meinen VO2max und ordne ihn für einen 38-jährigen Mann ein.“

Formel: VO2max = (Distanz in Meter − 504,9) / 44,73. Gut validiert, kein Equipment nötig.

Methode 3: HF-Reserve (wenn du Herzfrequenzdaten hast)

Prompt-Beispiel: „Ruhepuls 52 bpm, maximale HF 187 bpm. Bei einem 30-Minuten-Easy-Lauf hatte ich durchschnittlich 138 bpm bei 6:20 min/km. Schätze meinen VO2max über die HF-Reserve-Methode.“

Weniger präzise als VDOT — und setzt eine valide HFmax-Schätzung voraus, die selbst fehleranfällig ist. Nützlich wenn keine Wettkampfdaten vorhanden sind, aber mit entsprechendem Vorbehalt verwenden.

Kontext macht den Unterschied

Der entscheidende Vorteil gegenüber einem Online-Rechner: Du kannst Faktoren mitgeben, die dein Ergebnis verzerren. Hitze senkt die Pace, schlechter Schlaf erhöht die HF, Höhentraining verfälscht beides. Beispiel: „Die 10km habe ich bei 28 Grad und nach einer schlechten Nacht gelaufen — ich schätze das hat mich 1–2 Minuten gekostet. Berücksichtige das bei der Berechnung.“ Claude oder ChatGPT geben dir dann einen korrigierten Schätzwert mit Begründung. Das kann kein statischer Rechner.

Die Grenze ist klar: Garbage in, garbage out. Wer eine halbherzige Zeit eingibt oder den Kontext weglässt, bekommt einen unbrauchbaren Wert zurück.

Welches Wearable schätzt VO2max am genauesten?

Wearable

KI/ML?

Methode

Fehlerquote (MAPE)

Garmin

Ja

FirstBeat ML, HF + GPS/Pace

~3–10% (fitnesslevelabhängig)

Apple Watch

Ja

Apple ML-Modell, HF + GPS

~16%

Suunto

Ja

FirstBeat-Lizenz (identisch Garmin)

~3–10%

Polar

Nein

OwnIndex, Ruhepuls + HRV + Profil

~8–13%

Fitbit

Nein

CardioFitness Score, Ruhepuls-Formel

~15–20%

Whoop

Kein VO2max-Wert

MAPE-Werte aus unabhängigen Validierungsstudien; variieren je nach Fitnesslevel, Gerät und Messbedingungen. Die Spanne bei Garmin ist besonders ausgeprägt: bei moderat trainierten Läufern zeigen unabhängige Studien 2,8–4,1%, bei hochtrainierten Athleten ~9–10%.

Balkendiagramm: MAPE-Vergleich der Wearables — Garmin, Apple Watch, Polar, Fitbit

Fehlerquoten im Vergleich — Garmin variiert stark je nach Fitnesslevel des Trägers.

Whoop ist ein bewusster Sonderfall: Das Gerät verspricht keinen VO2max-Wert — und das ist ehrlicher als eine Schätzung außerhalb jeder Validierungsbasis.

Die Fehlerquote hängt stark davon ab, wer das Gerät trägt. Garmin und Apple sind auf Freizeitsportler kalibriert und liefern dort brauchbare Werte. Bei gut trainierten Athleten bricht die Genauigkeit ein — der Algorithmus hat in diesem Leistungsbereich schlicht zu wenige Referenzdaten.

Polar OwnIndex macht etwas anderes: kein Training, kein GPS, nur Ruhemessung. Das ist reproduzierbarer — aber die Evidenz für die Genauigkeit ist gemischt. Eine Studie mit dem Polar Vantage zeigt MAPE von 13,2%, andere Ergebnisse liegen günstiger. Was Polar liefert, ist Konsistenz — nicht zwingend Präzision.

Eine Richtung die selten erwähnt wird: Gut trainierte Athleten werden von GPS-basierten Algorithmen tendenziell unterschätzt. Die Modelle rechnen mit Populationsdaten aus dem Freizeitsportlerbereich — wer deutlich darüber liegt, bekommt systematisch zu niedrige Werte. Und wer diese Zahl dann direkt für die Trainingszonenplanung verwendet, plant in der falschen Intensitätszone.

Wo alle KI-Methoden an ihre Grenze stoßen — und warum der Wert trotzdem zählt

Bevor wir zu den Grenzen kommen: Warum ist VO2max überhaupt relevant? Die Antwort geht weiter als die meisten denken.

Leistungszustand und Trainingsfortschritt — das Offensichtliche. Ein VO2max der von 48 auf 52 steigt, ist ein valides Signal dass das Training wirkt. Sinkt er trotz Training, deutet das auf Übertraining oder unzureichende Erholung hin. Als Trendwert ist er präziser als jedes Subjektivgefühl.

Wettkampfprognose — über Daniels VDOT lässt sich aus einer Wettkampfzeit ein Performance-Index ableiten, aus dem wiederum Trainingspaces für alle Intensitätsbereiche folgen. Wichtig: Die Richtung ist Wettkampfzeit → VDOT → Paces, nicht VO2max-Laborwert → Paces. Der gemessene VO2max und VDOT korrelieren stark, sind aber nicht dasselbe.

Langlebigkeit — der unterschätzte Aspekt. VO2max ist nach aktuellem Forschungsstand einer der stärksten Einzelprädiktoren für Gesamtmortalität. Mandsager et al. (2018, JAMA Network Open) zeigten in einer großen Studie: Menschen mit niedriger Fitness hatten ein deutlich höheres Sterberisiko als jene mit durchschnittlicher Fitness — der Unterschied war größer als bei den meisten klassischen Risikofaktoren. Peter Attia fasst diese und weitere Studien in „Outlive“ zusammen: Kardiorespiratorische Fitness sei der einzeln stärkste beeinflussbare Risikofaktor für ein langes gesundes Leben.

Das bedeutet: VO2max tracken ist nicht nur ein Performance-Thema für Wettkampfsportler. Es ist ein Gesundheitsthema — auch für jemanden der nie einen Wettkampf plant.

VO2max allein ist dennoch ein schwacher Orientierungspunkt für die präzise Trainingssteuerung, wenn du dir etwa deinen eigenen KI Trainingsplan fürs Laufen erstellst. Das klingt paradox nach allem was gerade stand — aber es stimmt.

Mein Polar Pacer Pro zeigt via OwnIndex einen Wert von 41 — gemessen im Ruhezustand, ohne eine einzige Trainingseinheit. Kein GPS, keine Pace, kein Schweiß. Nur Ruhepuls und HRV, verglichen mit einem Referenzmodell. Das Polar-Klassifikationssystem stuft das als „Gut“ ein — ein Statuswert auf Basis eines bestimmten Referenzdatensatzes, nicht eine universelle Einordnung. Was mir diese Zahl nicht sagt: in welcher Herzfrequenzzone mein Grundlagentraining stattfinden sollte. Wo meine anaerobe Schwelle liegt. OwnIndex gibt mir einen Anhaltspunkt — keinen Trainingsplan.

Screenshot Polar Pacer Pro OwnIndex Fitness Test — VO2max-Schätzung via Ruhemessung

Polar OwnIndex: VO2max im Ruhezustand gemessen — nur Ruhepuls und HRV.

Was im Labor passiert, geht über eine Zahl hinaus. Du bekommst die ventilatorischen Schwellen VT1 und VT2 — die Punkte, an denen dein Stoffwechsel kippt. Du bekommst ein vollständiges Laktatprofil: Wie viel Laktat bei welcher Pace, wo liegt deine aerobe Schwelle, wo die anaerobe? Das sind die Werte aus denen du Trainingszonen baust die zu dir passen — nicht zu einem Durchschnittsmenschen in einem Referenzdatensatz.

Dazu kommt die Bewegungsökonomie. Zwei Athleten mit identischem VO2max von 41 können völlig unterschiedlich schnell laufen — weil einer pro Schritt schlicht weniger Sauerstoff verbraucht. Das misst kein Algorithmus aus Ruhepuls und HRV.

Und dann ist da das Hardware-Problem. Optische HF-Sensoren am Handgelenk haben bekannte Schwächen: bei hoher Intensität, bei Bewegungsartefakten, bei bestimmten Hauttypen oder bei Kälte. Fehlerhafte HF-Daten rein — fehlerhafte VO2max-Schätzung raus, egal wie gut das Modell dahinter ist.

Ich schreibe das nicht um Wearables schlecht zu reden. Ich trage selbst täglich meinen Polar. Aber ich weiß was der Wert auf dem Display leistet — und wo er aufhört zu helfen.

Wann reicht die KI-Berechnung — und wer braucht wirklich das Labor?

Die kurze Antwort: Die meisten Freizeitsportler brauchen keinen Laktatstufentest. LLM-Berechnung oder Wearable-Schätzung reichen für die meisten Trainingszwecke aus.

Du hast noch gar keinen Wert — wo anfangen?

Kein Wearable, kein Labor, keine Wettkampfzeit? Kein Problem. Der Cooper-Test braucht eine Laufbahn oder gemessene Strecke, 12 Minuten Zeit und keine Ausrüstung. Die resultierende VO2max-Schätzung ist grob — aber sie ist dein persönlicher Ausgangswert, nicht der eines Durchschnittsmenschen aus einer Formel. Damit kannst du sofort arbeiten.

Wann die KI-Berechnung ausreicht

Wenn du deinen aeroben Trend beobachtest — ein VO2max der von 38 auf 42 steigt, ist ein valides Signal, auch wenn der absolute Wert einige Punkte daneben liegt. Wenn du grobe Trainingszonen willst (Easy vs. Tempo vs. Hart), funktioniert ein per LLM berechneter Wert als Ausgangspunkt gut genug. Wenn du kein Rennen planst und einfach gesünder trainieren willst: Wearable oder Cooper-Test plus LLM-Berechnung sind vollkommen ausreichend.

Wer wirklich ins Labor sollte

Wettkampfsportler die sich auf einen spezifischen Event vorbereiten — Marathon sub-3, Triathlon, Radrennen — und ihre Trainingszonen präzise kalibrieren wollen. Der Laktatstufentest liefert VT1 und VT2 (die ventilatorischen Schwellen) und ein vollständiges Laktatprofil. Das sind die Werte aus denen du Zonen baust die zu dir passen — nicht zu einem Durchschnitt aus Referenzdaten.

Athleten mit VO2max über ~55 ml/kg/min: Wearable-Algorithmen sind auf Freizeitsportler kalibriert. In diesem Leistungsbereich wird die Schätzung unzuverlässig — die Modelle haben hier einfach zu wenig Trainingsdaten. Wer in diesem Bereich trainiert, bekommt vom Labor andere Zonen als von jeder App.

Was wenn mein VO2max trotz Training nicht steigt?

Das ist ein Szenario das häufiger vorkommt als gedacht — und das weder KI noch Wearable dir direkt erklären. Ein stagnierender VO2max bei konstantem Training deutet meistens auf eines von drei Problemen hin: Die Intensitätsverteilung stimmt nicht (zu viel im mittleren Bereich, zu wenig echte Zone-2-Arbeit und zu wenig harte Intervalle), die Erholung ist unzureichend (Volumen zu hoch für die Regenerationsfähigkeit), oder der Wert selbst ist schlicht falsch gemessen. Ein Laktatstufentest deckt auf welches dieser drei Probleme vorliegt — das ist der eigentliche Grund für den Test, nicht die Zahl an sich.

Die praktische Empfehlung

Starte mit Methode 1 oder 2 via LLM. Nutze das Ergebnis als Trendindikator. Wenn du systematisch nach Plan trainierst aber die Ergebnisse ausbleiben — dann lohnt sich ein Laktatstufentest. Nicht vorher.

VO2max ist einer von mehreren physiologischen Parametern die du der KI übergeben solltest — welche anderen Werte für Ausdauer und Krafttraining entscheidend sind, erklärt Physiologische Grundlagen für KI-Training: Deine Daten als Prompt-Kontext.

FAQ

Kann ChatGPT meinen VO2max berechnen? Ja — wenn du valide Inputs lieferst. Eine Wettkampfzeit (Daniels VDOT), eine Cooper-Test-Distanz oder HF-Daten aus einem Submaximaltest. Das LLM wendet validierte Formeln an und kann Kontextfaktoren einbeziehen. Es misst nicht — es rechnet.

Wie genau ist die VO2max-Schätzung von Garmin? Stark abhängig vom Fitnesslevel: bei moderat trainierten Läufern zeigen neuere Studien MAPE von 2,8–4,1%, bei hochtrainierten Athleten ~9–10%. Die pauschale Antwort gibt es nicht.

Kann Apple Watch meinen VO2max messen? Schätzen ja, messen nein. Apple Watch berechnet einen Schätzwert aus Herzfrequenz und GPS-Pace nach mindestens 20 Minuten Outdoor-Aktivität. Unabhängige Studien zeigen MAPE von ~16% über alle Fitnesslevel.

Wann lohnt sich ein Laktatstufentest statt KI-Schätzung? Wenn du Trainingszonen präzise bestimmen willst, vor der Wettkampfvorbereitung, oder bei einem Leistungsplateau. Der Laktattest liefert Schwellenwerte (VT1, VT2) und ein vollständiges Stoffwechselprofil — das gibt dir kein Wearable und kein LLM.

Warum weicht meine Polar-Schätzung vom Laborwert ab? OwnIndex basiert auf Ruhemessung — Ruhepuls, HRV und Benutzerprofil. Fehler entstehen durch ungenaue Profildaten, schlechten Sensorkontakt beim Messen oder Tagesform-bedingte HRV-Schwankungen. Als Trendwert über Wochen ist OwnIndex zuverlässig; für präzise Trainingszonen bleibt der Laktatstufentest die bessere Wahl.