Symbolbild fehlgeschlagenen Abnehmstudie mit ChatGPT - Übergewichtige Frau ist nicht glücklich über KI Antworten im Chat

ChatGPT-Fitness-App fällt im Usability-Test in Abnehm-Pilotstudie durch

Christopher KlenkChristopher Klenk3 Min. Lesezeit

Eine Pilotstudie, ein Chatbot und 51 von 100 Punkten

Norwegische Forscher haben FysBot entwickelt – eine Mobile App mit GPT-4-basiertem Chatbot, die Erwachsene mit Adipositas zu mehr Bewegung motivieren soll. Die Pilotstudie an einer Rehabilitationsklinik in Tromsø lief über sechs Wochen mit 36 Teilnehmern. Das Ergebnis ist ernüchternd und lehrreich zugleich.

Der System Usability Scale (SUS) – ein standardisierter Fragebogen zur Bewertung der Benutzerfreundlichkeit – lag bei 51,3 von 100 Punkten. Zum Vergleich: Alles unter 68 gilt als unterdurchschnittlich. Das Engagement nahm über die Studienzeit stetig ab – ein deutlicher Rückgang zeigte sich bereits nach Woche zwei. Von 36 Startern blieben 17 bis zum Studienende (Larbi et al., 2026, Digital Health).

Was ist der SUS?

Der System Usability Scale ist ein seit 1986 etablierter Fragebogen mit zehn Fragen zur Benutzerfreundlichkeit. Er liefert einen Score zwischen 0 und 100. Ein Wert über 68 gilt als akzeptabel, über 80 als gut. Der SUS misst nicht einzelne Features, sondern das subjektive Gesamterlebnis der Nutzer.

Was konkret schiefging

Die Teilnehmer meldeten drei zentrale Probleme. Erstens: technische Probleme – die App zeigte Einschränkungen in der Funktionalität. Zweitens: fehlende Personalisierung. Der Chatbot lieferte generische Empfehlungen statt individuell angepasster Ratschläge. Und drittens: mangelnde Alltagstauglichkeit. FysBot ließ sich nicht sinnvoll in bestehende Routinen integrieren.

Besonders auffällig: Die Selbstwirksamkeit der Teilnehmer – also das Vertrauen in die eigene Fähigkeit, Sport zu treiben – sank während der Studie von 58 auf 49 Punkte. Die Autoren sehen hier weiteren Forschungsbedarf. Die Zahl zeigt aber, dass Usability bei KI-Interventionen kein Nice-to-have ist: Wenn die Nutzungserfahrung frustriert statt motiviert, kann das dem eigentlichen Ziel entgegenwirken.

Fairerweise: Das war der Sinn der Sache

Bevor jetzt jemand schreibt, FysBot sei gescheitert – das war eine Pilotstudie. Das Ziel war explizit, Feasibility und Usability zu testen. Die Forscher wollten herausfinden, wo es hakt, bevor sie ein Produkt auf den Markt werfen. Das ist genau der richtige Ansatz. Die meisten Fitness-Apps überspringen diesen Schritt und landen direkt im App Store – mit denselben Problemen, aber ohne die Ehrlichkeit, sie zu benennen.

Die Studie hat konkret identifiziert, was besser werden muss: iteratives Co-Design mit Nutzern, bessere Personalisierung und eine Integration, die zum Alltag der Zielgruppe passt. Das sind keine überraschenden Erkenntnisse – aber sie sind jetzt mit Daten belegt.

Was das für KI-Fitness-Apps bedeutet

FysBot ist kein Einzelfall. Viele KI-gestützte Fitness-Apps werden von Entwicklern für Entwickler gebaut – nicht für die Menschen, die sie tatsächlich nutzen sollen. Ein GPT-4-Backend allein macht noch kein gutes Produkt. Wenn die Oberfläche nicht stimmt, die Antworten generisch bleiben und die App nicht in den Alltag passt, nützt das beste Sprachmodell nichts.

Für alle, die KI im Fitnessbereich selbst nutzen wollen, bestätigt diese Studie einen entscheidenden Punkt: Eine gute Benutzeroberfläche und durchdachte Prompts sind mindestens so wichtig wie das Modell dahinter. Wer direkt mit ChatGPT oder Claude arbeitet, hat zumindest die volle Kontrolle über den Input – und muss nicht auf ein App-Team warten, das die Personalisierung nachliefert.

→ Vertiefung: KI im Fitness – Was gibt es und was funktioniert wirklich?

Quelle

Larbi, D., Zanaboni, P., Årsand, E., Randine, P., Trondsen, M. V., Denecke, K., Wynn, R. & Gabarron, E. (2026). Feasibility and usability of a ChatGPT-based app to support physical activity: A pilot study. Digital Health, 12, 20552076261417860. doi:10.1177/20552076261417860