Unser PhD Tim Havers hat in seiner aktuellen Studie (Havers et al., 2024) das Potenzial und die Grenzen von künstlicher Intelligenz (KI), insbesondere von Large Language Models (LLMs), für die Erstellung von Krafttrainingsplänen zur Muskelhypertrophie untersucht. Mit der zunehmenden Popularität von KI-Anwendungen wie ChatGPT stellt sich die Frage, ob diese Modelle praktikabel und effektiv genug sind, um im Fitnessbereich eingesetzt zu werden. Zusammen mit Wissenschaftlern der IST Hochschule, der TU Braunschweig und der Universität Würzburg haben wir untersucht, 1) ob die Eingabe detaillierterer Prompt-Informationen zu einer höheren Qualität der Trainingspläne in Google Gemini und GPT-4 (via Microsoft Copilot) führt, 2) ob es Unterschiede in der Qualität der Trainingspläne zwischen Google Gemini und GPT-4 gibt und 3) wie konsistent die Ergebnisse desselben Prompts innerhalb eines Modells sind.
Um diese Frage zu beantworten, wurden zwei Prompts erstellt, die zwei Trainees mit unterschiedlichem Wissensstand und Fortschritt widerspiegeln. Prompt 1 spiegelt einen allgemeinen, einfachen Prompt für Trainingsanfänger mit dem Ziel des Muskelwachstums wider: „Please provide me with a resistance training plan to increase muscle hypertrophy“. Der zweite Prompt enthält detaillierte Informationen eines fortgeschrittenen Nutzers, der spezifische Informationen wie Alter, Geschlecht, Größe, Gewicht, Trainingserfahrung und Trainingspräferenzen berücksichtigt. Jedes LLM wurde von zwei unabhängigen Personen mit den Prompts gefüttert. Die generierten Pläne wurden anschließend von zwölf Strength-&-Conditioning-Experten mit akademischen Hintergrund anhand definierter Kriterien (Allgemeine Aspekte: z.B. Gesundheitschecks, Diagnostik; Trainingsprinzipien; Belastungsnormative und fortgeschrittene Trainingsaspekte) bewertet. Die Expertenbewertung erfolgte auf einer Likert-Skala von 1 (schlecht) bis 5 (sehr gut).
Die Ergebnisse zeigen, dass 1) Trainingspläne, die auf detaillierten Prompts basierten, durchweg besser bewertet wurden. Dies zeigt, wie wichtig die Qualität und Präzision der Eingaben für die Ergebnisse ist. 2) Die von GPT-4 generierten Trainingspläne wiesen insgesamt eine höhere Qualität auf als die von Google Gemini. Dennoch waren die Pläne beider Modelle nicht optimal, da häufig Diskrepanzen zwischen Zielen, Nutzerwünschen und den tatsächlich erstellten Plänen festgestellt wurden. Einzelne Bewertungskriterien wurden nur selten mit einer 5 bewertet, häufig wurden Werte unter 3 vergeben. 3) Die Qualität der Trainingspläne blieb bei wiederholter Eingabe der gleichen Prompts in ein Modell weitgehend gleich, die genauen Inhalte der Pläne variierten jedoch.
Zusammenfassend kann gesagt werden, dass KI in bestimmten Fällen eine wertvolle Grundlage bieten kann, aber nicht unreflektiert eingesetzt werden sollte. Sie kann einen Coach nicht ersetzen, sondern dient als unterstützendes Werkzeug, das durch fachliche Expertise ergänzt werden sollte.
Quelle:
Havers, T., Masur, L., Isenmann, E., Geisler, S., Zinner, C., & Sperlich, B. et al. (2025). Reproducibility and quality of hypertrophy-related training plans generated by GPT-4 and Google Gemini as evaluated by coaching experts. Biology of Sport, 42(2), 289-329. https://doi.org/10.5114/biolsport.2025.145911