Einleitung

Hintergrund

Gesundheit, Aktivität und Fitness kommt gerade im Zuge des digitalen Wandels eine zentrale individuelle, aber auch gesamtgesellschaftliche Bedeutung zu. Neben den antizipierten Risiken der Digitalisierung, welche hier mit inaktivitätsbedingten Fitness- und Gesundheitsdefiziten umrissen werden (vgl. Pratt et al., 2012), zeugen die stetig wachsenden Absatzahlen von Wearable Devices (WD; u. a. Lutter, Meineke, & Tropf, 2017) sowie die Kombination ebd. mit entsprechend kompatiblen digitalen Diensten (u. a. Twitter; vgl. Chung, Skinner, Hasty, & Perrin, 2016) jedoch gleichsam vom Bestreben, mögliche Potenziale der Digitalisierung für die positive Entwicklung der Parameter Gesundheit, Aktivität und Fitness nutzbar zu machen. Unter WD werden im Folgenden alle Formen technischer Sensoren verstanden, die am Körper oder der Kleidung getragen werden und die Erfassung gesundheits-, aktivitäts- und fitnessbezogener Daten ermöglichen (vgl. Peake, Kerr, & Sullivan, 2018; Patel, Park, Bonato, Chan, & Rodgers, 2012).

Forschungsrahmen

Der grundlegende Zusammenhang zwischen Gesundheit, Aktivität und Fitness kann über ein systemisches Anforderungs-Ressourcen-Modell der Gesundheit in Anlehnung an Becker (1992) unter Einbeziehung der im sportwissenschaftlichen Themenfeld Bewegung und Gesundheit entstandenen Modellerweiterungen (u. a. Becker, Bös, & Woll, 1994) begründet werden. Gesundheitliche Ressourcen werden in ebd. Modellen u. a. in der körperlichen Leistungsfähigkeit, gesundheitliche Anforderungen demgegenüber u. a. im Faktor Übergewicht gesehen. Potenziell interventionswirksame Determinanten zur Aufrechterhaltung eines gesundheitsförderlichen Maßes an körperlich-sportlicher Aktivität finden sich in der sozial-kognitiv ausgerichteten Physical Activity Maintenance Theory (PAMT; Nigg, Borrelli, Maddock, & Dishman, 2008). Der PAMT-Modellkomponente Motivation kann in einem durch WD gerahmten Aktivitätskontext eine besondere Bedeutung beigemessen werden, da die Nutzung von WD, gerade bei Personen, die nach einem sicheren Bezugsrahmen für ihr Handeln streben und geringe Aussicht auf Erfolg in sich verspüren (in der Regel Neueinsteiger), motivierend wirken kann (vgl. Attig & Franke, 2019). Dem aus der Literatur bekannten Phänomen des Drop-outs innerhalb der ersten sechs Monaten nach Aufnahme einer neuen Aktivität (vgl. Dishman & Buckworth, 1996) kann von technischer Seite und in Anlehnung an die Self Determination Theory (Deci & Ryan, 1985) potenziell dann entgegengewirkt werden, wenn WD dem Nutzer bei seinen Aktivitäten dauerhafte Autonomie, Kompetenzerleben und soziale Einbindung ermöglichen. Diese Potenziale scheinen insofern gegeben, da WD die Formulierung individueller Fitness‑, Aktivitäts- und Gesundheitsziele und somit (scheinbar) autonomes Handeln ermöglichen, das Kompetenzerleben durch die Spiegelung der eigenen Gesundheits‑, Aktivitäts- und Fitnessentwicklung in Form von Challenge- und Zielerreichungsszenarien befördern und über das Teilen der eigenen Gesundheits‑, Aktivitäts- und Fitnessdaten in virtuellen Communities eine soziale Einbindung versprechen. Gleichwohl ist an dieser Stelle festzuhalten, dass sich die empirische Befundlage zu den motivationspsychologischen Aspekten der Nutzung von WD (u. a. Kerner & Goodyear, 2017; Busch, Utesch, Bürkner, & Strauss, 2020) bislang noch wenig einheitlich gestaltet. Gerade das Kompetenzerleben ist bei der Aufrechterhaltung der Motivation zur körperlichen Aktivität insofern bedeutsam, da in Anlehnung an das Expectancy-Value Model of Achievement (Eccles & Wigfield, 2002) erst die Erfahrung der eigenen Kompetenz, internale Erfolgsattributionen, positive emotionale Zustände sowie positive Effekte auf das physische Selbstkonzept und die sport- und bewegungsbezogene Selbstwirksamkeit und damit den Prozess der Internalisierung hin zu einer intrinsischen Handlungsmotivation ermöglicht. Das Erleben der eigenen Kompetenz kann somit initial zur Aufrechterhaltung ressourcenstärkender bzw. anforderungsmindernder Aktivitäten (auch und gerade) im digitalen Zeitalter beitragen. Kompetenzerleben setzt jedoch die Möglichkeit zur systematischen Evaluation des eigenen Trainingsprozesses voraus (u. a. Gerber, 2014). Für einen durch WD gerahmten Aktivitätskontext und aus Perspektive der klassischen Testtheorie bedeutet dies, dass Kompetenzerleben nur dann entstehen kann, wenn WD auch möglichst reliabel und valide den jeweils aktuellen psychophysischen Zustand des Nutzers spiegeln; an dieser Stelle setzt die vorliegende Arbeit an.

Forschungsfrage und Forschungshypothese

Nachhaltige gesundheitsförderliche Effekte körperlich-sportlicher Aktivitäten setzen einen strukturierten und systematischen Trainingsprozess voraus (Brehm et al., 2013); im Sinne einer diagnostisch-evaluativ akzentuierten trainingswissenschaftlichen Analogie sei hier auf das kybernetisch begründete Regelkreismodell der Trainingssteuerung (u. a. Hohmann, Lames, & Letztelter, 2014) verwiesen. In der Elaboration des erweiterten Themenfeldes Bewegung, Gesundheit und Digitalisierung anhand von WD kommt der funktionshöchsten Klasse der Puls- bzw. Sportuhren demnach insofern eine besondere Bedeutung zu, da diese über die Dokumentation der Bewegungs- und Sportaktivitäten hinaus gleichsam die Möglichkeit zur Analyse und Steuerung ebensolcher Trainingsprozesse versprechen (vgl. Aroganam, Manivannan, & Harrison, 2019). Aus motivationspsychologischer und trainingswissenschaftlicher Perspektive erscheint es dabei, wie oben deduziert, angezeigt, die Testgüte von WD am Beispiel eines marktrelevanten Gerätes zu prüfen. In der Sondierungsphase der zu diesem Zwecke konzipierten, eigenen empirischen Untersuchung wurde die Marke Garmin (Garmin Deutschland GmbH, Garching) als etablierter Key-Player im Fitness-Segment (vgl. Statista, 2020, S. 31) sowie deren Premium Multisport-Smartwatch Garmin fēnix® 5 (GF5; Modelljahr 2017) als im Unternehmensportfolio besonders absatzstarkes Produkt (vgl. Statista, 2020, S. 32) identifiziert. Die GF5 inkludiert eine Vielzahl unterschiedlicher Funktionen zur Messung gesundheits-, aktivitäts- und fitnessbezogener Daten, wobei in den GF5-Parametern Stress – als psychophysische Reaktion auf digitale Anforderungen – sowie Kalorienverbrauch und maximale Sauerstoffaufnahme (VO2max) – als primäre Steuerungsindikatoren zur Gewichtsreduktion und Leistungsentwicklung – die größte Aussagekraft im Hinblick auf die Beurteilung der hier interessierenden Untersuchungsbereiche Gesundheit, Aktivität und Fitness vermutet werden kann. Zur Beantwortung der Forschungsfrage nach der Testgüte der GF5 muss festgehalten werden, dass ebd. zwar zuletzt methodisch angemessen im Hinblick auf die Validität der Messung von Herzfrequenz und Energieverbrauch überprüft wurde (vgl. Düking et al., 2020), Befunde zur Reliabilität und dabei explizit zum Reliabilitätsaspekt der Reproduzierbarkeit (engl.: „reproducibility“) von referenzmethodenbasierten Messergebnissen seitens der GF5 bislang jedoch nicht vorliegen. Die Sichtung der Whitepapers zur Überprüfung der in die GF5 integrierten Algorithmen zur Bestimmung von Stress (vgl. Firstbeat Technologies Ltd., 2014), Kalorienverbrauch (vgl. Firstbeat Technologies Ltd., 2012) und VO2max (vgl. Firstbeat Technologies Ltd., 2017) führten zu der globalen Forschungshypothese einer grundlegenden Übereinstimmung (engl.: „concordance“) zwischen den Messergebnissen der GF5 und den Messergebnissen etablierter Referenzmethoden.

Methodische Vorbemerkung

An dieser Stelle möchten die Autorinnen und Autoren dieses Beitrages darauf hinweisen, dass der Vergleich mit einer Referenzmethode oftmals reflexartig mit dem Ansinnen nach konvergenter Validierung im Sinne der von Campbell und Fiske (1959) vorgeschlagenen Multitrait-Multimethod-Analyse assoziiert wird, dieser methodische Zugang jedoch auch und zunächst einmal die Reproduzierbarkeit von referenzmethodenbasierten Messergebnissen und somit die hier adressierte Überprüfung der Übereinstimmung (engl.: „agreement“, syn.: „concordance“) zwischen unterschiedlichen Methoden (engl.: „between-method agreement“) im Sinne der Reliabilität begründet und ermöglicht. Anstelle der im Kontext der Monotrait-Heteromethod-basierten Konvergenzüberprüfung üblichen (linearen) Zusammenhangsmaße sind im Falle der Konkordanzüberprüfung entsprechend davon abweichende Übereinstimmungsmaße zu diskutieren (vgl. Liu et al., 2016). Eine hohe Korrelation zwischen unterschiedlichen Methoden (u. a. Düking et al., 2020) kann folgerichtig zwar als Hinweis auf konvergente Validität interpretiert werden; zu berücksichtigen ist an dieser Stelle jedoch, dass der implizite Schluss auf ein gleichsam reliables Instrument im Hinblick auf den Reliabilitätsaspekt der Konkordanz nicht gegeben sein muss („Two sets of observations, which are highly correlated, may have poor agreement“; Ranganathan, Pramesh, & Aggarwal, 2017, S. 187), weshalb eine dahingehend differenzierte Reliabilitätsanalyse für den Gesamtprozess der „Validierung“ unabdingbar ist.

Konkordanzbegründete Reliabilitätsbeurteilungen sind in den medizinisch-biowissenschaftlichen Fachdisziplinen fest etabliert und detailreich dokumentiert (im Überblick Watson & Petrie, 2010), werden in dem hier definierten gesundheits- und verhaltenswissenschaftlichen Kontext – trotz eindeutiger Differenzierungspotenziale gegenüber „klassischen“ Beurteilungsbegründungen – jedoch bislang kaum berücksichtigt (vgl. Barchard, 2012). Insofern wollen die Autorinnen und Autoren dieses Beitrages den von ihnen gewählten methodisch-analytischen Ansatz auch als Anreiz verstanden wissen, den oftmals in disziplinspezifischen Grenzen definierten Reliabilitätsbegriff und das damit verbundene Standardrepertoire an methodischen Zugängen (u. a. Düking, Fuss, Holmberg, & Sperlich, 2018) im interdisziplinären Diskurs zu erweitern.

Methode

Untersuchungsstichprobe

Zur Überprüfung der Reliabilität der GF5 hinsichtlich der Parameter Stress, Kalorienverbrauch und VO2max wurden männliche Probanden im „sich entwickelnden“ (engl.: „emerging adulthood“; 18 bis 25 Jahre; vgl. Lang, Martin, & Pinquart, 2012) und frühen (26 bis 40 Jahre; vgl. Lang et al., 2012) Erwachsenenalter im institutionellen Kontext der Autorinnen und Autoren über einen Zeitraum von acht Wochen rekrutiert. Die Probanden mussten die Kompetenz zur Anwendung der deutschen Sprache in Wort und Schrift, ihre Rechtsfähigkeit, ihr Verständnis von Art, Umfang, Bedeutung und Risiko der Untersuchung sowie die Freiwilligkeit ihrer Teilnahme schriftlich bestätigen. Als Studienausschlusskriterien wurden das weibliche Geschlecht, ein während der Anamnese gemessener Blutdruck über 140/90 mm Hg (vgl. Banegas et al., 2018), die selbstberichtete Einnahme wahrnehmungsverändernder Substanzen sowie gleichsam selbstberichtete akute oder nicht vollständig ausgeheilte (Sport‑)Verletzungen, Operationen oder schwerwiegende kardiovaskuläre, pulmonale, renale, neurologische, psychische bzw. degenerative Erkrankungen definiert.

Untersuchungsablauf

Die Hauptuntersuchung untergliederte sich in drei aufeinanderfolgende Laborszenarien an Testtag 1 sowie ein Feldszenario an Testtag 2. Die beiden Testtage wurden im Abstand von minimal 24 Stunden (vgl. Anderson, Chisenall, Tolbert, Ruffner, Whitehead., & Conners, 2019) und maximal einer Woche realisiert. Die GF5 wurde von allen Probanden am linken Handgelenk getragen und vor jeder Testung individuell anhand der Parameter Alter, Größe, Gewicht und Geschlecht eingestellt.

Laborszenario (LS) 1 diente der Überprüfung der Reliabilität der GF5 hinsichtlich des Parameters Stress; zur Realisierung eines – dem Forschungsrahmen angemessenen – digitalen Stress-Szenarios absolvierten die Probanden eine modifizierte Version des Paced Auditory Serial Addition Task (PASAT) Test (PASAT‑C; Lejuez, Kahler, & Brown, 2003). Beim PASAT‑C handelt es sich um einen computergestützten Zahlenadditionstest, dessen stressierende Wirkung durch die mehrmalige Verkürzung der Latenzzeit bei der Ziffernpräsentation entsteht und anhand der Veränderung der Herzfrequenz (HF) während bzw. über den Unterschied der Stresseinschätzung vor und während der Exposition (vgl. Kolotylova et al., 2010) sowie über die Abnahme der Herzratenvariabilität (HRV) bei unterschiedlichen Expositionszeiten (vgl. Tanosoto et al., 2015) validiert wurde.

LS 2 diente der Überprüfung der Reliabilität der GF5 hinsichtlich des Parameters Kalorienverbrauch; hierzu absolvierten die Probanden ein moderates 20-minütiges Laufband-Belastungsprotokoll bei konstanter Laufgeschwindigkeit von 6 km/h und konstanter Steigung von 1 % zur Kompensation des fehlenden Luftwiderstandes (vgl. Meyer, 2007).

Der Übergang zwischen LS 2 und LS 3 wurde durch eine 2‑minütige Laufbandaktivität bei 6 km/h Laufgeschwindigkeit sowie einer anschließenden Warm-up-Phase von einer Minute bei 10 km/h Laufgeschwindigkeit und 1 % Steigung gestaltet.

LS 3 diente der Überprüfung der Reliabilität der GF5 hinsichtlich des Parameters VO2max; hierzu absolvierten die Probanden ein Rampenprotokoll bis zur subjektiven Erschöpfung (vgl. Hollmann & Strüder, 2009) auf dem Laufband, bei dem die Laufbandsteigung (Ausgangssteigung: 5 %) unter Konstanthaltung der Laufgeschwindigkeit (10 km/h) ab der zweiten Minute kontinuierlich um 2,5 % pro Minute erhöht wurde (vgl. Kroidl, Schwarz, Lehnigk, & Fritsch, 2015). Zur objektiven Beurteilung der tatsächlichen individuellen maximalen Ausbelastung erfolgte eine Orientierung an den Richtlinien des American College of Sports Medicine (vgl. Riebe, Ehrman, Liguori, & Magal, 2018). Hiernach wurde eine Ausbelastung attestiert, wenn zwei der vier nachfolgenden Kriterien erfüllt waren: eine Plateau-Bildung der VO2 bei simultaner Leistungssteigerung im Echtzeit-Monitoring der Untersuchung (Levelling-off), eine respiratorische Gasaustauschrate von ≥1,10, eine subjektive Erschöpfung nach Borg (1998) von ≥17 auf einer Skala von 6–20 sowie eine Verringerung der HF-Zunahme bei Annäherung an die individuelle Maximalleistung. Nach Abbruch des Laufband-Ausbelastungstests absolvierten die Probanden eine 1‑minütige aktive Cool-down-Phase bei 4 km/h Laufgeschwindigkeit und einer Laufbandsteigung von 1 %.

Die beiden in LS 2 und LS 3 eingesetzten Protokolle wurden auf einem Pulsar®3p Laufband der Firma h/p/cosmos sports & medical GmbH (Nussdorf-Traunstein) realisiert.

Das an Testtag 2 konzipierte Feldszenario komplettierte die in LS 3 begonnene Überprüfung der Reliabilität der GF5 hinsichtlich des Parameters VO2max; hierzu wurden die Probanden in Orientierung an Anderson et al. (2019) angewiesen, sich zunächst für zwei Runden bei individueller moderater Intensität auf einer genormten 400 m Tartanbahn einzulaufen. In der anschließenden Testphase mussten die Probanden 10 min und 30 s bei individuell maximal möglicher Laufgeschwindigkeit auf der 400 m Tartanbahn absolvieren. Zwei abschließend im individuellen Gehtempo absolvierte Laufbahnrunden dienten der Erholung des Herz-Kreislauf-Systems.

Messmethoden

Das GF5-Setup bestand aus der Handgelenkssmartwatch sowie dem zugehörigen HF-Brustgurt HRM-Run der Firma Garmin Deutschland GmbH (Garching).

Zur Überprüfung der Reliabilität der GF5 hinsichtlich des Parameters Stress in LS 1 diente die Referenzmethode der Elektrokardiographie (EKG; vgl. Task Force of The European Society of Cardiology and The North American Society of Pacing and Electrophysiology, 1996). Das hierfür in LS 1 eingesetzte 12-Kanal EKG-Messsystem custo cardio 300 der Firma custo med GmbH (Ottobrunn) ermöglichte eine beat-to-beat Aufzeichnung der HRV während der PASAT-C-Stressexposition.

Zur Überprüfung der Reliabilität der GF5 hinsichtlich des Parameters Kalorienverbrauch in LS 2 diente die Referenzmethode der indirekten Kalorimetrie (IK; vgl. Hills, Mokhtar, & Byrne, 2014). Das hierfür parallel zur GF5 in LS 2 eingesetzte, spiroergometrische Messsystem bestand aus einem Spirometer mit „Breath-by-breath“-Technologie (METALYZER® 3B, CORTEX Biophysik GmbH, Leipzig), einem BT Smart HF-Gurt (Polar H7) der Polar Electro GmbH Deutschland (Büttelborn), einer Atemmaske für Metalyzer 3B und Meta-Max 3B mit Befestigungsnetz sowie einer multifunktionalen Anwendungssoftware (MetaSoft® Studio) der CORTEX Biophysik GmbH (Leipzig). Belege für die Messgenauigkeit der eingesetzten Hardware finden sich bei Meyer, Georg, Becker, und Kindermann (2001).

Zur Überprüfung der Reliabilität der GF5 hinsichtlich des Parameters VO2max diente die Referenzmethode der Spiroergometrie (SPE; vgl. Scharhag-Rosenberger, & Schommer, 2013). Das hierfür in LS 3 eingesetzte, spiroergometrische Gesamtsetup entsprach dem aus LS 2.

Datenverarbeitung

Zur Messung des Parameters Stress nutzt die GF5 die über die integrierten Sensoren erfassten HRV-Informationen; diese werden im Rahmen eines 3‑minütigen Quick-Level-Stress-Tests (QLST; vgl. Firstbeat Technologies Ltd., 2020) in einen Stressreaktionswert zwischen 1 (sehr geringe Belastung) und 100 (sehr hohe Belastung) überführt (vgl. Garmin Ltd., 2017). Die zur Überprüfung der Reliabilität der GF5 hinsichtlich des Parameters Stress in LS 1 über die Referenzmethode EKG anhand der Analysesoftware Kubios (Mindfeld Biosystems Ltd., Gronau; vgl. Tarvainen, Niskanen, Lipponen, Ranta-Aho, & Karjalainen, 2014) ermittelten RR-Intervalle wurden im Rahmen einer Spektralanalyse mittels Fast-Fourier-Transformation in den Referenzparameter High Frequency (HF; ms2) überführt. HF findet bei HRV-Kurzzeitmessungen seine Anwendung, spiegelt Frequenzen in einer Range von 0,15–0,40 Hz wider und gilt bei niedriger Power als Indikator für Stress, Panik, Angst oder Sorgen (vgl. Shaffer & Ginsberg, 2017). Hierbei ist zu berücksichtigen, dass der in den ersten drei Minuten der Stressexposition über die GF5 gemessene QLST-Stressreaktionswert im Gegensatz zum, im gleichen Zeitintervall ermittelten, Referenzparameter HF mit steigender Stressreaktivität ansteigt. Aufgrund der unterschiedlichen Metriken wurden die QLST- bzw. HRV-Rohwerte mittels z‑Transformation standardisiert und die z‑standardisierten QLST-Werte invertiert.

Zur Messung des Parameters Kalorienverbrauch (kcal) nutzt die GF5 ein HF-basiertes neuronales Netzwerk (vgl. Firstbeat Technologies Ltd., 2012). Der zur Überprüfung der Reliabilität der GF5 hinsichtlich des Parameters Kalorienverbrauch in LS 2 über die Referenzmethode IK gemessene Referenzparameter Kalorienverbrauch (kcal) wurde während des Laufband-Belastungsprotokolls mittels Spirometer softwareseitig („breath-by-breath“) generiert und einer nachgeordneten Analyse in Microsoft Excel (Microsoft Cooperation, 2016) unterzogen.

Zur Messung des Parameters VO2max (ml/min/kg) nutzt die GF5 die Relation zwischen HF und Geschwindigkeit (vgl. Firstbeat Technologies Ltd., 2017), wobei letztgenannte über die Positionsdaten des Nutzers generiert wird (vgl. Garmin Ltd., 2017). Durch die Notwendigkeit der Ermittlung des Positionsparameters war es nicht möglich, die VO2max im Rahmen des Laufband-Ausbelastungstests (LS 3) anhand der GF5 zu bestimmen, was die nachgeordnete Durchführung des oben beschriebenen Feldtests begründet. Die zur Überprüfung der Reliabilität der GF5 hinsichtlich des Parameters VO2max in LS 3 über die Referenzmethode SPE gemessene VO2max (ml/min/kg) wurde unmittelbar mit Beendigung des Laufband-Ausbelastungstests softwareseitig generiert und ausgelesen.

Missing data

Fehlende Datensätze waren im Verbindungsabbruch zwischen der GF5 und dem Brustgurtsensor in LS 1, der Teilnahmeunfähigkeit eines Probanden aufgrund einer akuten Angina tonsillaris in LS 2 sowie in fehlerhaften, Bluetooth-basierten HF-Übertragungen in LS 3 bzw. fehlgeschlagenen Aufzeichnungen der VO2max seitens der GF5 im Feldszenario begründet.

Datenanalyse

Im ersten Schritt werden die gemittelten Werte aus Referenzmethode und GF5 den Differenzwerten beider Methoden in Form eines Bland-Altman-Plots (B-A‑P; Bland & Altman, 1986) gegenübergestellt. Gegen die vermeintlich naheliegende Verwendung der Referenzmethode auf der x‑Achse (vgl. Krouwer, 2008) spricht die von Bland und Altman (1995) vorgetragene Argumentation, „A plot of the difference against the standard measurement is sometimes suggested, but this will always appear to show a relation between difference and magnitude when there is none.“ (S. 1085). Im resultierenden B‑A‑P werden die obere bzw. untere Grenze des 95 % Konfidenzintervalls (KI) der Limits of Agreement (LoA) zur Identifikation von Ausreißerwerten genutzt.

Für den zweiten Schritt, die rechnerische Überprüfung der Reliabilität der GF5 auf Basis der (ausreißerbereinigten) Daten, wurde der Konkordanzkorrelationskoeffizient nach Lin (CCCLin; Lin, 1989) herangezogen. Im Unterschied zum Produkt-Moment-Korrelationskoeffizienten r nach Pearson (1896), welcher lediglich eine (populationsbezogene) Bewertung des linearen Assoziationsgrades zwischen beiden Messreihen ermöglicht (vgl. Bland & Altman, 1986), inkludiert der Lin-Korrekturterm über die Präzision (engl.: „precision“) p hinausgehende Informationen zu additiven (engl.: „location shift“) sowie multiplikativen (engl.: „scale shift“) Skalenunterschieden. Durch die Kombination von p mit den genannten Teilkomponenten der „accuracy“ (Cb) entsteht die Möglichkeit zur Quantifizierung der exakten intraindividuellen Konkordanz zwischen zwei Messmethoden. Dieser Vorteil konnte im Falle des standardisierten Stressparameters nicht genutzt werden, da Cb aufgrund der Standardisierung trivialerweise 1 beträgt; die nachfolgenden Aussagen zur Stressmessung müssen daher auf den Konkordanz-Teilaspekt p beschränkt bleiben. Die Beurteilung des CCCLin erfolgt nach der von Landis und Koch (1977) für Cohens Kappa (Cohen, 1960) vorgeschlagenen Klassifizierung. Neben CCCLin wird nachfolgend auch der vermeintlich gebräuchlichere Intraklassen-Korrelationskoeffizient (ICC, „two-way random effects, absolute agreement, single measurement“; ICC [2, 1]) berichtet, welcher numerisch jedoch nahezu identische Ergebnisse liefert. Die Auswahl des ICC im Kontext der Konkordanzbeurteilung erfolgte in Orientierung an Koo und Li (2016).

Im dritten Schritt werden die B‑A-Ps zur Beantwortung der Frage herangezogen, ob und wenn ja, in welchem Maße die GF5 den interessierenden Messparameter im Vergleich zur Referenzmethode (systematisch) über- bzw. unterschätzt. Hierzu dient der Vergleich von mittlerer Differenz (\(\overline{d}\)) und der, eine komplette Übereinstimmung repräsentierenden, Nulllinie (engl.: „line of equality“, LoE); dieser Vergleich musste aufgrund der Standardisierung der Stresswerte und einer trivialerweise resultierenden mittleren Messwertdifferenz von \(\overline{d}\) = 0 auf die Parameter Kalorienverbrauch und VO2max beschränkt bleiben. Die LoA begrenzen hierbei das Fehlerintervall, in dem, unter der Voraussetzung normalverteilter Differenzen, 95 % aller Messwertdifferenzen (\(\overline{d}\) ± 1,96 SD) zwischen beiden Methoden inkludiert sind. Die Überprüfung der Normalverteilungsannahme erfolgt sowohl graphisch anhand des Quantil-Quantil(Q-Q-)-Diagramms als auch rechnerisch anhand des Shapiro-Wilk-Tests (S-W‑T; Shapiro & Wilk, 1965). Die Entscheidung für den S‑W‑T wird über die Teststärke-Vergleichsstudie von Razali und Wah (2011) begründet. Zur Beantwortung der Frage, ob die Messwertdifferenzen systematisch über den gesamten Messbereich der x‑Achse streuen, wird das Streuungsmuster der Differenzwerte über den Messbereich im Hinblick auf eine mögliche Verletzung der Homoskedastizitätsannahme beurteilt; zur rechnerischen Verifizierung ebd. Annahme dient der modifizierte Breusch-Pagan-Test (B-P‑T; Breusch & Pagan, 1979). Im Falle einer verletzen Normalverteilungsannahme bzw. eines heteroskedastischen Streuungsmusters werden die Original-Messdaten beider Methoden einer logarithmischen Transformation unterzogen; zur besseren Interpretation der resultierenden LoA in der ursprünglichen Messrelation erfolgt eine abschließende Rücktransformation der logarithmierten Messwerte über die Exponentialfunktion (engl.: „antilog“; vgl. Bland & Altman, 1999) sowie eine darauf gründende, prozentuale Darstellung der ermittelten Abweichungen.

Die hier beschriebenen Analysen wurden mit der Software Statistical Package for the Social Science, Version 25 (IBM Corp., 2017) durchgeführt.

Alle beschriebenen Untersuchungen am Menschen wurden mit Zustimmung der zuständigen Ethik-Kommission, im Einklang mit nationalem Recht sowie gemäß der Deklaration von Helsinki 1975 (in der aktuellen, überarbeiteten Fassung) durchgeführt. Von allen beteiligten Probanden liegt eine Einverständniserklärung vor.

Ergebnisse

Stichprobenkennwerte

Nach Anwendung der Ein- und Ausschlusskriterien fanden 30 männliche Probanden mit einem mittleren Alter von 23,13 Jahren (SD = 2,50 Jahre; Range = 9 Jahre; Min. = 20 Jahre; Max. = 29 Jahre) und einem mittleren BMI von 24,95 kg/m2 (SD = 2,45 kg/m2; Range = 8,8 kg/m2; Min. = 21,5 kg/m2; Max. = 30,3 kg/m2) Eingang in die Hauptuntersuchung. Aufgrund fehlender Werte konnte zur Überprüfung der Reliabilität der GF5 schlussendlich auf 28 (Stress), 29 (Kalorienverbrauch) bzw. 23 (VO2max) vollständige Datensätze zurückgegriffen werden.

Stress

Im Rahmen der Stressexposition in LS 1 erzielten die Probanden (N = 28) einen mittleren HF-Wert von 235,36 ms2 (SD = 269,09 ms2; Range = 1138,13 ms2; Min. = 15,07 ms2; Max. = 1153,20 ms2) sowie ein mittleren QLST-Score von 74,71 (SD = 25,34; Range = 83; Min. = 17; Max. = 100).

Die Gegenüberstellung der gemittelten Werte aus Referenzmethode und GF5 und den Differenzwerten beider Methoden auf Basis der vorangegangenen z‑Standardisierung der Rohwerte zeigt, dass ein Messwert außerhalb des 95 % KI des oberen LoA liegt (vgl. Abb. 1a); dieser wurde in der weiteren Analyse der Daten nicht berücksichtigt.

Abb. 1
figure 1

Graphische Darstellung zur partiellen Beurteilung der Konkordanz von Garmin fēnix® 5 (GF5) und Elektrokardiographie (EKG) hinsichtlich der Messung des standardisierten Stressparameters (QLST/HRV). a Bland-Altman-Plot zur Identifikation von Ausreißerwerten auf Basis der z‑standardisierten Messwerte mit mittlerem Methodendifferenzwert (\(\overline{d}\)), Line of Equality (LoE), Limits of Agreement (LoA; \(\textit{Upper}\,LoA\colon \overline{d}\)+1,96 SD; Lower LoA: \(\overline{d}\)1,96 SD) und 95 % Konfidenzintervallen (95 % KI). b Streudiagramm zur Beurteilung der Präzision (p = 0,89) auf Basis der ausreißerbereinigten, z‑standardisierten Messwerte

Der rechnerische Vergleich der in LS 1 erhobenen Untersuchungsdaten (N = 27) spiegelt eine hohe Präzision der GF5 im Vergleich mit der Referenzmethode EKG hinsichtlich der Messung des z‑standardisierten Stressparameters wider (p = 0,89; Abb. 1b).

Kalorienverbrauch

Im Rahmen der moderaten Laufbandbelastung in LS 2 erzielten die Probanden (N = 29) einen mittleren Kalorienverbrauch von 140,21 kcal (SD = 21,25 kcal; Range = 99 kcal; Min. = 110 kcal; Max. = 209 kcal; IK) bzw. von 145,41 kcal (SD = 39,52 kcal; Range = 156 kcal; Min. = 99 kcal; Max. = 251 kcal; GF5).

Die Gegenüberstellung der gemittelten Werte aus Referenzmethode und GF5 und den Differenzwerten beider Methoden, zeigt, dass alle Messwerte innerhalb der 95 % KI der LoA liegen (Abb. 2a). Der rechnerische Vergleich der in LS 2 erhobenen Untersuchungsdaten spiegelt eine mittlere Konkordanz zwischen der GF5 und der Referenzmethode IK hinsichtlich der Messung des Kalorienverbrauchs wider (CCCLin = 0,43 [p = 0,52, Cb = 0,82]; ICC (2, 1) = 0,44, 95 % CI [0,09; 0,69]).

Abb. 2
figure 2

Graphische Darstellung zur umfassenden Beurteilung der Konkordanz von Garmin fēnix® 5 (GF5) und indirekter Kalorimetrie (IK) hinsichtlich der Messung des Parameters Kalorienverbrauch (Kalorien; CCCLin = 0,43 [p = 0,52, Cb = 0,82]). a Bland-Altman-Plot zur Beurteilung der Verteilungssystematik der Methodendifferenzwerte (y-Achse) über die Methodenmittelwerte (x-Achse) mit mittlerem Methodendifferenzwert (\(\overline{d}\)), Line of Equality (LoE), Limits of Agreement (LoA; Upper LoA: \(\overline{d}\)+1,96 SD; Lower LoA: \(\overline{d}\)1,96 SD) und 95 % Konfidenzintervallen (95 % KI). b Q-Q-Diagramm zur Beurteilung der Normalverteilungsannahme der Methodendifferenzwerte

Die graphische Analyse des Q‑Q-Diagramms spricht für die Annahme näherungsweise normalverteilter Kalorienverbrauch-Messwertdifferenzen (Abb. 2b); inferenzstatistische Argumente für die Beibehaltung der, keine überzufällige Verletzung der Normalverteilung implizierenden, Nullhypothese finden sich im S‑W‑T [W(29) = 0,97; p = 0,520]. Die Verteilung der Differenzwerte im B‑A‑P (Abb. 2a) befördert die Homoskedastizitätsannahme; für die Beibehaltung der, keine systematische Verteilung der Differenzwerte über den Messbereich implizierenden, Nullhypothese spricht das Ergebnis des modifizierten B‑P‑T [χ2(1) = 0,15; p = 0,695]. Auf Grundlage der normalverteilten und homoskedastischen Differenzwerte wird eine mittlere Messwertdifferenz (SPE-GF5) von \(\overline{d}\) = −5,21 kcal (SD = 33,71 kcal; 95 % KI [−18,03 kcal; +7,62 kcal]) bestimmt, wobei die LoE im 95 % KI ebd. liegt und sich 95 % der Messwertdifferenzen in einem LoA-Intervall zwischen −71,29 kcal (95 % KI [−93,46 kcal; −49,11 kcal]; Lower LoA) und +60,87 kcal (95 % KI [+38,70 kcal; +83,04 kcal]; Upper LoA) befinden (Abb. 2a); dies bedeutet, dass die GF5 den Kalorienverbrauch im Mittel zufällig um −1,48 % (95%KI [−10,03 %; +7,07 %]) überschätzt und das mittlere Abweichungsspektrum der GF5 von −45,52 % (95 % KI [−60,30 %; −30,74 %]) Überschätzung bis zu +42,56 % (95 % KI [+27,79 %; +57,34 %]) Unterschätzung des wahren Kalorienverbrauchs reicht. Unter Einbeziehung der LoA-Konfidenzintervalle ist dabei herauszustellen, dass die maximalen Abweichungen im ungünstigsten Replikationsfall zwischen −93,46 kcal (−60,30 %) Überschätzung und +83,04 kcal (+57,34 %) Unterschätzung liegen.

VO2max

Im Rahmen der Laufausbelastung in LS 3 bzw. dem Feldszenario erzielten die Probanden (N = 23) eine mittlere VO2max von 48,70 ml/min/kg (SD = 4,50 ml/min/kg; Range = 19 ml/min/kg; Min. = 40 ml/min/kg; Max. = 59 ml/min/kg; Spiroergometrie) bzw. 53,00 ml/min/kg (SD = 4,23 ml/min/kg; Range = 18 ml/min/kg; Min. = 47 ml/min/kg; Max. = 65 ml/min/kg; GF5).

Die Gegenüberstellung der gemittelten Werte aus Referenzmethode und GF5 und den Differenzwerten beider Methoden, zeigt, dass ein Messwert außerhalb des 95 % KI des unteren LoA liegt (Abb. 3a); dieser wurde in der weiteren Analyse der Daten nicht berücksichtigt. Der rechnerische Vergleich der in LS 2 und dem Feldszenario erhobenen Untersuchungsdaten (N = 22) spiegelt eine mittlere Konkordanz zwischen der GF5 und der Referenzmethode SPE hinsichtlich der Messung der maximalen Sauerstoffaufnahme wider (CCCLin = 0,50 [p = 0,77, Cb = 0,66]; ICC (2, 1) = 0,52, 95 % CI [−0,09; +0,82]).

Abb. 3
figure 3

Graphische Darstellung zur umfassenden Beurteilung der Konkordanz von Garmin fēnix® 5 (GF5) und Spiroergometrie (SPE) hinsichtlich der Messung des Parameters maximale Sauerstoffaufnahme (VO2max; CCCLin = 0,50 [p = 0,77, Cb = 0,66]). a Bland-Altman-Plot zur Beurteilung der Verteilungssystematik der Methodendifferenzwerte (y-Achse) über die Methodenmittelwerte (x-Achse) mit mittlerem Methodendifferenzwert (\(\overline{d}\)), Line of Equality (LoE), Limits of Agreement (LoA; Upper LoA: \(\overline{d}\)+1,96 SD; Lower LoA: \(\overline{d}\)1,96 SD) und 95 % Konfidenzintervallen (95 % KI). b Q-Q-Diagramm zur Beurteilung der Normalverteilungsannahme der Methodendifferenzwerte auf Basis der ausreißerbereinigten Messwerte

Die graphische Analyse des Q‑Q-Diagramms spricht für die Annahme nichtnormalverteilter VO2max-Messwertdifferenzen (Abb. 3b); dahingehende inferenzstatistische Argumente für die Annahme der, eine überzufällige Verletzung der Normalverteilung implizierenden, Alternativhypothese finden sich im S‑W‑T [W(22) = 0,90; p = 0,035]. Die (ausreißerbereinigte) Verteilung der Differenzwerte im B‑A‑P (Abb. 3a) befördert die Heteroskedastizitätsannahme; für die Annahme der, eine systematische Verteilung der Differenzwerte über den Messbereich implizierenden, Alternativhypothese spricht das Ergebnis des modifizierten B‑P‑T [χ2(1) = 7,62; p = 0,006].

Die logarithmische Transformation beider Messreihen bewirkt eine günstigere Verteilung der Messwertdifferenzen dahingehend, dass die, keine überzufällige Verletzung der Normalverteilungsannahme implizierende, Nullhypothese hier beibehalten werden kann [W(22) = 0,94; p = 0,185; Abb. 4b]. Stochastische Argumente für die gleichsame Beibehaltung der, keine systematische Verteilung der logarithmierten Differenzwerte über den Messbereich implizierenden, Nullhypothese, finden sich dagegen trotz leicht verbesserter Streuungseigenschaften nicht [χ2(1) = 6,20; p = 0,013; Abb. 4a].

Abb. 4
figure 4

Graphische Darstellung zur umfassenden Beurteilung der Konkordanz von Garmin fēnix® 5 (GF5) und Spiroergometrie (SPE) hinsichtlich der Messung des Parameters maximale Sauerstoffaufnahme (VO2max; CCCLin = 0,50 [p = 0,77, Cb = 0,66]). a Bland-Altman-Plot zur Beurteilung der Verteilungssystematik der Methodendifferenzwerte (y-Achse) über die Methodenmittelwerte (x-Achse) auf Basis der logarithmierten Messwerte mit mittlerem Methodendifferenzwert (\(\overline{d}\)), Line of Equality (LoE), Limits of Agreement (LoA; Upper LoA: \(\overline{d}\)+1,96 SD; Lower LoA: \(\overline{d}\)1,96 SD) und 95 % Konfidenzintervallen (95 % KI). b Q-Q-Diagramm zur Beurteilung der Normalverteilungsannahme auf Basis der logarithmierten Messwerte

Auf Grundlage der normalverteilten – weiterhin jedoch leicht heteroskedastischen – logarithmierten Differenzwerte wird eine mittlere Messwertdifferenz (SPE-GF5) von \(\overline{d}\) = −0,08 (SD = 0,06; 95 % KI [−0,10; −0,05]) Einheiten bestimmt, wobei die LoE außerhalb des 95 % KI ebd. liegt und sich 95 % der Messwertdifferenzen in einem LoA-Intervall zwischen −0,19 (95 % KI [−0,24; −0,15]; Lower LoA) und +0,04 (95 % KI [−0,01; +0,08]; Upper LoA) Einheiten befinden (Abb. 4a). Die Rücktransformation der logarithmierten Daten über die Umkehrfunktion führt zu einer mittleren Messwertdifferenz von \(\overline{d}\) = +0,93 (95 % KI [+0,90; +0,95]) Einheiten in einem LoA-Intervall zwischen +0,83 (95 % KI [+0,79; +0,86]; Lower LoA) und +1,04 (95 % KI [+0,99; +1,09]; Upper LoA) Einheiten; dies bedeutet, dass die GF5 die Referenzmethode überzufällig um −7,40 % (95 % KI [−9,78 %; −4,96 %]) überschätzt und das mittlere Abweichungsspektrum der GF5 von −17,49 % (95 % KI [−21,12 %; −13,68 %]) Überschätzung bis zu +3,92 % (95 % KI [−0,66 %; +8,71 %]) Unterschätzung der wahren VO2max reicht. Unter Einbeziehung der LoA-Konfidenzintervalle ist dabei herauszustellen, dass die maximalen Abweichungen im ungünstigsten Replikationsfall zwischen +0,79 Einheiten (−21,12 %) Überschätzung und +1,09 Einheiten (+8,71 %) Unterschätzung liegen.

Diskussion

Zusammenfassung, Einordnung und praktische Implikation

Gegenstand der vorliegenden Untersuchung war die Überprüfung der Reliabilität der als marktrelevant identifizierten Premium Multisport-Smartwatch GF5 anhand des Teilaspektes der Konkordanz und hinsichtlich der Parameter Stress, Kalorienverbrauch und VO2max. Eine umfassende Überprüfung der exakten intraindividuellen Konkordanz der GF5 im Vergleich mit der Referenzmethode EKG hinsichtlich der Messung des Stressparameters war aufgrund unterschiedlicher Messmetriken nicht möglich; die realisierbaren rechnerischen Analysen im Bereich der Stressmessung sprechen jedoch zumindest für eine hohe Präzision p der GF5. Der in der Zusammenfassung des systematischen Reviews von Georgiou et al. (2018) formulierten Einschätzung „Wearable devices may provide a promising alternative solution for measuring [H]RV.“ (S. 7) kann auf Basis der vorliegenden Befunde somit nicht grundsätzlich widersprochen werden. Ferner zeigen die rechnerischen Analysen eine forschungshypothesenkonform mittlere Konkordanz der GF5 im Vergleich mit der jeweiligen Referenzmethode IK bzw. SPE hinsichtlich der Messung der Parameter Kalorienverbrauch bzw. VO2max. Das Ausmaß der Methoden(in)konkordanz kann dabei über die graphisch abgeleitete, mittlere Messwertdifferenz beurteilt werden. Hier zeigen die vorliegenden Befunde im Mittel eine gerade 1,48-prozentige, zufällige Überschätzung des Kalorienverbrauchs der GF5 im Vergleich zur Referenzmethode; die vorliegenden Befunde spiegeln im Betrag eine – wenngleich nicht generalisierbare – geringere mittlere prozentuale Abweichung als die im Firstbeat-Whitepaper über den Mean Absolute Percentage Error (MAPE) zusammengefassten Befunde (MAPE = 7–11 %; vgl. Firstbeat Technologies Ltd., 2012) und sprechen somit zunächst für die Reliabilität der GF5. Diese Einschätzung ist zu relativieren, zieht man zur Beurteilung die im Rahmen der graphischen Analyse bestimmten LoA heran. Hiernach muss davon ausgegangen werden, dass das mittlere Abweichungsspektrum der GF5 von −45,52 % Überschätzung bis zu +42,56 % Unterschätzung des wahren Kalorienverbrauchs reicht. Praktisch und unter Einbeziehung der Metabolic Equivalent of Task(MET)-Aktivitätsentsprechungen von Ainsworth et al. (2011) bedeutet dies, dass die GF5 für eine Person mit 80 kg Körpergewicht bei einem Dauerlauf mit 6,4 km/h (6 METs) anstelle eines zu erwartenden Kalorienverbrauchs von 480 kcal/h, einen Kalorienverbrauch von maximal 698,50 kcal/h (→ 8,73 METs) oder minimal 275,71 kcal/h (→ 3,44 METs) ausgeben könnte; nach diesen Berechnungen würde die moderate Laufbelastung von Seiten der GF5 energetisch somit zumindest potenziell entweder einer schnelleren Laufeinheit mit 8,36 km/h (9,0 METs) oder aber einem Spaziergang mit leichtem Tragegewicht (3,0 METs) gleichgesetzt. Ein ähnliches Bild ergibt sich bei der Einordnung der Messwertdifferenzen im Bereich der VO2max. Hier zeigen die vorliegenden Befunde, dass die GF5 die VO2max im Mittel überzufällig um −7,40 % überschätzt und damit im Betrag nur 2,4 % über dem im Firstbeat-Whitepaper (vgl. Firstbeat Technologies Ltd., 2017) berichteten MAPE liegt; auch dieser Befund kann zunächst als Argument für die Reliabilität der GF5 aufgefasst werden. Diese Einschätzung ist jedoch erneut zu relativieren, zieht man zur Beurteilung die im Rahmen der graphischen Analyse bestimmten LoA heran. Hiernach muss davon ausgegangen werden, dass das mittlere Abweichungsspektrum der GF5 von −17,49 % Überschätzung bis zu +3,92 % Unterschätzung der wahren VO2max reicht. Nach den seitens der GF5 referenzierten VO2max-Standard-Bewertung des Cooper-Institutes (2007) bedeutet dies, dass die GF5 für einen männlichen Probanden zwischen 20 und 29 Jahren mit einer wahren VO2max von 47,25 ml/min/kg, eine VO2max von maximal 55,51 ml/min/kg oder minimal 45,40 ml/min/kg ausgeben könnte; seine eigentlich als „good“ zu klassifizierende VO2max würde von Seiten der GF5 somit zumindest potenziell entweder als „excellent to superior“ (Überschätzung) oder „fair to good“ (Unterschätzung) klassifiziert. In Anbetracht dieser Klassifikationsstreubreite kann die gleichsam querschnittlich basierte und herstellerunabhängige Einschätzung von Anderson et al. (2019), „[…] the GF5 can be an option for a person seeking an affordable and easily available method of determining VO2max. (S. 147)“ nicht vorbehaltlos geteilt werden.

Dass die aufgezeigte Konkordanzsituation der GF5 durchaus auch auf andere marktrelevante WD übertragbar ist, zeigen die aktuellen Daten von Passler et al. (2019). Die in der vergleichenden Arbeit von Düking et al. (2020) ermittelten und zum Teil durchaus ermutigenden linearen Befunde zur Validität ebensolcher WD sollten im Hinblick auf den hier explizierten Reliabilitätsaspekt der Konkordanz (aufgrund des abweichenden methodisch-analytischen Zuganges) in jedem Falle nicht hypothesenleitend verwendet werden.

Limitationen

Bei der vorgängigen Interpretation der Befunde sind sowohl auf die Stichprobe als auch auf den Untersuchungsablauf bezogene sowie analytische und interpretative Limitationen zu berücksichtigen.

Der analysierte Stichprobenumfang lag in der vorliegenden Untersuchung gerade zwischen 22 (VO2max) und 29 (Kalorienverbrauch) Probanden. Die aus der geringen Fallzahl resultierenden, weiten Konfidenzintervalle bewirken, dass das Ergebnis einer im Mittel geringen Überschätzung der GF5 im Parameter Kalorienverbrauch interpretativ auf die untersuchte Stichprobe begrenzt bleiben sollte. Ferner führen die weiten Konfidenzintervalle bei der im Ergebnisteil abschließend vorgenommenen Interpretation auf Basis der maximal möglichen Abweichungen zu einer potenziell negativen Überzeichnung der tatsächlichen Messungenauigkeit der GF5 hinsichtlich der Parameter Kalorienverbrauch und VO2max an den unteren bzw. oberen Rändern.

Weitere Einschränkungen der Befundinterpretation liegen im Untersuchungsablauf begründet. Hier ist zu berücksichtigen, dass die Probanden das bereitgestellte GF5-Modell erstmalig und einzig innerhalb der gegebenen Szenarien genutzt haben. Hierdurch wurde die in der GF5 inkludierte Möglichkeit der Verbesserung der Messgenauigkeit des Stresswertes (vgl. Firstbeat Technologies Ltd., 2020), des Kalorienverbrauchs über ein neuronales Netz (vgl. Firstbeat Technologies Ltd., 2012) sowie der maximalen Sauerstoffaufnahme (vgl. Garmin Ltd, 2017) ausgeschlossen und die hier interessierende Methodenkonkordanz im Vergleich zu einem stärker nutzeradaptierten GF5-Modell somit potenziell unterschätzt. Ferner ist zu berücksichtigen, dass die VO2max in der vorliegenden Untersuchung an zwei unterschiedlichen Testtagen erfasst wurde und das aufgrund der Herstellerempfehlung umgesetzte Constant-load-Protokoll nicht dem etablierten und gleichsam umgesetzten Rampenprotokoll entsprach. Unter der Prämisse einer VO2max-Variation in Abhängigkeit u. a. von Ermüdungs- und Ernährungszustand bzw. Protokolllänge kann die gerade mittlere VO2max-Konkordanz der GF5 im Vergleich zur Referenzmethode SPE somit nicht ausschließlich Device-seitig begründet werden.

In Bezug auf die Interpretation der Methodenkonkordanz im Bereich Stress ist aus analytischer Perspektive neuerlich zu betonen, dass die für den Stressparameter notwendigerweise erfolgte Beschränkung auf p keinen Schluss auf die exakte intraindividuelle Konkordanz der GF5 ermöglicht. Ferner ist in Bezug auf die Interpretation der Methodenkonkordanz im Bereich der VO2max zu berücksichtigen, dass diese durch einen vergleichsweise extremen Wert im oberen Messspektrum mitbestimmt wurde und die Messabweichungen in den unteren VO2max-Bereichen in engeren LoA vermutet werden können. Auf eine Entgegnung des leicht heteroskedastischen Streuungsmusters mit einer bereichsspezifischen Grenzwertanalyse (vgl. Watson & Petrie, 2010) wurde aufgrund der insgesamt geringen Fallzahlen hier jedoch verzichtet.

Bei der Interpretation der im Ergebnisteil vorangestellten, rechnerischen Befunde zur Methodenkonkordanz ist abschließend zu berücksichtigen, dass die getroffenen Einschätzungen zur Einordnung des CCCLin auf einem zwar etablierten, jedoch eher moderaten Klassifikationsvorschlag für strenggenommen kategoriale Variablen gründen.

Forschungsperspektiven

Der bei der Analyse der Methodenkonkordanz im Parameter Kalorienverbrauch aufgezeigten Problematik der zu geringen Teststärke im Hinblick auf eine populationsbezogene Beurteilung der mittleren Überschätzung sollte in der notwendigen Replikation der vorliegenden Primärstudie mit einem optimalen Stichprobenumfang begegnet werden; durch entsprechend verkleinerte Konfidenzintervalle kann dann auch von einer Präzisierung der Befundlage an den Rändern ausgegangen werden. Dahingehende kalkulatorische Empfehlungen im Kontext von „reproducibility studies“ finden sich bei Watson und Petrie (2010).

Bei der Konzeption zukünftiger Untersuchungen ist der Beantwortung der Frage, ob und wenn ja, in welchem Maße die Konkordanz zwischen GF5 und Referenzmethode durch eine kontinuierliche Nutzung der GF5 verbessert werden kann, besondere Bedeutung beizumessen. Im Falle einer akzeptablen Annäherung der Lernkurve der GF5 an den wahren Wert stellt sich dann schlussendlich die Frage nach der Wiederholbarkeit (engl.: „repeatability“) der Befunde; auch hier finden sich entsprechende kalkulatorische Empfehlungen bei Watson und Petrie (2010). Darüber hinaus ist anzudenken, den Kalorienverbrauch bei unterschiedlichen Laufgeschwindigkeiten und die VO2max im Rahmen einer einzigen Testung und somit auf der Basis nur eines Protokolls zu ermitteln.

Für die Datenanalyse im Kontext der notwendigen Replikationsstudien wird der CCCLin aufgrund der Möglichkeit zur Bestimmung der exakten intraindividuellen Konkordanz empfohlen, wobei die gefundenen Effekte anhand eines angemessen und ggf. restriktiveren (z. B. McBride, 2005) Klassifikationssystems beurteilt werden sollten. Die Frage nach der exakten intraindividuellen Konkordanz zwischen GF5 und Referenzmethode EKG hinsichtlich der Erfassung des Parameters Stress lässt sich dabei erst dann adäquat – d. h., unter Einbeziehung von p und Cb – beantworten, wenn der Hersteller den Zugang auf die zu Grunde liegenden HRV-Daten offenlegt.

Fazit

Die hier ermittelte Präzision der GF5 hinsichtlich der Messung des Stressparameters ist positiv zu sehen; in Ermangelung der Möglichkeit einer umfassenden Konkordanzüberprüfung kann die GF5 aus ebd. Perspektive aktuell jedoch nicht vorbehaltlos zur Stressmessung empfohlen werden. Gleichsam nicht vorbehaltlos, argumentativ jedoch umfassender begründbar, fällt die Empfehlung zum Einsatz der GF5 in den Bereichen Aktivität und Fitness aus. So ist in Anbetracht der hier berichteten mittleren Konkordanz der GF5 in den Parametern Kalorienverbrauch und VO2max eine basale Standortbestimmung sowie eine darauf aufbauende gesundheitsorientierte Trainingssteuerung mit dem Ziel einer Gewichtsreduktion und/oder Leistungsentwicklung grundsätzlich denkbar; (gesundheitsorientierte) Nutzer dieses Devices sollten sich dabei jedoch bewusst sein, dass sich gerade bei erstmaliger Verwendung und in Einzelfällen durchaus bedeutsame Abweichungen im Vergleich zum wahren Wert in den Parametern Kalorienverbrauch und VO2max ergeben können. Auch und gerade für ambitionierte (Ausdauer‑)Athleten, die den Aspekten der Trainingssteuerung und Leistungskontrolle eine vergleichsweise höhere Gewichtung beimessen (sollten), stellt die GF5 bei erstmaliger Verwendung demnach noch kein hinreichend konkordantes Messinstrument im Vergleich zu einer laborbasierten trainingswissenschaftlichen Diagnostik.

Mit einer verlässlichen Messung steigt die Chance auf ein entsprechendes Kompetenzerleben im Trainingsprozess; dies kann die Entwicklung einer positiven sport- und bewegungsbezogenen Selbstwirksamkeit befördern und somit über den motivationspsychologischen Prozess der Internalisierung der Gefahr eines frühen Drop-outs entgegenwirken (vgl. Jekauc et al., 2015).

Für die testtheoretische Perspektive des Themenfeldes Bewegung, Gesundheit und Digitalisierung bedeutet dies, dass ein weiteres Investment in die Verbesserung der Reliabilität (und Validität) von WD zu einer dauerhaften Bindung an ressourcenstärkende und anforderungsmindernde körperliche Aktivitäten beitragen kann (vgl. Mercer, Li, Giangregorio, Burns, & Grindrod, 2016), wodurch der einzelne Nutzer besser auf die Herausforderungen des digitalen gesellschaftlichen Wandels vorbereitet wird.

In Anbetracht der Geschwindigkeit der technischen Progression sowie der daraus resultierenden Marktbreite und -heterogenität (Bunn, Navalta, Fountaine, & Reece, 2018; Duffy & Colon, 2019) liegt es in der Verantwortung der Forschenden im Themenfeld Bewegung, Gesundheit und Digitalisierung, diese Entwicklungsschritte durch regelmäßige Untersuchungen wie die vorliegende sowie daraus erarbeitete, systematische Übersichten (u. a. Düking, Hotho, Holmberg, Fuss, & Sperlich, 2016) kritisch zu reflektieren.