Das Erheben von subjektiven Ergebnisparametern („patient-reported outcome measure“, PROM) zur Erfassung des Behandlungsergebnisses aus Patientenperspektive hat in der Orthopädie und Traumatologie in den letzten Jahren stetig zugenommen. Neben der Bedeutung für den klinischen und wissenschaftlichen Austausch nehmen sie eine zunehmend wichtigere Rolle aus gesundheitspolitischer Sicht ein. Im Kontext der „value-based healthcare“ findet das Behandlungsergebnis zunehmend Einfluss auf wirtschaftliche Überlegungen, sodass der Leistungserbringer basierend auf den objektivierten Ergebnissen der medizinischen Behandlung vergütet wird [9, 14, 46].

Ein systematisches Review von 2013 identifizierte insgesamt 139 PROMs, welche in einer über 10-jährigen Periode in der aktuellen Literatur für die Fuß- und Sprunggelenkchirurgie Einzug fanden [22]. Obwohl eine Mehrheit der Fuß- und Sprunggelenkchirurgen regelmäßig PROMs für klinische Studien, klinische Evaluationen oder Registerarbeiten verwendet [60], wird ein Großteil dieser PROMs den qualitativen Ansprüchen der Reliabilität, Validität und Empfänglichkeit („responsiveness“) nicht gerecht. Außerdem erschwert auch die sehr heterogene Verwendung von PROMs die Vergleichbarkeit klinischer Studien [51, 60]. Dementsprechend hat diese Arbeit das Ziel, die gängigsten PROMs zu analysieren und eine Empfehlung für die Verwendung von geeigneten PROMs in der Fuß- und Sprunggelenkchirurgie zu eruieren.

Anforderungen an PROMs für klinische Studien

Das Ziel von PROMs ist es, die patientenspezifischen Ergebnisse nach medizinischen Behandlungen möglichst genau widerzuspiegeln. Um diesem Anspruch gerecht zu werden, sollten die gewählten PROMs gewisse Kriterien erfüllen, welche von der Initiative „Consensus-based Standards for the selection of health Measurement Instruments (COSMIN)“ erarbeitet und in drei Grundpfeiler unterteilt wurden. Für eine ausführlichere Zusammenfassung dieser Kriterien wird auf den Artikel des AGA Research-Komitees bzgl. der Empfehlung zur Verwendung von Knie-PROMs von Herbst et al. [15] verwiesen:

  1. 1.

    Die Reliabilität gibt die Zuverlässigkeit einer Messung an, also, ob bei wiederholten Messungen der gleiche Wert erhalten wird. Hierunter fällt auch die (interne) Konsistenz, also, ob die einzelnen Messinstrumente innerhalb eines Fragenkatalogs bzgl. der erfassten Pathologie übereinstimmen.

  2. 2.

    Die Validität ist ein Kriterium zur Bestimmung, ob das Richtige gemessen wird, also, ob die gewünschte Pathologie im Ganzen erfasst wird.

  3. 3.

    Die Empfänglichkeit („responsiveness“) beschreibt die Änderungssensitivität eines Tests, also, ob relevante Veränderungen im zeitlichen Verlauf detektiert werden können [38].

Zusätzlich müssen weitere qualitative Kriterien bei der Auswahl der geeigneten PROMs beachtet werden. So beschreibt der Decken- („ceiling effect“) bzw. der Bodeneffekt („floor effect“) die Fähigkeit eines Messinstruments, die jeweiligen Extreme adäquat darzustellen. Wenn mindestes 15 % der Probanden den maximalen bzw. minimalen Punktescore eines PROMs erreichen, wird ein Decken- bzw. Bodeneffekt als vorhanden erachtet. Somit kann der PROM besonders gute bzw. besonders schlechte Ergebnisse nicht mehr voneinander differenzieren und lässt dadurch eine Unterscheidung dieser womöglich dennoch relevant unterschiedlichen Patienten nicht mehr zu [37, 55].

Ein weiteres wichtiges Konzept zum Verständnis und der richtigen Interpretation von Originalarbeiten, welche Behandlungsergebnisse mittels PROMs darstellen, sind die MCID („minimal clinically important difference“) und der PASS („patient acceptable symptom state“). Der MCID beschreibt die nötige minimale Punktedifferenz eines PROMs, um einen klinisch relevanten Unterschied widerzuspiegeln. Beträgt der MCID also z. B. 10 Punkte, so muss ein Unterschied von mindestens 10 Punkten zwischen 2 Patienten (oder demselben Patienten bei longitudinalen Messungen) vorherrschen, um diesen Unterschied als klinisch relevant einstufen zu können. Der PASS hingegen beschreibt die Punkteschwelle eines PROMs, ab dem der Patient seinen Gesundheitsstatus als akzeptabel bzw. zufriedenstellend interpretiert [28].

Letztlich sollte ein PROM, neben diesen qualitativen Kriterien, auch durch seine Struktur klar verständlich und somit einfach zum Ausfüllen sein sowie eine überschaubare Anzahl an Fragen beinhalten, um eine möglichst hohe Rücklaufquote zu generieren [52].

Empfehlungen für Fuß- und Sprunggelenk-PROMs des AGA Research-Komitees

Die erwähnte große Anzahl verschiedener PROMs zeigt die hohe Anforderung an Scoringsysteme in der Fuß- und Sprunggelenkchirurgie, welche durch eine Vielzahl an unterschiedlichen Patholgien und damit einhergehenden Funktionseinschränkungen hervorgerufen wird. Gerade aufgrund der hohen Varietät der verwendeten PROMs in der Fuß- und Sprunggelenkchirurgie hat sich das Research-Komitee der AGA das Ziel gesetzt, mit Hilfe der genannten Gütekriterien die aktuelle Literatur zu analysieren und geeignete PROMs sowohl für den klinischen Alltag als auch für das wissenschaftliche Setting zu empfehlen. Aufgrund der hohen Variabilität der Pathologien und der fehlenden Validierung der einzelnen Scores für jede dieser Pathologien kann keine pathologiespezifische Empfehlung der Scores (z. B. Sprunggelenkinstabilität, Arthrose) erfolgen. Vielmehr werden im Folgenden nun die PROMs für die Gesamtheit der verschiedenen Fuß- und Sprunggelenkpathologien empfohlen.

Die AOFAS (American Orthopaedic Foot & Ankle Society) hat in ihrem Positionsstatement 2018 die primäre Verwendung von PROMIS („The Patient-Reported Outcomes Measurement Information System“) mit supplementär ein bis zwei spezifischen Fuß- und Sprunggelenk-PROMs empfohlen [25]. PROMIS wurde mit der Unterstützung des National Institutes of Health (NIH) entwickelt, um die Erhebung patientenspezifischer Outcome-Daten zu verbessern. Die Erhebung erfolgt mit Hilfe von sog. „computerized adaptive tests“ (CAT) unter Verwendung der „item response theory“ (IRT; [5, 53]). Hierbei werden Fragen bzgl. 1) allgemeiner Gesundheit, 2) physischer Gesundheit, 3) psychischer Gesundheit und 4) sozialer Gesundheit gestellt. Das CAT-System individualisiert dabei den Fragenpool, welcher vom Patienten ausgefüllt werden muss. So wird jede Frage von der Antwort auf die vorangehende Frage bestimmt, sodass letztlich ein dem Funktionsdefizit angepasster Fragenkatalog erhoben wird. Es konnte gezeigt werden, dass dieses dynamische System die allgemeine Messgenauigkeit verbessern und dabei Decken- und Bodeneffekte, administrative Kosten und den Aufwand für den Patienten deutlich verringern konnte [20, 21]. Tatsächlich benötigt das Ausfüllen von PROMIS nur ein Drittel der Zeit im Vergleich zu herkömmlichen PROMs [18, 21]. Da PROMIS jedoch nur in englischer Sprache verfügbar ist und in dieser validiert wurde, wird in dieser Arbeit nicht weiter darauf eingegangen, jedoch kann das System jederzeit kostenfrei genutzt werden (www.promis.org).

Im Folgenden werden nun die empfohlenen PROMs, welche in deutscher Sprache verfügbar sind und auch in dieser validiert wurden, dargelegt. Ähnlich zu den vorangegangenen Empfehlungen zur Verwendung gelenkspezifischer Scores des AGA Research-Komitees werden die aufgeführten MCID-Werte aufgrund der hohen Heterogenität in der aktuellen Literatur nicht als determinierte Werte, sondern als Spanne der publizierten Daten angegeben.

Foot and Ankle Outcome Score (FAOS)

Der FAOS ist eine Abwandlung des KOOS (Knee Injury and Osteoarthritis Outcome Score) für das Kniegelenk und wurde erstmals für Patienten nach anatomischer lateraler Ligamentrekonstruktion des Sprunggelenks validiert [47]. Der Score besteht aus 42 Fragen, welche in die KOOS-typischen 5 Aspekte unterteilt sind: 1) Schmerzen, 2) Symptome, 3) Aktivitäten des täglichen Lebens, 4) Sport und Freizeit und 5) Fuß- und sprunggelenkspezifische Lebensqualität. Jedes Instrument erfragt jeweils die innerhalb der letzten Woche durchschnittliche Befindlichkeit des Patienten ab. Hierbei wird jede Frage auf einer Likert-Skala von 0–4 mit vorgegebenen Antwortmöglichkeiten beantwortet und die Ergebnisse jeder der 5 Unterkategorien separat errechnet. Ähnlich zum KOOS werden für die wissenschaftliche Kommunikation die jeweiligen Ergebnisse der Unterkategorien auf einer Skala von 0 (schlechtestes Ergebnis) bis 100 (bestes Ergebnis) normiert. Der FAOS wurde mittlerweile für etliche weitere Pathologien (z. B. Hallux valgus, Arthrose, Hallux rigidus, erworbener Senkfuß etc.) und in verschiedenen Sprachen, inklusive Deutsch [56], validiert [51]. In der aktuellen Literatur findet sich zudem gute bis sehr gute Evidenz der adäquaten Messqualität der meisten Aspekte des FAOS mit hoher Konsistenz, Reliabilität und Empfänglichkeit. Die Messqualität der Subkategorie „Symptome“ zeigt sich jedoch dahingehend diskrepant, dass widersprüchliche Ergebnisse publiziert wurden, welche eine suffiziente Einschätzung der Qualität nicht zulassen. Zusätzlich konnte die Validität des FAOS aufgrund mangelnder Studienmethodologie in der aktuellen Literatur bis heute nur eingeschränkt positiv bewertet werden [51]. Ähnliches gilt für Decken- bzw. Bodeneffekte, welche in manchen Studien zwar angegeben wurden [6, 12, 17, 32, 47], jedoch in ebenso vielen nicht beobachtet werden konnten [23, 30, 42, 50, 56]. Die MCID-Werte wurden für heterogene Gruppen mit Fuß- und Sprunggelenkpathologien erhoben und zeigen sich dementsprechend mit großer Variabilität für die einzelnen Unterkategorien (Tab. 1).

Tab. 1 MCID-Werte für die Unterkategorien der einzelnen PROMs und deren Bearbeitungszeit

Foot and Ankle Activity Measure (FAAM)

Der FAAM wurde ursprünglich als vom Patienten auszufüllender Fragebogen zur Erfassung des körperlichen Befindens mit verschiedenen Pathologien des Fußes und Sprunggelenks konstruiert und ist in 2 Unterkategorien unterteilt: Aktivität des täglichen Lebens und Sport [33]. Insgesamt besteht der FAAM aus 32 Fragen, wobei 21 Fragen sich auf Aktivitäten des täglichen Lebens und 8 Fragen sich auf sportliche Aktivitäten beziehen, wobei alle Fragen mit „keine Schwierigkeiten“ (4 Punkte) bis „nicht ausführbar“ (0 Punkte) beantwortet werden müssen. Für jede Frage steht auch die Antwortmöglichkeit „nicht zutreffend“ zur Verfügung. Dementsprechend können maximal 84 Punkte bzw. 32 Punkte für beide Unterkategorien erreicht werden. Diese werden entweder als absolute Punktzahl oder als Prozentsatz der maximal zu erreichenden Punktzahl angegeben. Am Ende jeder Unterkategorie muss zudem das eigene Fuß‑/Sprunggelenk von 0–100 % bzgl. des Funktionszustands während täglichen bzw. sportlichen Aktivitäten bewertet werden. Schließlich muss der allgemeine Funktionszustand des Fußes/Sprunggelenks mit „normal“ bis „schwer abnormal“ eingeschätzt werden.

Die Messqualität beider Unterkategorien des FAAM wurde ausgiebig untersucht [51], wobei keine bzw. nur leichte Boden- und Deckeneffekte (< 15 % nach den Kriterien von Terwee et al. [55]) beobachtet wurden [1, 4, 33, 35, 39, 49, 58]. Der FAAM ist in mehreren Sprachen verfügbar, wobei die deutsche Fassung an Patienten mit chronischer lateraler Sprunggelenkinstabilität validiert wurde und hier gute Gütekriterien gemäß COSMIN zeigte [41, 51]. Nur wenige Studien haben die MCID-Werte des FAAM an heterogenen Gruppen untersucht (Tab. 1).

Foot Function Index (FFI)

Der FFI wurde 1991 von Budiman-Mak et al. entwickelt, um den Einfluss von Fuß- und Sprunggelenkverletzungen auf die Funktion des Fuß- und Sprunggelenks zu messen [3]. Er besteht aus 23 Fragen, die sich auf die Befindlichkeit der letzten 2 Wochen beziehen, welche wiederum in 3 Unterkategorien unterteilt sind: Schmerz (9 Fragen), Funktion (9 Fragen) und Aktivitätseinschränkungen (5 Fragen). Alle Fragen werden auf einer visuellen Analogskala von 0 (schlechteste) bis 100 (beste) beantwortet, wobei dann jede Unterkategorie einzeln und der Gesamtscore errechnet werden können. Der Inhalt des originalen FFI wurde jedoch mehrfach für seinen Inhalt kritisiert, da er für viele Patientengruppen unpassend sei mit teilweise deutlichem Bodeneffekt, was zu einer niedrigen Rücklaufquote führte und deshalb mehrfach abgeändert wurde [2, 19, 27, 34, 40, 48, 57, 59]. Aufgrund der schlechten und heterogenen Datenlage konnte infolgedessen die Messqualität des FFI bisher nur eingeschränkt bewertet werden [51]. In der deutschen Fassung wurde der FFI von 23 auf 18 Fragen gekürzt, was zu einer hohen Reliabilität und internen Konsistenz führte mit einer durchschnittlichen Bearbeitungszeit von nur 8 min. Boden- bzw. Deckeneffekte konnten in der deutschen Validierung nicht beobachtet werden [40]. MCID-Werte sind für die deutsche Fassung nicht verfügbar. Die MCID wurde in der originalen Version des FFI an Patienten mit Plantarfasziitis berechnet, wohingegen für Aktivitätseinschränkungen kein MCID ermittelt werden konnte, da diese Kategorie für die untersuchte Patientenpopulation unbrauchbar war [29]. Der MCID-Wert für den Gesamtscore beträgt 7 Punkte bei Patienten mit Plantarfasziitis und 19 Punkte bei Patienten nach modifizierter Chevron-Osteotomie bei Hallux valgus (Tab. 1; [13, 29]).

Diskussion

Es stehen zahlreiche PROMs für die Evaluation von Fuß- und Sprunggelenkpathologien in der aktuellen Literatur zur Verfügung, jedoch werden nur wenige den Ansprüchen der Reliabilität, Validität, Empfänglichkeit und Konsistenz gerecht. In Anbetracht dieser Kriterien empfiehlt das Research-Komitee der AGA neben der Verwendung eines PROM zur Erfassung der allgemeinen Lebensqualität, wie z. B. der EuroQol 5 Dimension Health Outcome Survey (EQ-5D), den FAOS zur Einschätzung der fuß- und sprunggelenkspezifischen Konstitution heranzuziehen. Eine Empfehlung zur pathologiespezifischen Evaluierung mittels PROM kann derzeit aufgrund der fehlenden Datenlage nicht gegeben werden.

Das Konzept des Erfassens von Behandlungsergebnissen und deren Einfluss auf neue Behandlungsschemata geht bereits auf die Mitte der 50er Jahre des 19. Jahrhunderts zurück, als Florence Nightingale, eine britische Krankenpflegerin, während des Krim-Kriegs beobachtete, dass mehr Soldaten an anderen Krankheiten als an Kriegsverletzungen starben [36, 43]. Hieraus resultierend erfolgte eine Verbesserung der Hygienestandards sowie der Ernährung, was zu einer geringeren Mortalitätsrate der britischen Soldaten führte. Während damals die Ergebnisse noch auf rein subjektiven Beobachtungen der Behandelnden basierte, werden heute vor allem subjektive Wahrnehmungen aus Patientensicht ermittelt, sodass der Begriff der PROMs heute Verwendung findet [10]. Diese PROMS erhalten nicht nur wegen ihrer standardisierten Erhebung von patientenspezifischen Daten und somit der guten wissenschaftlichen Kommunikation von Behandlungsergebnissen Einzug in die moderne Medizin, sondern auch aufgrund des immer wachsenden Trends hin zur sog. „value-based medicine“ [9, 14, 46]. Dies bedingt die Verwendung von einheitlichen Messinstrumenten, die validierte und zuverlässige Daten erheben können, um eine möglichst exakte Darstellung von Behandlungsergebnissen zu ermöglichen.

Unter den zahlreichen fuß- und sprunggelenkspezifischen PROMS, die seit Anfang der 1990er Jahre Einzug in die Orthopädie fanden, war der AOFAS-Score der mit Abstand am meisten angewandte Fragebogen mit einer Verwendung in über 50 % aller Publikationen zwischen 2002 und 2011 [22]. Dies änderte sich jedoch im Jahr 2011, als die AOFAS ein Positionsstatement herausgab, in dem sie von der Verwendung ihres eigenen PROMs aufgrund von sich häufender Evidenz bzgl. der mangelnden Messqualität abriet [45]. Dies führte dazu, dass die Anwendung des AOFAS in der Fachliteratur über die nächsten Jahre deutlich abnahm, sodass bereits 2015/2016 der FFI, gefolgt vom FAOS und FAAM, der am meisten verwendete PROM in der Fuß- und Sprunggelenkchirurgie war [51]. Dies ist jedoch kritisch zu bewerten, da der FFI in der aktuellen wissenschaftlichen Literatur eine starke Heterogenität aufweist. Seine ursprüngliche Form von 23 Fragen, verteilt über 3 Dimensionen, wurde aufgrund unzureichender Messqualität mehrfach überarbeitet, sodass mittlerweile mindestens fünf verschiedene Versionen des FFI vorliegen [19, 27, 40, 57, 59]. Die deutsche Version, welche von Naal et al. überarbeitet und validiert wurde, zeigt mittelgradige bis hohe Korrelationen mit anderweitig häufig verwendeten PROMs wie dem SF-36 (Short-Form 36), der VAS-Schmerzskala sowie der UCLA(University of California at Los Angeles)-Aktivitätsskala. Während der deutsche FFI zwar eine robuste Validität und Reliabilität aufweist, gibt es derzeit weder Daten zu seiner Empfänglichkeit gegenüber longitudinalen Veränderungen der Fuß- bzw. Sprunggelenkfunktion noch MCID-Werte, um diese in den klinischen Kontext setzen zu können [40]. Aus diesen Gründen kann das AGA Research-Komitee derzeit keine Empfehlung für die Verwendung des FFI weder im klinischen noch im wissenschaftlichen Setting aussprechen. Dahingegen zeigen aber sowohl der FAOS als auch FAAM hohe Validität, Reliabilität und Empfänglichkeit mit kurzer Bearbeitungszeit und etablierten MCID-Werten, weshalb auch beide PROMs von der AOFAS empfohlen werden [25]. Aufgrund der besseren Messqualität, Differenzierung in Subkategorien und klaren Struktur, der Validierung für eine Vielzahl an Pathologien sowie der unter Fuß- und Sprunggelenkchirurgen höheren Bekanntheit bzw. präferierten Verwendung [60] empfehlen die Autoren dieser Arbeit jedoch die bevorzugte Nutzung des FAOS zur Erhebung der Fuß- bzw. Sprunggelenkfunktion (Tab. 2).

Tab. 2 Kritikpunkte der einzelnen Fuß- und Sprunggelenkscores

Wünschenswert sind PROMs, welche pathologiespezifisch die Funktionseinschränkungen des Patienten präzise evaluieren und darstellen können, wie etwa der WOSI (Western Ontario Stability Index) für glenohumerale Instabilitäten des Schultergelenks oder das Banff Patella Instability Instrument 2.0 für patellofemorale Instabilitäten des Kniegelenks [16, 24]. Diese Spezifizierung ist in der Fuß- und Sprunggelenkchirurgie aber noch deutlich limitiert, weshalb der von den Autoren empfohlene PROM nicht nach Pathologieerfassung klassifiziert werden kann. Zwar liegen beispielsweise mit dem OMAS (Olerud-Molander Ankle Score; [44]) und der AOS (Ankle Osteoarthritis Scale; [8]), eine Abwandlung des FFI, zwei pathologiespezifische PROMs vor, welche für die Darstellung der Behandlungsergebnisse nach Frakturen respektive Arthrose des Sprunggelenks validiert wurden. Da aber beide PROMs nicht in deutscher Sprache vorliegen, wurde an dieser Stelle auf eine tiefergehende Analyse verzichtet. Es ist jedoch anzumerken, dass der FAOS für eine Vielzahl von Fuß- und Sprunggelenkpathologen validiert wurde, inklusive den beiden häufigsten Entitäten: Arthrose und Sprunggelenkinstabilität [51].

Letztlich sei nochmals die Bedeutung der klinischen Relevanz betont, die mit Hilfe des MCID-Werts in den Kontext wissenschaftlicher Arbeiten gebracht werden kann. Das heißt, dass der statistische Vergleich von zwei verschiedenen PROM-Scores zwar einen p-Wert von unter 0,05 aufweisen kann und somit in der orthopädischen Fachwelt häufig als „statistisch signifikant“ bewertet wird, diese absolute Differenz jedoch unter dem MCID-Wert liegt und ein solcher Unterschied somit faktisch keine klinische Relevanz enthält. Unabhängig hiervon liegen noch viele Fehlanwendungen und -interpretationen statistischer Auswertungen in der aktuellen Fachliteratur vor [11]. Es sollte aber in unser aller Interesse sein, MCID-Werte – falls vorhanden – im Rahmen der statistischen Auswertung anzugeben, um so die klinische Relevanz unserer Ergebnisse zu erfassen. In den Worten von Leopold et al.: „Es ist das Mindeste, was wir tun können“ [31].

Fazit für die Praxis

  • Das Erheben von Behandlungsergebnissen sollte mit Hilfe standardisierter Fragebögen erfolgen, um so die wissenschaftliche Kommunikation und Auswertung zu vereinfachen.

  • Messinstrumente sollten in ihrer Gesamtheit verständlich, kompakt und in der jeweiligen Landessprache verfügbar sein, um so eine exakte und repräsentative Angabe des subjektiven Behandlungsergebnisses aus Patientensicht zu ermöglichen.

  • Jeder angewandte PROM muss für die jeweilige Pathologie validiert sein und möglichst alle wissenschaftlichen Qualitätskriterien bzgl. Reliabilität, Empfänglichkeit, Konsistenz und Boden- bzw. Deckeneffekte erfüllen.

  • Klinische Studien sollten sowohl einen fuß- und sprunggelenkspezifischen PROM (Empfehlung: FAOS) als auch einen für die allgemeine Lebensqualität (z. B. EQ-5D) beinhalten.

  • Die klinische Relevanz („minimal clinically important difference“, MCID) sollte immer Einzug in die Interpretation von klinischen Ergebnissen finden.