Die Beurteilung der Schulterfunktion stellt sowohl in Anbetracht der Vielzahl an Pathologien als auch angesichts der zahlreichen möglichen klinischen Symptome (z. B. Bewegungseinschränkung, Schmerz, Instabilität, Kraftdefizit) eine große Herausforderung für Scoringsysteme dar. Zudem besteht ein wesentlicher Unterschied darin, ob ein Score durch einen Untersucher erhoben wird oder ob die Patientenperspektive im Sinne einer Selbstbewertung erfolgt (Patientenfragebogen, „patient-reported outcome measure“ [PROM]). Während in der Vergangenheit der Fokus vorrangig auf untersucherbasierten Scores lag, ist die Bedeutung der PROMs nicht nur klinisch und akademisch, sondern auch gesundheitspolitisch immens gestiegen, etwa auch bei Diskussionen über die Vergütung.

Zur Beurteilung der Schulter existieren unzählige PROMs, deren uneinheitliche Verwendung den Vergleich zwischen unterschiedlichen Studien erschwert [29]. Daher wurden „core outcome sets“ (COS) definiert, welche ein vereinbartes Minimum an Outcomeparametern darstellen, die in allen Studien einer bestimmten Pathologie genutzt werden sollten [32]. Entsprechend sollen in der vorliegenden Arbeit die gängigen Schulter-PROMs evaluiert und Empfehlungen für deren Verwendung bei den unterschiedlichen Schulterpathologien gegeben werden.

Anforderungen an PROMs für klinische Studien

PROMs stellen Messinstrumente für Ergebnisse von Therapiemethoden dar. Um korrekte Daten mithilfe eines Scores zu erhalten, sollte dieser wesentliche qualitative Kriterien erfüllen. Hierfür wird auf den vorausgehenden Artikel des Research-Komitees der AGA von Herbst et al. [16] zu den Empfehlungen für Knie-Scores sowie die Checkliste der „Consensus-based standards for the selection of health measurement instruments“(COSMIN)-Initiative verwiesen [33].

Zusammenfassend sind bei einem Messinstrument folgende Eigenschaften von Bedeutung [44]:

  • Reliabilität: Wie präzise und zuverlässig ist die Messung?

  • Validität: Wird das Richtige gemessen?

  • Empfänglichkeit (Responsiveness): Können relevante Veränderungen des Gesundheitszustands über die Zeit nachgewiesen werden?

Des Weiteren sollten für das jeweilige Messinstrument Normdaten einer gesunden Vergleichspopulation verfügbar sein. Auch ist in der Auswahl eines PROMs die Anzahl an Fragen relevant, da diese nachvollziehbarerweise Einfluss auf die Rücklaufquote sowie die Vollständigkeit eines Fragebogens hat. Darüber hinaus müssen hinsichtlich der qualitativen Kriterien der Boden- („floor effect“) bzw. der Deckeneffekt („ceiling effect“) berücksichtigt werden. Dies bedeutet, dass bei einem Score entweder überdurchschnittlich viele Teilnehmer die niedrigste (Boden) oder die höchste (Decke) Punktezahl erreichen und somit für diese Populationen relevante Veränderungen oder Unterschiede an den jeweiligen Extremen nicht adäquat gemessen werden können [44]. Zudem kann ein Gruppenunterschied zwar statistisch signifikant sein, jedoch stellt sich die Frage, ob dies ebenfalls aus der Perspektive des Patienten einen klinisch relevanten Unterschied darstellt. Daher soll nochmals auf 2 Merkmale von Messinstrumenten hingewiesen werden, die bei der Konzeption von Studien unbedingt berücksichtigt werden sollten und beim Lesen sowie für das Verständnis von Originalartikeln immer mehr an Bedeutung gewinnen:

  1. 1.

    Die „minimal clinically important difference“ (MCID) stellt die kleinste Veränderung in einem PROM dar, die mit einer klinisch bedeutsamen Veränderung für den Patienten assoziiert ist, sei es ein Unterschied zwischen verschiedenen Behandlungsgruppen oder innerhalb einer Gruppe zu unterschiedlichen Zeitpunkten [24, 25].

  2. 2.

    Der „patient acceptable symptom state“ (PASS) stellt das PROM-Level dar, bei dem der Patient noch Wohlbefinden äußert [31].

Eine Verbesserung gemäß des MCID-Maßstabs bedeutet „besser fühlen“, während das Erreichen des PASS „gut fühlen“ bedeutet.

Empfehlungen für Schulter-PROMs

Ziel dieser Arbeit des Research-Komitees der AGA war es, unter Berücksichtigung der verschiedenen Kriterien, Empfehlungen für die Verwendung von bestimmten PROMs auszusprechen. Dabei galt es, für die Hauptpathologien jeweils nur einen PROM zu empfehlen, da etwa auch bei der Konzipierung prospektiver Studien ein primärer Outcomeparameter festzulegen ist. In der vorliegenden Übersicht erfolgte dies für die Bereiche Omarthrose/Schulterendoprothetik, Rotatorenmanschette/Subakromialraum, glenohumerale Instabilität und die Region um die Klavikula. Diese sollten keinesfalls als apodiktische Festlegungen, sondern als Empfehlungen angesehen werden, die auf den genannten Anforderungen beruhen.

Bezüglich der genannten MCID-Werte ist zu berücksichtigen, dass sich die Daten in der Literatur – wie dies auch schon bei den Knie-PROMs festzustellen war – mit einer größeren Streubreite publiziert sind, so dass die Autoren der vorliegenden Arbeit die jeweilige Spanne aufgeführt haben.

Omarthrose/Schulterendoprothetik

Constant-Murley-Score (CMS)

Der CMS ist einer der am häufigsten verwendeten Schulter-Scores und wird im europäischen Sprachraum nahezu als Goldstandard für die meisten Schulterpathologien verwendet [17]. Er besteht aus 4 Kategorien:

  1. 1.

    Schmerz (15 Punkte),

  2. 2.

    Aktivitäten des täglichen Lebens (20 Punkte),

  3. 3.

    Bewegungsumfang (40 Punkte),

  4. 4.

    Kraft (25 Punkte).

Die beiden letzteren Aspekte wurden in der ursprünglichen Version nicht vom Patienten berichtet, sondern vom Untersucher beurteilt. Die aktuellen Versionen erlauben die Selbstevaluation durch den Probanden, indem für die Bewegungsumfänge im Fragebogen Abbildungen hinterlegt sind und die Messung der Kraft mit Hilfe von 1 l Tetra-Paks und eines Umrechnungsfaktors von 2,20 erfolgt [3]. Je höher die Punktezahl, umso besser die Schulterfunktion, mit einer maximalen Punktezahl von 100 Punkten [8].

Der CMS kann Verbesserungen der Schulterfunktion mit hoher Reliabilität detektieren

Aufgrund der langen Historie seit der Erstpublikation 1987 und der einfachen Anwendbarkeit wird der CMS sehr häufig verwendet, so dass ein wesentlicher Vorteil darin liegt, dass moderne Behandlungsmethoden mit zahlreichen anderen Studien verglichen werden können. Der CMS kann Verbesserungen der Schulterfunktion nach Behandlungen und Interventionen mit hoher Reliabilität detektieren [1]. Die geringe Standardisierung der Kraftmessung und die Notwendigkeit der klinischen Nachuntersuchung stellen einen wesentlichen Kritikpunkt dar [41]. Um eine bessere Vergleichbarkeit herzustellen, wird für die Kategorie „Kraft“ die Anpassung nach Alter und Geschlecht durchgeführt [3, 7, 43]. Hierzu bieten sich die jeweils für die deutsche [45] und für die Schweizer Population [47] beschriebenen Referenzwerte an. Des Weiteren wurde durch Boehm et al. ein deutschsprachiger Fragebogen entwickelt, der die oben erwähnte komplette Selbsterhebung des CMS durch den Patienten zulässt [3].

Die Ergebnisse des Patientenfragebogens korrelierten dabei (r = 0,82) signifikant mit dem ärztlichen Fragebogen. Die Zuverlässigkeit ist mit einer Test-Retest-Reliabilität von r = 0,675 (p < 0,0001) sowie mit einer internen Konsistenz des Fragebogens von 0,80 und derjenigen des Arztbogens von 0,85 nachgewiesen. Eine wesentliche Limitation des CMS ist, dass damit Schulterinstabilitäten nicht evaluiert werden können [26]. Die ermittelte MCID für die Omarthrose beträgt 5,7 Punkte [9]. Für den PASS des CMS bei Omarthrose beschreiben Sciascia et al. einen Punktwert von 73 [39].

Rotatorenmanschettenläsion/Subakromialraum

Es existieren nur wenige empfohlene Scores spezifisch für den Bereich der Rotatorenmanschette. Nur 2 Messinstrumente sind extern, sprich in Einrichtungen außerhalb der erstbeschreibenden Arbeitsgruppe, validiert worden: der Western Ontario Rotator Cuff Index (WORCI) und der Rotator Cuff Quality-of-Life Measure (RC-QOL; [19]). Von letzterem liegt keine validierte deutsche Übersetzung vor.

Western Ontario Rotator Cuff Index (WORCI)

Der WORCI wurde speziell für Pathologien der Rotatorenmanschette und auch des Subakromialraums (Impingement, Tendinosis calcarea) erstellt. Er besteht aus 21 Fragen, aufgeteilt auf 5 Dimensionen: körperliche Symptome, Sport/Freizeit, Arbeit, Lebensstilfunktion und Emotion. Ein Rohwert von 0 (bzw. 100 %) spiegelt das bestmögliche und ein Rohwert von 2100 (bzw. 0 %) das schlechtmöglichste Ergebnis wider [28]. Der WORCI weist eine hohe interne Konsistenz (Cronbachs α: 0,95) sowie eine hohe untersucherunabhängige Reliabilität und eine gute Empfindlichkeit auf [46]. Die deutsche Version weist mit einer Korrelation von r = 0,96 eine hervorragende Test-Retest-Reliabilität auf [22]. Gagnier et al. ermittelten eine MCID von 282,6 Punkten, was einem prozentualen Unterschied von 13,5 % entspricht [13].

Glenohumerale Instabilität

Western Ontario Shoulder Instability Index (WOSI)

Angesichts der bis dahin mangelhaften Validität anderer Schulter-Scores (z. B. des CMS) zur Beurteilung des Symptoms „Instabilität“ stellt der von Kirkley und Kollegen 1998 veröffentlichte WOSI einen spezifisch für die Instabilität entwickelten PROM dar [30]. Mit insgesamt 21 Fragen werden 4 Kategorien vom Patienten abgefragt: 1. körperliche Beschwerden, 2. Sport, Freizeit und Arbeit, 3. Alltag und 4. Emotion, welche auch die Lebensqualität erfassen. Der PROM wurde als reliabel und valide bewertet [12, 15, 18]. Die deutschsprachige Version verwendet die Gewichtung der Antworten mittels einer numerischen Skala von 0 bis 10 anstelle der ursprünglichen optischen Einteilung auf einer 100 mm langen visuellen Analogskala [12]. Der MCID des WOSI in Bezug auf eine Instabilität des Glenohumeralgelenks wird in der Literatur von 60,7 bis 220 Punkten (maximal 2100 Punkte) angegeben, welche einem prozentualen Unterschied von 2,9 % bis 10,5 % entspricht [30, 34]. Bei einer Spanne von 0 (bestes Ergebnis) bis 2100 Punkten (schlechtestes Ergebnis) wurde für den PASS ein Punktwert von 620 ermittelt [20].

Die Klavikula und ihre angrenzenden Gelenke

Für Pathologien der Klavikula bzw. des Akromioklavikulargelenks (ACG) sowie des Sternoklavikulargelenks (SCG) weisen die gängigen PROMs generell eine zu geringe Sensitivität zur Erfassung klinischer Veränderungen auf. Daher bietet sich die Verwendung von PROMs an, die speziell für diese anatomische Region und ihre Pathologien entwickelt wurden. Während für den Taft-Score [42] und den Acromioclavicular Joint Injury (ACJI) Score [37] die klinische Untersuchung und standardisierte Röntgenaufnahmen notwendig sind, wurden kürzlich 2 PROMs publiziert und validiert, die ausschließlich durch den Patienten ausgefüllt werden: der Specific AC Score (SACS) und der Nottingham Clavicle Score (NCS).

Der Specific AC Score (SACS) besteht aus 20 Fragen nach Schmerz, Funktion und Lebensqualität und weist eine akzeptable interne Konsistenz, eine exzellente Responsiveness und hohe Reliabilität auf, dient jedoch nur der Beurteilung des ACG [2].

Der NCS ist für Pathologien der Klavikula, des ACG und SCG evaluiert

Charles und Kollegen entwickelten den Nottingham Clavicle Score (NCS), der aus 10 Fragen zu den Themen Schmerz, Belastbarkeit und Gefühl besteht. Er ist für Pathologien sowohl der Klavikula als auch von ACG und SCG evaluiert [6]. Im Vergleich mit u. a. dem CMS, dem Oxford Shoulder Score und dem EuroQol 5 dimension health outcome survey (EQ-5D) demonstrierte der NCS signifikante Korrelationen und zeigte die höchste Effektgröße (1,92) sowie eine hohe interne Konsistenz (Cronbachs α > 0,87). Aufgrund dieser hervorragenden Eigenschaften und seiner vielseitigen Einsetzbarkeit (chronische und akute Instabilitäten von ACG und SCG, Klavikulafrakturen/-pseudarthrosen) ist der NCS zu empfehlen. Zudem wurde jüngst eine validerte deutsche Version publiziert [38]. Der Vergleich beider Scores steht noch aus. Zudem sind jeweils weder die MICD noch der PASS bestimmt worden.

Diskussion

Zur entsprechenden Evaluation der Funktion bzw. der Einschränkungen der Schulter existieren unzählige PROMs. PROMs bewerten die Behandlungsqualität aus der Patientenperspektive zu einem definierten Zeitpunkt. Somit kann anhand prä- und postoperativer Anwendung der PROMs nach operativen Therapien eine potenzielle Verbesserung des Gesundheitszustands ermittelt und quantifiziert werden.

Für die klinische und wissenschaftliche Anwendung hat sich das Research-Komitee der AGA unter Berücksichtigung der relevanten Kriterien auf die Scores geeinigt, welche in Tab. 1 zusammengefasst sind.

Tab. 1 Zusammenfassende Übersicht der Empfehlungen für Schulter-Scores des Research-Komitees der AGA – Gesellschaft für Arthroskopie und Gelenkchirurgie

So sollten für die vorliegende Auswahl zahlreiche Faktoren erfüllt sein, u. a. hinsichtlich der Gütekriterien. Auch sollte der Score extern validiert sein und eine validierte deutsche Fassung vorliegen. Zudem sollten der PASS und vor allem auch der MCID bekannt sein. Mit Hilfe der MCID eines Scores kann ermittelt werden, ob eine gemessene Veränderung tatsächlich einen Benefit für den Patienten darstellt. Des Weiteren können MCID-Werte zukünftig für prospektive Studien zur Fallzahlplanung herangezogen werden, denn der Fokus verschiebt sich zunehmend von statistischer Signifikanz hin zu klinischer Relevanz [5].

Die Vielzahl der Anforderungen an einen Score erklärt, warum einige etablierte bzw. bekannte PROMs nicht ausgewählt wurden. So wurde traditionell der Rowe-Score bei Instabilitäten verwendet. Auf Grund zahlreicher Nachteile wird er jedoch zunehmend weniger angewandt. Hier sind vor allem Schwächen bezüglich Konstruktvalidität, Reliabilität und Interobserver-Agreement zu nennen [40]. Dahingegen bietet der – im angloamerikanischen Raum wohl am häufigsten verwendete – ASES-Score (American Shoulder and Elbow Surgeons) zwar durchgehend gute bis exzellente Gütekriterien, jedoch ist er zu einem wesentlichen Anteil untersucherabhängig [4]. Ebenso ist der CMS zwar originär aufgrund der Kategorien „Bewegungsumfang“ und „Kraft“ teilweise untersucherbasiert, jedoch erlaubt die seit fast zwei Dekaden etablierte und validierte deutschsprachige Version von Boehm et al. die gänzliche Erhebung durch den Patienten selbst [3]. Sciacia et al. untersuchten vier häufig eingesetzte Messinstrumente (u. a. CMS und ASES) zur Beurteilung der Omarthrose sowie der Therapie mittels Schulterendoprothetik an 234 Patienten mit einem Nachuntersuchungszeitraum von 5 Jahren. Hierbei zeigte sich der CMS bezüglich Validität und Responsiveness überlegen, zudem wiesen die anderen Scores einen deutlichen Deckeneffekt auf [39]. Entsprechend schlugen die Autoren ebenfalls den CMS als primären PROM für diese Patientengruppe vor.

Für die Pathologien des Subakromialraums stellt der WORCI aus der Sicht der Autoren den geeignetsten PROM dar: vom Impingement-Syndrom bis zur Massenruptur der Rotatorenmanschette. Huang et al. untersuchten in einer systematischen Übersichtsarbeit die Eigenschaften von 16 PROMs für Patienten mit Erkrankungen der Rotatorenmanschette [21]. Der CMS, der DASH und der Shoulder Pain and Disability Index (SPADI) wurden zwar am häufigsten verwendet, jedoch zeigte der WORCI von allen 16 untersuchten PROMs die beste Gesamtqualität hinsichtlich der psychometrischen Eigenschaften mit guter Reliabilität, Validität und Responsiveness. Als einzige Limitation ist zu nennen, dass der Literatur noch kein PASS für den WORCI zu entnehmen ist.

Für Pathologien des Subakromialraums ist der WORCI am besten geeignet

Wenige Scores sind für die spezielle Pathologie „glenohumerale Instabilität“ konzipiert oder geeignet [11]. Diesbezüglich zeigt sich der ausgewählte WOSI ebenfalls dem CMS, dem ASES und anderen Scores in vielerlei Hinsicht überlegen: Es existiert eine validierte deutsche Version mit hoher interner Konsistenz und exzellenter Test-Retest-Reliabilität ohne Vorliegen von Boden- oder Deckeneffekten [12]. Zudem stehen sowohl MCID als auch PASS für den WOSI fest. Vor allem wird – wie bei allen Scores der Western-Ontario-Gruppe – auch die schulterassoziierte Lebensqualität erfasst.

Während das traditionell bestehende Defizit an Messinstrumenten für die glenohumerale Instabilität in den letzten Jahren somit adressiert werden konnte, verbleibt weiterhin ein Mangel an adäquaten PROMs für die Klavikula, das SCG und das ACG. Vor allem das ACG ist in der letzten Dekade angesichts der Häufigkeit von Erkrankungen bzw. Verletzungen sowie der rasanten Entwicklung minimal-invasiver Operationsmöglichkeiten in den wissenschaftlichen Fokus gerückt. Reintgen et al. stellten in einer systematischen Übersichtsarbeit über 92 Studien zum ACG fest, dass der CMS zwar am häufigsten angewendet wurde, nämlich bei 75 % der Studien, jedoch impliziert dies nicht zwangsläufig, dass es das geeignetste Messinstrument für das ACG darstellt [36]. So weisen etwa Patienten mit hochgradigen ACG-Instabilitäten mitunter vergleichbare Werte zu gesunden Probanden im CMS auf. Dieser und andere Scores berücksichtigen nicht die typischen Symptome, wie etwa Druckschmerz über dem ACG, schmerzhafte Blockaden des Gelenks oder den kosmetischen Aspekt. Die spezifischeren PROMS (NCS und SACS) können diese Beschwerden besser abbilden, wobei der NCS angesichts einer mittlerweile vorliegenden validierten deutschen Version, mit nur 10 Fragen (vs. 20 Fragen beim SACS) und der Anwendbarkeit für Klavikula, ACG und SCG am geeignetsten erscheint [6]. Sowohl MCID als auch PASS müssen in Zukunft jedoch noch ermittelt werden.

Darüber hinaus ist festzustellen, dass seltenere Pathologien der Schulter, wie etwa Erkrankungen der Skapula bzw. Skapuladyskinesien, durch keinen spezifischen Score abgebildet sind. Für die Pathologien der langen Bizepssehne ist kürzlich durch Kerschbaum et al. ein Score vorgestellt worden, der jedoch noch weiterer Validierung bedarf [27].

Unabhängig von den vorgenannten Messinstrumenten sollte noch auf die Bedeutung der Bewertung der allgemeinen Lebensqualität mit dem EQ-5D hingewiesen werden, der in unserem vorausgehenden Artikel zu den Knie-PROMs bereits ausführlich vorgestellt und erläutert wurde [16]. Der EQ-5D besteht aus 5 Kategorien:

  1. 1.

    Mobilität,

  2. 2.

    Fähigkeit, für sich selbst zu sorgen,

  3. 3.

    alltägliche Aktivitäten,

  4. 4.

    Schmerzen und Beschwerden,

  5. 5.

    Angst.

Er gilt als gängigstes Instrument zur Beurteilung der allgemeinen Lebensqualität [35].

Abschließend ist zu diskutieren, ob zur Beurteilung der schulterassoziierten Lebensqualität bei der Konzeption von Studien zusätzliche weitere allgemeine Schulter-PROMs als sekundäre Outcomeparameter genutzt werden sollten. Hier sind vor allem der Subjective Shoulder Value (SSV; [14]), der Oxford Shoulder Score (OSS; [10]) und der Disability of the Arm, Shoulder and Hand (DASH) Score [23] hervorzuheben. Diese Scores sind seit langer Zeit in Gebrauch, weit verbreitet und weisen besonders geeignete Gütekriterien auf. Ein solches Vorgehen wurde in der Autorengruppe kontrovers diskutiert: Zwar kann eine höhere Zahl von geeigneten PROMs bei der Konzeption von Studien die internationale Vergleichbarkeit mit anderen Arbeiten erhöhen und sich daher während des Peer-Review-Prozesses eines abschließenden Manuskripts als vorteilhaft darstellen. Andererseits kann eine inflationäre Anzahl an PROMs, die immerhin zu jedem Nachuntersuchungszeitpunkt bei jedem Patienten erhoben werden müssen, bei diesen einen negativen Einfluss auf die Motivation zur Mitwirkung haben und somit auch auf die Rücklaufquote. Dieser Aspekt sollte bei jeder Studienplanung berücksichtigt werden.

Jedoch auch über den akademischen Einsatz hinaus wird die Bedeutung von PROMs sowohl klinisch als auch gesundheitspolitisch in Zukunft sicherlich weiter deutlich zunehmen, nicht nur in der Schulterchirurgie, sondern in der gesamten Orthopädie und Unfallchirurgie.

Fazit für die Praxis

  • Ein PROM sollte wissenschaftliche Kriterien (u. a. Reliabilität, Validität, Responsiveness) erfüllen, und es sollte eine in der jeweiligen Landessprache validierte Version verfügbar sein.

  • Klinische Studien sollten als primäre Outcomeparameter ein geeignetes PROM anwenden.

  • Hierfür eignen sich bezüglich der Hauptpathologien des Schultergelenks der Constant-Murley-Score (CMS) für Omarthrose/Schulterendoprothetik, der Western Ontario Rotator Cuff Index (WORCI) für subakromiale Pathologien und Rotatorenmanschettenläsionen sowie der Western Ontario Stability Index (WOSI) für glenohumerale Instabilitäten.

  • Für die Klavikula, das Sternoklavikular- und das Akromioklavikulargelenk erscheint der Nottingham Clavicle Score (NCS) der am besten geeignete PROM, jedoch stehen die Bestimmung von MCID und PASS noch aus.

  • Als ergänzender Outcomeparameter bietet sich der EQ-5D für die allgemeine Lebensqualität an.

  • Studienergebnisse sollten nicht nur hinsichtlich der statistischen Signifikanz, sondern v. a. der klinischen Relevanz interpretiert werden („minimal clinically important difference“ [MCID] und „patient acceptable symptom state“ [PASS]).