FormalPara Originalpublikation

Sasaki S, Kitaguchi D, Takenaka S et al (2023) Machine learning-based automatic evaluation of tissue handling skills in laparoscopic colorectal surgery: a retrospective study. Ann Surg 278(2):e250–e255.

FormalPara Ziele und Hintergrund.

Die laparoskopische Chirurgie gewinnt zusehends an Prävalenz in vielen Bereichen der Viszeralchirurgie. Diese Methode ist mit einer schnellen Patientenerholung assoziiert, jedoch hängt das chirurgische Outcome stark vom Ausbildungsgrad und dem technischen Geschick des Chirurgen ab. Die chirurgische Ausbildung bedarf objektiver und quantitativer Evaluationsmodule der chirurgischen Fertigkeiten. Intraoperative Blutungen sind durch Gewebsverletzungen bedingt. Das Ausmaß dieser Blutungen lässt Rückschlüsse auf die chirurgischen Fertigkeiten und die intraoperative Gewebsbehandlung zu. Bei etablierten chirurgischen Evaluierungsmethoden wie „Objective Structured Assessment of Technical Skills“ (OSATS; [1]) und „Global Operative Assessment of Laparoscopic Skills“ (GOALS; [2]) sind die unzureichende quantitative Beurteilung der technischen Fähigkeiten sowie der Gewebsbehandlung durch den Chirurgen limitierend. Andere Evaluationssysteme wie „Observational Clinical Human Reliability Analysis“ (OCHRA) sind zeitintensiv und basieren auf der Expertenbeurteilung von uneditierten Videos in Bezug auf intraoperativen Blutverlust [3]. Diese Studie versuchte, ein lernbasierendes Modell zu entwickeln, das auch kleinere Gewebeblutungen in Operationsvideos erkennen und quantifizieren kann. Über die gemessenen Indizes soll eine Evaluation der chirurgischen Fertigkeiten sowie der Technik der Gewebsbehandlung durch den Chirurgen ermöglicht werden.

FormalPara Methode.

Studiendesign: Machine-Learning-basierte Blutpixel-Klassifikation. Aus 28 laparoskopischen kolorektalen Operationsvideos von verschiedenen japanischen Institutionen wurden 504 Blutungsareale und 504 nichtblutende Areale als Fotos extrahiert und für das Machine Learning als Klassifikationsmodell verwendet. Aus den Bildern wurden RGB-Werte ermittelt, welche eine Ratio der Primärfarben Rot (R), Grün (G) und Blau (B) repräsentieren. Die 3 Primärfarben können jeweils 256 verschiedene Helligkeitsstufen darstellen, wodurch 16.777.126 verschiedene Farbtöne resultieren. Die RGB-Werte aller Areale wurden analysiert und in 3 Datensätze geteilt: Training, Validation und Testung des Algorithmus. Overall Accuracy, Sensitivität und Spezifität wurden wie folgt berechnet:

$$\text{Overall accuracy}=\frac{TP+TN}{TP+FP+TN+FN}$$
(1)
$$\text{Sensitivity}=\frac{TP}{TP+FN}$$
(2)
$$\text{Specificity}=\frac{TN}{FP+TN}$$
(3)
TP =:

Blutpixel vorhanden, richtig klassifiziert

TN =:

Keine Blutpixel vorhanden, richtig klassifiziert

FN =:

Blutpixel vorhanden, falsch als nicht vorhandene Blutpixel klassifiziert

FP =:

Keine Blut Pixel vorhanden, falsch als vorhandene Blutpixel klassifiziert

Videodaten für die Beurteilung der chirurgischen Fertigkeiten: Die Videos zur Beurteilung der chirurgischen Fertigkeiten waren Operationsvideos von laparoskopischen Sigmaresektionen aus japanischen Zentren, welche zwischen 2016 und 2017 an das Endoskopic Surgical skill Qualification System (ESSQS) eingereicht wurden. Details der ESSQS-Evaluationskriterien können unter Supplementary Table 1, Supplemental Digital Content 1, http://links.lww.com/SLA/E310 nachgelesen werden. Bei ESSQS bewerteten 2 Experten die Qualität der Gewebsbehandlung, woraus die Unterteilung in „high tissue handling“ und „low tissue handling“ erfolgte. Zusätzlich werden bei ESSQS weitere chirurgische Fähigkeiten (Operationsgebiet, Effizienz, Autonomie) beurteilt, wodurch über den Gesamtscore und die Standardabweichung eine „+2 SD“-Gruppe und eine „−2 SD“-Gruppe klassifiziert wurde. Als 3. Gruppe („Novizengruppe“) wurden Videos von Chirurgen mit unter 5 laparoskopischen Eingriffen gewertet. Anschließend wurden die Unterschiede der Blutpixelzahl zwischen den 3 Gruppen analysiert. Es wurde die Hypothese aufgestellt, dass damit Unterschiede in der Qualität der Gewebsbehandlung nachgewiesen werden können. Weiters wurde der Index angewandt, um Unterschiede bezüglich der gesamtchirurgischen Fertigkeiten zwischen den einzelnen Gruppen nachzuweisen. Auch der konventionell dokumentierte „geschätzte Blutverlust“ wurde mit der Qualität der Gewebsbehandlung verglichen. Hier wurde die Hypothese aufgestellt, dass keine Unterschiede gefunden werden, da die gesamtchirurgischen Fertigkeiten nicht nur durch die Gewebsbehandlung, sondern durch zusätzliche Faktoren bedingt sind.

Statistik: Quantitative Daten sind als Durchschnitt (Standardabweichung) präsentiert. Für 2‑Gruppen-Vergleiche wurden t‑Tests und für 3‑Gruppen 1‑way-ANOVA verwendet. Wenn mittels 1‑way-ANOVA eine Signifikanz vermutet wurde, erfolgte ein Each-between-group-post-hoc-Vergleich mit der Tukey-Methode. Alle Tests wurden zweiseitig durchgeführt, mit einem Signifikanzlevel von p < 0,05. Alle statistischen Analysen wurden mit EZR (Saitama Medical Center, Jichi Medical University) durchgeführt [4].

FormalPara Ergebnisse.

Machine-Learning-basierte Blutpixel-Klassifikation: Insgesamt wurden 1008 Bilder aus den 28 analysierten Operationsvideos extrahiert. Die Bilder enthielten 23.736 blutige Pixel und 20.994 unblutige Pixel. Das Trainingsdatenset bestand aus 34.988 Pixel von 20 Fällen, das Validationsdatenset aus 4606 Pixel von 4 Fällen und das Testdatenset aus 5136 Pixels von 4 Fällen. Die Overall Accuracy des Machine-Learning-Modells betrug 85,7 %. Die Sensitivität lag bei 99,9 % und die Spezifität bei 72,7 %.

Automatische Evaluation der Qualität der Gewebebehandlung: Es wurden 60 Videos von der „High-tissue-handling“-Gruppe, 55 von der „Low-tissue-handling“-Gruppe sowie 36 von der Novizengruppe analysiert. One-way-ANOVA zeigte signifikante Unterschiede zwischen den einzelnen 3 Gruppen bezüglich der Blutpixelzahl pro Feld („high tissue handling“ 20.972,23 [19.287,05] vs. „low tissue handling“ 34.473,42 [28.144,29] vs.. Novizengruppe 50.630,04 [42.427,76]; p < 0,01). Auch die paarweisen Vergleiche zeigten signifikant weniger Blutpixel in der Gruppe „high tissue handling“ als in der Gruppe „low tissue handling“ oder der Novizengruppe. Auch die „Low tissue handling“-Gruppe zeigte signifikant weniger Blutpixel als die Novizengruppe.

Korrelation zwischen Blutpixelzahl per Feld und gesamtchirurgischem Skills-Score. Siebzehn Videos der Gruppe „+2 SD“- und 20 Videos von der „−2 SD“-Gruppe wurden hierfür verwendet. Es finden sich keine signifikanten Unterschiede zwischen den Blutpixelzahlen pro Feld zwischen den Gruppen (p = 0,267), folglich keine Korrelation zwischen Blutpixelzahl pro Feld und chirurgischem Skill-Score.

Korrelation zwischen Blutverlust und Gewebsbehandlungsscore. Der geschätzte Blutverlust zeigte keinen signifikanten Unterschied zwischen den einzelnen Gruppen (p = 0,461). Darauf basierend korrelierte der konventionell geschätzte Blutverlust nicht mit der Qualität der Gewebshandlung.

FormalPara Diskussion.

Die Autoren konnten die erfolgreiche Etablierung eines Machine-Learning-Systems zur objektiven und quantitativen Evaluation unterschiedlicher Gewebebehandlungsfertigkeiten basierend auf Blutpixel bei laparoskopischen Kolorektaleingriffen zeigen. Die Blutpixelzahl war signifikant niedriger bei Chirurgen mit besserem Gewebshandling. Die Autoren konkludieren, dass dieses Modell potenzielle Gewebeschäden und Blutungen bedingt durch inadäquates Handling nachweisen kann und so auf die Fertigkeiten der Chirurgen rückgeschlossen werden kann. Der Vergleich bezüglich Gesamtscores zwischen +2 SD-Gruppe und −2 SD-Gruppe und Novizen zeigte keine Unterschiede in Blutpixelzahl pro Feld zwischen den einzelnen Gruppen. Da sich die chirurgischen Fertigkeiten aus verschiedenen Faktoren zusätzlich zum Gewebshandling zusammensetzen, vermuten die Autoren, dass durch die Auswahl der Gruppierung der Operationsvideos diese Signifikanz verlorengegangen ist. Auch der Blutverlust korrelierte weder mit dem Gewebshandling, noch den gesamtchirurgischen Fertigkeiten. Hier vermuten die Autoren, dass aufgrund des geringen Blutverlusts bei laparoskopischen Operationen keine Unterschiede mehr zu detektieren sind. Die Zuverlässigkeit des Scores in der Studie basiert auf Evaluation von Operationsvideos durch Experten der Japan Society for Endoscopic Surgery. Erfahrene Chirurgen validieren (reviewen) zahlreiche Operationsvideos für die ESSQS mittels aufwendigen Prozessen. Daher ist ein brauchbares automatisches und auch zeitsparendes Evaluationssystem wünschenswert, um chirurgische Standards zu validieren und schlussendlich auch zu verbessern. Als limitierend erwähnen die Autoren die nicht besonders hohe Accuracy des Maschine-Learning-Modells. Weiters handelt es sich um eine retrospektive Studie mit einem Selektionsbias bezüglich der Gruppeneinteilung der chirurgischen Fertigkeiten. Zudem merken die Autoren auch die geringe Fallzahl an und schlagen den Vergleich ihrer Ergebnisse mit etablierten Validierungstools wie OSATS oder GOALS vor.

Kommentar

Diese Studie beschäftigt sich mit der Entwicklung eines Machine-Learning-basierten Modells zur objektiven Evaluierung der chirurgischen Fertigkeiten. Hierbei gelingt es laut den Autoren, mit dem entwickelten Modell anhand von Blutpixel aus laparoskopischen Operationsvideos bei kolorektalen Eingriffen in objektiver Weise ChirurgInnen quantitativ zu beurteilen.

Von den Autoren angeführte etablierte Evaluierungstools wie OSATS und GOALS bewerten zwar auch das Gewebshandling, diese sind aber oft subjektiv, unterliegen einem Bias und sind häufig auch sehr aufwendig. Zur quantitativen Evaluation wird, wie schon in der OCHRA-Analyse gezeigt, von Blutungsevents auf Gewebsmanipulationsfehler rückgeschlossen. Die Kritik an der OCHRA-Analyse ist, dass die Evaluation über den geschätzten Blutverlust erfolgte und dabei kleinere Gewebesickerblutungen, die auf schlechter Gewebsbehandlung basieren, nicht berücksichtigt wurden.

Prinzipiell ist eine objektive Analyse von Operationsvideos zur Qualitätsverbesserung von chirurgischen Eingriffen sehr wünschenswert und für jegliches Ausbildungsniveau zu empfehlen.

Die Methodik des Papers ist leider sehr komplex formuliert und nicht ganz schlüssig dargestellt. In der Arbeit wird nicht genau erklärt, wie die initialen Learning-Videos standardisiert wurden. Hier wäre es meiner Meinung nach sinnvoll, genaue anatomische Lokalisationen bei definierten kritischen Operationsschritten (wie Mobilisierung der linken Flexur, Aufsuchen der V. mesenterica inferior am Unterrand des Pankreas, Absetzungsstelle der A. mesenterica inferior, Mobilisierung nach lateral unter Schonung des Ureters auf Höhe des Sigmas etc.) zu standardisieren, an denen die Bilder zur Evaluation der Blutungspixel gewählt werden.

Auch die Definition des Validierungsdatensets ist nicht genau beschrieben. Es ist nicht klar, wie die Auswahl als Trainings‑, Validierungs- und Testdatenset erfolgte. Insgesamt ist die Overall Accuracy des Machine-Learning-Modells mit mehr als 85 % in Ordnung, die Spezifität von 72,7 % ist als eher niedrig anzusehen. Auch die geringe Fallzahl an Operationsvideos wird schon von den Autoren selbst als limitierend angeführt.

Die Einteilung in „hohe“ und „niedrige“ Gewebsbehandlungsgruppe bzw. „Novizen“ ist ebenfalls schwer nachvollziehbar. Die weitere Aufteilung in Chirurgen mit ESSQS-Gesamtscore +2 SD und −2 SD sowie Novizen zur Evaluierung der Blutpixel pro Bild ist unklar und verwirrend.

Die Ergebnisse zeigen sehr deutlich (signifikant) ein besseres Gewebshandling durch erfahrene Chirurgen, resultierend in weniger Blutverlust anhand der Blutpixelzahl pro Bild. Dies zeigt sich interessanterweise jedoch nicht mehr in der weiteren Analyse bezüglich der Korrelation gesamtchirurgischer Fertigkeiten und der Blutpixelzahl pro Bild. Dies wird von den Autoren nur sehr oberflächlich diskutiert und der Vielzahl an chirurgischen Zusatzfaktoren zugeschrieben. Die Komplexität der Evaluierung von chirurgischen Fertigkeiten ist sehr gut im Review von Ibrahim und Dimick zusammengefasst [5].

Empfehlung

Es handelt sich prinzipiell um einen tollen Zugang, um die Operationsqualität anhand von objektiv zu quantifizierenden Parametern zu evaluieren. Diese Studie ist ein richtiger und wichtiger Schritt, welcher in größeren Fallzahlen und klareren Evaluierungszeitpunkten fortgesetzt werden muss.