Einleitung

„Correctional Offender Management Profiling for Alternative Sanctions“ (COMPAS, „Profile zur Verwaltung von Straftäter*innen für alternative Sanktionen“, Übers. d. Autors) ist ein Computerprogramm, das in den USA zur Risikobeurteilung im Bereich der Strafjustiz eingesetzt wird. In den USA und in der Informatik wird COMPAS, insbesondere in Bezug auf Fairness, breit diskutiert. Erstaunlicherweise wird diese Diskussion in deutschsprachigen Foren zur Risikobeurteilung in der Strafjustiz nicht stark rezipiert; so ergibt etwa eine Volltextsuche in dieser Zeitschrift keinen Treffer für „COMPAS“ und andere relevante Schlagwörter. Dieser Artikel soll dazu beitragen, diese Lücke zu füllen. Dazu wird zuerst die Geschichte von COMPAS skizziert, die Funktionsweise dieses Risikobeurteilungsinstruments (RBI) zusammengefasst und dargestellt, wie COMPAS in den USA eingesetzt wird. Es folgt ein Abriss zur Debatte über COMPAS, die durch ProPublica, eine Non-Profit-Organisation für investigativen Journalismus, angestoßen wurde. Dabei werden die drei Aspekte Fairness, Transparenz und Datensätze genauer betrachtet. Schließlich wird überlegt, welche Lehren man aus der Debatte über COMPAS für den deutschsprachigen Raum und für die Strafjustiz ziehen kann.

COMPAS im Überblick

COMPASFootnote 1 wurde zuerst 1998 entwickelt und ist ein RBI in der aktuarischen Tradition.Footnote 2 Die Motivation für die Entwicklung von COMPAS war gemäß den Entwickler*innen, dass COMPAS im Vergleich zu älteren RBI mehr Faktoren berücksichtigt, die theoretisch relevant für das Rückfallrisiko sind.Footnote 3 Das wichtigste Ziel von COMPAS ist die Vorhersage des Rückfallrisikos von Straftäter*innen in Bezug auf allgemeine Straftaten und auf Gewaltstraftaten. Auch die Vorhersage von Risiken wie Nichterscheinen vor Gericht, von technischen Versäumnissen und von Disziplinarproblemen ist möglich. Als weitere Ziele von COMPAS werden die Planung und Überwachung der Rehabilitation im Strafvollzug genannt; auf die entsprechenden Funktionen wird hier nicht weiter eingegangen.

Die beiden Risikomodelle von COMPAS, eines für allgemeine Straftaten und eines für Gewaltstraftaten, sollen nun näher beschrieben werden. Zum Verständnis der Modelle sind drei Aspekte zentral: erstens die relevanten Faktoren (Inputvariablen), zweitens die Art, wie die Modelle diese Faktoren kombinieren, um zur Risikoprognose zu gelangen (innere Struktur), und drittens die Form der Prognose (Output-Variablen). Das Risikomodell für allgemeine Straftaten berücksichtigt Faktoren folgenden Typs: Alter, kriminelle Vorgeschichte, kriminelles Umfeld, Drogenmissbrauch und Indikatoren für jugendliche Delinquenz. Die Faktoren werden über einen Fragebogen mit zwischen 5 und über 10 Fragen/Faktortyp ermittelt. Das Modell für allgemeine Straftaten berücksichtigt insgesamt 70 Faktoren (Input-Variablen).Footnote 4 Die Struktur des Modells ist relativ einfach: Es handelt sich um ein lineares Modell, also um eine gewichtete Summe der Faktoren.Footnote 5 Das Modell prognostiziert das Risiko, innerhalb einer bestimmten Frist, z. B. innerhalb von zwei Jahren nach der Haftentlassung, eine weitere Straftat zu begehen und damit rückfällig zu werden. Die Vorhersage erfolgt in Form von Dezilen, also Zahlen von 1 bis 10, wobei ein Risiko von 1–4 als „tief“, 5–7 als „mittel“, und 8–10 als „hoch“ interpretiert wird.Footnote 6 Die Anwendung des Modells dauert zwischen 10 und 60 Minuten pro Fall (Desmarais et al. 2018, S. 7). Das Risikomodell für Gewaltstraftaten berücksichtigt Faktoren folgenden Typs: bisherige Gewalttaten, Disziplinarprobleme, Probleme in Beruf und Bildung, Alter bei gegenwärtiger Verhaftung und Alter bei der ersten Verhaftung. Das Modell basiert ebenfalls auf einer Regression und macht Vorhersagen gleichen Typs wie das Modell für allgemeine Straftaten. Während die allgemeine Struktur der beiden Modelle bekannt und öffentlich zugänglich ist, werden die Details der Modelle, insbesondere die Gewichtung der Faktoren, geheim gehalten. COMPAS ist ein proprietäres Instrument der Firma Equivant/Northpointe (Maitland, FL, USA) und ist nicht öffentlich.

COMPAS wird gegenwärtig in fünf US-Bundesstaaten eingesetzt.Footnote 7 Gemäß der Rechteinhaberin Equivant/Northpointe wird COMPAS je nach Institution, in der COMPAS angewendet werden soll, gemäß den Bedürfnissen der Institution und dem Einsatzzweck angepasst und mit einer lokalen Normstichprobe kalibriert. Es gibt Versionen für verschiedene soziale Gruppen wie männliche und weibliche Straftäter*innen, Jugendliche sowie Versionen zum Einsatz während des Strafvollzugs und vor der Entlassung. COMPAS wurde in verschiedenen Untersuchungen empirisch überprüft (Desmarais et al. 2018). Gemäß dieser Metaanalyse verschiedener RBI bewegt sich die prädiktive Validität des Modells für allgemeine Straftaten im Mittelfeld der untersuchten RBI.Footnote 8 Desmarais et al. monieren, dass es keine Überprüfung der Interrater-Reliabilität von COMPAS gibt.Footnote 9 Allerdings wird auch vermerkt, dass COMPAS eines der wenigen RBI ist, für die die prädiktive Validität in Bezug auf sozial relevante Gruppen (Gender, EthnieFootnote 10) untersucht wurde. An der Frage, wie prädiktive Modelle sich für verschiedene sozial relevante Gruppen verhalten sollten, hat sich ab 2016 eine Debatte entzündet, auf die im nächsten Abschnitt eingegangen wird.

ProPublica vs. COMPAS: Fairness, Transparenz, Daten

In einem gewissen Sinn ist COMPAS nicht einfach nur ein RBI, sondern hat eine breitere, teilweise symbolische Bedeutung angenommen, in der Debatte über die Frage, ob und inwiefern Algorithmen fair sein können. Ausgangspunkt dieser Debatte ist eine Analyse von COMPAS durch ProPublica (Angwin et al. 2016). ProPublica beschaffte Daten von 7000 Personen, die in einem Bezirk in Florida verhaftet worden waren und deren Rückfallrisiko mit COMPAS vorhergesagt worden war. Diese Daten wurden mit Informationen über tatsächliche Rückfälle dieser Personen innerhalb von zwei Jahren nach der ersten Verhaftung abgeglichen. Ein Ergebnis dieser Untersuchung schlug besonders hohe Wellen: ProPublica verglich die Verteilung der Fehlerraten der beiden Risikomodelle separat für Schwarze Menschen und Weiße Menschen und stellte fest, dass das Modell für allgemeine Straftaten eine höhere Rate falsch-positiver Vorhersagen für Schwarze Menschen (45 %) ergab als für Weiße Menschen (23 %). Ebenso ergab das Modell eine höhere Rate falsch-negativer Vorhersagen für Weiße Menschen (48 %) als für Schwarze Menschen (28 %).Footnote 11 Diese Ergebnisse wurden von ProPublica dahingehend interpretiert, dass COMPAS Schwarze und Weiße Menschen ungleich behandelt und voreingenommen („biased“) gegenüber Schwarzen Menschen ist, weil Schwarze Menschen ohne Grund strenger beurteilt werden als Weiße Menschen.

Die Analyse von ProPublica schlug hohe Wellen in der Wissenschaft und in der Öffentlichkeit. Die Wissenschaft setzte sich einerseits mit COMPAS und der Analyse von ProPublica im engeren Sinn auseinander, die Intervention von ProPublica steht andererseits am Anfang einer breiteren wissenschaftlichen Debatte, die v. a. im neuen, interdisziplinär angelegten Feld der „fairness in machine learning“ (fair-ML) geführt wird und sich u. a. mit der Frage befasst, unter welchen (formalen) Bedingungen ein Modell wie COMPAS fair ist.Footnote 12 Die Dringlichkeit dieser Frage ergab sich u. a. aus kritischen Reaktionen auf die Analyse von ProPublica. So wiesen z. B. Flores et al. (2016) die Behauptung von ProPublica zurück, dass COMPAS gegenüber Schwarzen Menschen voreingenommen sei. Zwar stellten Flores et al. die gleiche, ungleiche Verteilung von Fehlerraten für die beiden Gruppen fest, betonten aber, dass eine Ungleichbehandlung nicht vorliege, wenn man die Kalibrierung nach Gruppen überprüfe, ein anderes Standardkriterium für Ungleichbehandlung aus der Forschung zu RBI.Footnote 13 Tatsächlich kommen die unterschiedlichen Beurteilungen von COMPAS dadurch zustande, dass ProPublica und etwa Flores et al. (2016) unterschiedliche Kriterien für Fairness angewandt haben. Bis heute gibt es keinen Konsens dazu, welches dieser Kriterien nun tatsächlich fair ist.Footnote 14 Die Frage nach der Kompatibilität und Bedeutung dieser und anderer Fairnesskriterien treibt die Debatte um fair-ML bis heute um.

Ein zweiter wichtiger Aspekt der Debatte ist die Intransparenz von COMPAS, ein Punkt, der etwa von Rudin et al. (2020) diskutiert wird. Rudin et al. kritisieren sowohl COMPAS als auch die Analyse von ProPublica.Footnote 15 Gemäß Rudin et al. ist COMPAS in zwei Hinsichten intransparent. Erstens seien die COMPAS-Risikomodelle unnötig komplex, da sie bis zu 137 Variablen berücksichtigten. Dies führe zu einer höheren Fehleranfälligkeit, etwa aufgrund von Fehlern bei der Datenerfassung.Footnote 16 Zweitens sei COMPAS institutionell intransparent, weil die Rechteinhaberin Equivant/Northpointe die proprietären Modelle nicht veröffentliche. Schließlich behaupten Rudin et al., dass transparente, einfache und frei verfügbare Modelle mit nur zwei Variablen (Alter und Anzahl bisheriger Vergehen) eine ähnliche Vorhersagequalität liefern würden wie COMPAS. In Jackson und Mendoza (2020), einer Replik auf Rudin et al. von zwei Mitarbeiterinnen von Equivant/Northpointe, wird die Kritik an COMPAS zurückgewiesen. Zur unnötigen Komplexität merken Jackson und Mendoza an, dass beide Risikomodelle nicht alle 137 Variablen verwendeten; so basiere etwa das Modell für allgemeine Straftaten auf nicht mehr als 40 Variablen. Dieser Kritikpunkt von Jackson und Mendoza ist teilweise berechtigt. Auch die Struktur der (linearen) Risikomodelle ist nicht übermäßig komplex. Allerdings findet man zur verwendeten Anzahl der Faktoren verschiedene Angaben in unabhängigen Evaluationen der Risikomodelle (s. vorhergehenden Abschnitt). Den Vorwurf der institutionellen Intransparenz weisen Jackson und Mendoza zurück, da die Institutionen, die COMPAS anwendeten, vollen Zugang zur Struktur von COMPAS hätten. Weiter weisen Jackson und Mendoza auf mehrere unabhängige Studien hin, die COMPAS eine hohe prognostische Validität attestieren würden.Footnote 17 Die Antwort von Jackson und Mendoza auf die Kritik der institutionellen Intransparenz ist allerdings nicht überzeugend. Zum einen ist eine Offenlegung nur gegenüber anwendenden Institutionen ungenügend, weil damit unabhängige Wissenschaftler*innen und die Öffentlichkeit keinen hinreichenden Zugang zu den Risikomodellen haben. So ist es z. B. für die Nachvollziehbarkeit einer Risikovorhersage für betroffene Personen notwendig, dass Risikomodelle inklusive einzelner Faktorgewichte allgemein zugänglich sind. Auch für eine vollständige und unabhängige wissenschaftliche Evaluation müssten die Modelle publiziert werden.Footnote 18 Die Aussagekraft der von Jackson und Mendoza angeführten Studien zur prädiktiven Validität ist ebenfalls fraglich. Alle von Jackson und Mendoza zitierten Arbeiten sind technische Berichte von Institutionen, die COMPAS anwenden. Diese Evaluationen wurden nicht in begutachteten Zeitschriften publiziert und genügen damit einem wichtigen wissenschaftlichen Standard für Unabhängigkeit nicht. Weiter sind die Evaluationen von COMPAS nicht unabhängig im Sinn der Interessebindung.Footnote 19

Ein dritter wichtiger Aspekt von COMPAS ist der Datensatz, der von ProPublica zur Evaluation verwendet wurde. Der COMPAS-Datensatz, von Angwin et al. (2016) aus verschiedenen Datenquellen kompiliert, wurde schon in ersten Reaktionen als inadäquat kritisiert. So wiesen etwa Flores et al. (2016) darauf hin, dass die Daten von Personen stammten, die noch kein Gerichtsverfahren durchlaufen hatten, während COMPAS eigentlich nur auf Personen angewendet werden sollte, bei denen die Haftstrafe zur Bewährung ausgesetzt worden war.Footnote 20 Trotz dieser bekannten Mängel wird der COMPAS-Datensatz bis heute als Benchmark in der Entwicklung fairer Algorithmen verwendet.Footnote 21 Diese Praxis ergibt sich teilweise aus der disziplinären Logik der Informatik. Die Informatik fokussiert stark auf die Entwicklung von Methoden, inklusive Fairnesskriterien, die sich optimieren und quantitativ vergleichen lassen. Um dies zu ermöglichen, werden oft dieselben Datensätze als Benchmark wiederverwendet. Dieses Vorgehen erlaubt einerseits einen schnellen methodischen Fortschritt, führt aber gleichzeitig zu einer Dekontextualisierung der Datensätze, sodass oft nicht mehr klar ist, inwiefern neue methodische Ergebnisse überhaupt auf den ursprünglichen Kontext eines Datensatzes anwendbar sind. Viele Probleme mit diesem Fokus auf Methodenoptimierung sind bekannt. So kann man den weiteren historischen Kontext aus den Augen verlieren, wie etwa unterschiedliche, historisch bedingte Rückfallraten sozial relevanter Gruppen. Solche historischen Fakten werden durch Datensätze reproduziert und durch Fairnesskriterien nicht unbedingt verändert. Auch vermeintliche Details wie in Datensätzen verwendete Codierungen und zur Erstellung von Datensätzen notwendige, aber nicht explizit gemachte Operationalisierungen können die Relevanz methodischer Ergebnisse stark beeinflussen (Bao et al. 2021).

COMPAS und der deutschsprachige Raum

COMPAS ist ein RBI, das im Kontext des US-Justizsystems entwickelt wurde; die von ProPublica angestoßene Debatte ist ebenfalls stark auf den US-Kontext ausgerichtet. In diesem Abschnitt soll erörtert werden, welche Lehren man aus der Debatte über COMPAS für die Risikobeurteilung im deutschsprachigen Raum ziehen kann; exemplarisch soll dabei die deutschsprachige Schweiz betrachtet werden. Dies erfordert eine zweifache Übersetzung: zum einen eine Übertragung vom US-Kontext auf die Schweiz, zum anderen eine Übertragung von der Informatik auf die Risikobeurteilung in der Strafjustiz.

Zuerst soll überlegt werden, wie man die drei Aspekte Fairness, Transparenz und Datengrundlage im Kontext der Schweiz denken könnte. Die Debatte zur Fairness von COMPAS hat gezeigt, dass schwierige Güterabwägungen zur Ungleichbehandlung sozial relevanter Gruppen unausweichlich werden, sobald man Entscheidungen aufgrund von Risikovorhersagen fällt. Diese Güterabwägungen sind unabhängig davon, ob die Risikovorhersage von Expert*innen durchgeführt wird, oder ob es sich um strukturierte Risikobeurteilung handelt. Da in der Schweiz verschiedene RBI etwa für Gewaltstraftaten eingesetzt werden (Hahn 2016), werden solche Güterabwägungen faktisch bereits heute getroffen. Jedoch gibt es nur für einen Teil der gegenwärtig in der Schweiz eingesetzten RBI empirische Untersuchungen dazu, inwiefern verschiedene Gruppen ungleich behandelt werden.Footnote 22 In dieser Hinsicht hinkt die Schweiz der Entwicklung in den USA hinterher. Ungleichbehandlungen durch RBI in der Schweiz sind wohl eine Realität, aber sie haben wahrscheinlich eine andere Ausprägung als in den USA. In den USA fokussiert die Debatte stark auf die Diskriminierung Schwarzer Menschen. Während diese Form von rassistischer Diskriminierung durch RBI in der Schweiz ebenfalls ein Problem sein dürfte, sollten in diesem Kontext auch andere sozial relevante Gruppen berücksichtigt werden.Footnote 23 Die Frage, welche Gruppen hier berücksichtigt werden sollten, müsste diskutiert werden.

Die Debatte zur Intransparenz von COMPAS zeigt, dass für eine fundierte wissenschaftliche Auseinandersetzung eine vollständige Offenlegung von RBI nötig ist. Auch für die Erklärung von Einzelentscheiden ist eine solche Offenlegung unumgänglich. Im europäischen Kontext kommt hinzu, dass eine solche Offenlegung möglicherweise einem Rechtsanspruch im Rahmen der Datenschutz-Grundverordnung der EU entspricht (Goodman und Flaxman 2016). Auch das Problem der institutionellen Intransparenz ist nicht auf die USA und COMPAS beschränkt. So ist das im deutschsprachigen Raum eingesetzte Instrument FOTRES proprietär und nicht publiziert.Footnote 24 Für RBI müsste die institutionelle Transparenz auch im deutschsprachigen Raum eine Bedingung sein.Footnote 25 Außerdem wären Instrumente mit möglichst tiefer Komplexität vorzuziehen, um die Erklärbarkeit und leichte Anwendbarkeit sicherzustellen.Footnote 26 RBI müssen außerdem mithilfe lokaler Daten konstruiert und im lokalen Kontext getestet werden.

Dies führt zu den Daten, die zur Konstruktion und Evaluation von RBI benötigt werden. Viele der im vorhergehenden Abschnitt erwähnten Probleme mit Datensätzen im Kontext der Informatik sind im Kontext der forensischen Psychologie und Psychiatrie bekannt. So wurde etwa die „Hare Psychopathy Checklist-Revised“ (PCL-R) nach einer deutschen Adaptation mit Normdaten aus dem deutschsprachigen Raum neu validiert.Footnote 27 Allerdings kann man auch hier Unterschiede zum US-Kontext feststellen. Es fällt auf, dass für die Validierung der deutschsprachigen PCL‑R ausschließlich männliche Probanden berücksichtigt wurden, die sich im Strafvollzug oder im Maßregelvollzug befanden. Der Einfluss von Gender oder Ethnie wurde nicht untersucht. Ein ähnliches Bild ergibt sich bei einer Validierungsstudie des bereits erwähnten RBI FOTRES (Rossegger et al. 2011; Räz im Druck). Am Beispiel FOTRES kann man einige der Schwierigkeiten antizipieren, falls man RBI für verschiedene Gruppen in der Schweiz untersuchen möchte. Beim Faktor Gender dürfte eine Schwierigkeit sein, dass wenige Daten für weibliche Straftäter*innen vorhanden sind, weil sich die Grundraten bezüglich Gender stark unterscheiden.Footnote 28 Beim Faktor Ethnie kann man ein Problem an der Stichprobe für die Validierung von FOTRES sehen. Personen ohne Schweizer Staatsangehörigkeit wurden für die Studie von Rossegger et al. (2011) nur berücksichtigt, wenn sie einen festen Aufenthaltsstatus hatten, da Personen ohne Schweizer Staatsangehörigkeit sonst am Ende des Strafvollzugs in ihr Herkunftsland „ausgeschafft“ werden. Da Ethnie mit Nationalität korreliert, erschwert dies die Feststellung von tatsächlichen Rückfallraten für verschiedene Gruppen und die Erhebung einer repräsentativen Stichprobe.

Schlussfolgerung

Zum Schluss soll noch einmal überlegt werden, ob Instrumente wie COMPAS im deutschsprachigen Raum eingesetzt werden sollten, und welches die wichtigsten Erkenntnisse der Diskussion über COMPAS für den deutschsprachigen Raum sind.

Aufgrund der oben angestellten Überlegungen wird empfohlen, ein Instrument wie COMPAS nicht einzusetzen. Das wichtigste Argument gegen COMPAS ist der Mangel an Transparenz, insbesondere die Tatsache, dass COMPAS ein proprietäres Instrument ist. Ein solches Instrument genügt den Anforderungen an wissenschaftliche Transparenz und an die Nachvollziehbarkeit von Einzelfallentscheiden nicht. Das heißt nicht, dass alle RBI gleich problematisch sind. Grundsätzlich hat strukturierte Risikobeurteilung Vorteile, die nicht einfach ignoriert werden können, etwa die im Vergleich zu Expert*innenurteilen hohe prädiktive Kraft. Es sollte aber eine Wertedebatte darüber stattfinden, zu welchem Grad unsere Gesellschaft dazu bereit ist, Risiken von einzelnen Menschen aufgrund von allgemeinen, statistischen Mustern vorherzusagen; dies dürfte der Kern des Problems sein.

Zu den wichtigsten Fragen, welche die Diskussion über COMPAS aufwirft, gehört sicher, inwiefern ein RBI verschiedene sozial relevante Gruppen gleich oder verschieden beurteilen sollte, und was es genau heißt, verschiedene Gruppen fair zu behandeln. Es gibt bis heute auf diese Fragen keine eindeutigen Antworten. Trotzdem sollte eine Diskussion darüber geführt werden, insbesondere darüber, welche Gruppen im Kontext des deutschsprachigen Raums berücksichtigt werden sollten. Auch eine weitergehende interdisziplinäre Integration der Diskussion über RBI wäre wichtig. Während forensische Psychologie und Kriminologie teilweise von den Methoden der Informatik profitieren können, wäre es für die teilweise sehr abstrakten Debatten in der Informatik wünschenswert, wenn sie den empirischen Kontext von RBI in der Strafjustiz stärker berücksichtigen würden.