Der maschinelle Lernprozess bietet Angriffsflächen für unterschiedlichste Arten von Attacken. Wang et al. stellen in Abb. 1 für jeden der sechs beschriebenen Schritte des maschinellen Lernens einen möglichen Angriffspunkt dar – ohne Anspruch auf Vollständigkeit [23].
Eine Kategorisierung von Angriffen kann anhand dreier fundamentaler Kriterien erfolgen: Einflussmöglichkeiten des Angreifers (1), angegriffene Eigenschaft des Systems (2) und Angriffsspezifizität (3), siehe [23,24,25].
-
1.
Die Einflussmöglichkeiten des Angreifers umfassen alle externen Größen, die auf den Lernprozess einwirken und so potenziell eine Einflussnahme gestatten. Bei einem Angriff auf Trainingsgrundlagen (Causative Attack) hat der Angreifer die Möglichkeit, die Menge der Trainingsdaten zu verändern. Da die Daten die Güte des Modells bedingen, kann das Lernergebnis auf diese Weise stark beeinflusst werden, auch wenn vielleicht nur ein kleiner Teil der Trainingsdaten verändert oder hinzugefügt wird. Das ist insbesondere bei extremen Inputdaten der Fall.
Es besteht auch die Möglichkeit, nicht das ML-Modell an sich zu manipulieren, sondern Schwachstellen herauszufinden und auszunutzen. Beim Entdeckungsangriff (Exploratory Attack) werden durch Informationen über das Modell insbesondere Eingaben genutzt, die zur Fehlklassifizierung führen.
-
2.
Das zweite Kategorisierungskriterium ist die angegriffene Eigenschaft des Systems. Es hat die auch sonst in der Cybersecurity verwendeten Ausprägungen: Integrität, Verfügbarkeit, Vertraulichkeit. Der Angriff auf die Integrität ist eine gezielte Fehlklassifikation von einzelnen Angriffsdaten. Der Angriff auf die Verfügbarkeit macht das Modell unbrauchbar, indem durch den Angriff viele Fehlklassifikationen vom ML-System ausgehen (falsch-positiv und/oder falsch-negativ). Beim Angriff auf die Vertraulichkeit kann der Angreifer Informationen über das Modell selbst oder über das Trainingsdatenset herausfinden – also zum Beispiel eine Form des Reverse Engineerings. Dies kann als Grundlage zu weiteren Angriffen dienen: Nachdem zuerst das Modell nachgebaut wird, kann es zur Generierung bzw. Validierung von Angriffsdaten verwendet werden. So kann es beispielsweise Bilder generieren, die vom System falsch klassifiziert werden.
-
3.
Angriffsspezifizität bezeichnet, wie zielgerichtet oder unspezifisch der Angriff erfolgt. Zielgerichtet bedeutet, dass der Angreifer einen klar umrissenen Effekt erzielen möchte – beispielsweise die Fehlklassifikation eines bestimmten Inputs. Unspezifisch dagegen bedeutet, dass der Angreifer mehr Flexibilität hat und nur irgendeinen Input kennen möchte, der vom System falsch klassifiziert wird.
Konkrete Beispiele für Angriffe auf Machine-Learning-Systeme
In der Praxis sind vielfältige Angriffe auf ML-Systeme zu finden, etwa zur Umgehung von Spamerkennung. Sie lassen sich unterschiedlichen ML-Ebenen bzw. den beschriebenen Kategorien zuordnen [25].
Modelldiebstahl
(Model Reconstruction) ist ein Angriff, bei dem Angreifer das gesamte ML-Modell in Erfahrung bringen und nachbauen (Reverse Engineering). Sie nutzen dazu das Wissen um die Trainingsdatenzugehörigkeit, können feststellen, ob bestimmte Eingaben Teil des Trainingsdatensets waren und ggf. den gesamten Satz der Trainingsdaten wiederherstellen [26, 27].
Adversarial Attacks
sind Angriffe in Brute-Force- bzw. Trial-and-Error-Manier, die das Machine-Learning-System mit unzähligen Eingabedaten befragen und dessen Reaktion beobachten. Dies wird so lange durchgeführt, bis eine vom System falsch klassifizierte Eingabe gefunden wird (unspezifischer Angriff) oder sogar zu einer vom Angreifer gewünschten Klassifizierung führt. Spamfilter können auf diese Art angegriffen werden, indem anhand der Beobachtung der Klassifizierungsergebnisse der Inhalt einer Spam-E-Mail so lange variiert und gesendet wird, bis der Filter ihn nicht mehr als Spam erkennt [25]. Als Verfeinerung dieses Angriffs lassen sich anhand der Reaktion die Eingabedaten verändern und anpassen. Im Ergebnis kann der Angreifer Teile der Eingabe selbst definieren und gleichzeitig eine Fehlklassifikation (unspezifischer Angriff) oder sogar eine von ihm gewünschte Klassifizierung erzielen. Angriffe auf Antivirenprodukte sind für Angreifer effektive Einfallstore – trotz bösartigem Code werden die Daten dann als unproblematisch eingestuft.
Vergiftete Daten
dienen zur Modellverzerrung: Indem der Angreifer Trainingsdaten verändert (bzw. zusätzliche Elemente hinzugefügt), kann er das resultierende ML-Modell zielgerichtet manipulieren. Die Klassifizierung lässt sich so insgesamt in eine bestimmte Richtung verlagern oder nur für bestimmte Elemente verschieben. Angreifer setzen diese Methode insbesondere bei selbstlernenden Systemen (Incremental Machine Learning) ein, wenn also einem Machine-Learning-Modell im Betrieb laufend neue Daten gegeben werden können, die das Modell verändern. Daten, die eigentlich in Kategorie A fallen, können dann immer weiter in Richtung B tendieren.
Diese Angriffsart kann prinzipiell alle inkrementellen ML-Systeme treffen. Im Falle eines Spamfilters [25] sollten als Spam klassifizierte, aber immer weiter in Richtung valide E‑Mails tendierende Eingabedaten den Spamfilter insgesamt dazu bringen, zu viele Mails als Spam zu klassifizieren.
Bei sogenannten Hintertürangriffen modifiziert der Angreifer das ML-System so, dass es im Einsatz unter normalen Bedingungen korrekte Ergebnisse liefert, besondere Eingaben (beispielsweise unter Anwendung eines Geheimnisses, wie einzelnen Pixeln eines Bildes) jedoch zu vom Angreifer definierten Resultaten führen.
Angreifbarkeit von Quantum Machine Learning
Die im Bereich des klassischen ML betrachtete Methode der Adversarial Attack spielt auch im Kontext von QML eine große Rolle.
Lu, Duan und Deng [28] übertragen Schritt für Schritt das Adversarial Machine Learning in die Quantenwelt. Damit können sie Klassifizierer auf Quantenrechnern betrachten und so die ML-Angriffsflächen analysieren. Sie stellen Methoden vor, um Perturbationen für Quantum-Klassifizierer zu generieren – etwa Veränderungen von Inputdaten, die zu Fehlklassifizierung führen. Liu und Wittek [29] fügen in derselben Stoßrichtung eine Betrachtung des Aufwands von Verteidigungsmaßnahmen hinzu. Sie kommen zu dem Schluss, dass diese Schutzmaßnahmen zusätzliche Ressourcen binden, womit sie den Vorteil des Quantum Computing wieder aufheben. Liao et al. [30] schauen sich die Robustheit der Quantenklassifizierungen an. Sie kommen hier zu dem Schluss, dass die QML-Modelle unter gewissen Bedingungen robust genug und für den Einsatz unter realen Bedingungen geeignet sind.
Wiebe und Kumar [31] geben erste Einblicke, wie man unterschiedliche QML-Modellklassen gegen Quantum Adversarial Attacks härten kann.
Findet QML an einem entfernten Ort statt, ist die Frage nach einem Angriff, durch den externe Dritte unberechtigt am Lernprozess teilnehmen oder diesen gar stören können, wichtig. Unter dieser Prämisse entwickeln Bang, Lee und Jeong [32] ein Protokoll für sicheres QML, das verteilt stattfindet.
Insgesamt muss gesagt werden, dass generalisierende Aussagen über die Sicherheit sowie die Angreifbarkeit von QML derzeit nur sehr schwer zu treffen sind. Die Forschung betrachtet größtenteils erst einzelne Verfahren oder spezielle Bedingungen. Dies liegt auch darin begründet, dass die Arbeiten an der Sicherheit von QML bislang ausschließlich theoretischer Natur sind, denn es gibt schlicht noch kein QML im Realwelteinsatz. Es ist allerdings davon auszugehen, dass die aus der klassischen ML bekannten Angriffsformen aus dem Forschungsfeld der Adversarial Attacks die größte Bedrohung auch für zukünftiges QML darstellen, sofern Zugriff auf das Modell besteht.