1 Einführung

Privatsphäre und informationelle Selbstbestimmung sind in vielen Regionen der Welt – so auch in Deutschland und der Europäischen Union – ein Grund- und Menschenrecht. Für die Verarbeitung personenbezogener Daten gelten daher starke Einschränkungen, die eine freie Nutzung der Daten teilweise erheblich erschweren. Anonymisierung ermöglicht es, den Personenbezug von Daten zu entfernen. Anonymisierte Daten können nicht mehr oder nur sehr eingeschränkt auf einzelne Personen bezogen werden und senken damit das Risiko, das sich bei der Verwendung der Daten für diese Personen ergibt. Sie sind zudem von den Beschränkungen der Datenschutzgrundverordnung (DSGVO) befreit und können beliebig verwendet werden (s. Abschn. 10.3.2, s. auch Kap. 13). Die verlässliche Anonymisierung von Daten kann sich allerdings schwierig gestalten. Zusätzlich existiert keine einfache technische oder rechtliche Definition von Anonymität, was eine Bewertung von Anonymisierungsverfahren und vermeintlich anonymen Datensätzen zusätzlich erschwert.

In diesem Leitfaden liefern wir daher einen kurzen Überblick über rechtliche und mathematische Definitionen von Anonymität sowie relevante Anonymisierungsverfahren. Wir beschreiben die Anwendbarkeit sowie Vor- und Nachteile einzelner Ansätze. Wir diskutieren zudem Angriffsmethoden, mit denen anonyme Daten de-anonymisiert werden können und Methoden, die sich für die Risikoanalyse anonymer Daten nutzen lassen.

Weiterhin liefern wir einen Überblick über Techniken zur Pseudonymisierung von Daten. Pseudonymisierung verfolgt im Gegensatz zur Anonymisierung nicht das Ziel, den Personenbezug von Daten komplett zu entfernen, sondern soll vielmehr die Zuordnung einzelner Datensätze zu spezifischen Personen über technische und organisatorische Maßnahmen einschränken und kontrollierbar machen.

Die vorgestellten Techniken werden überwiegend im Kontext der Verarbeitung personenbezogener Daten diskutiert, lassen sich aber genauso auf andere Bereiche wie zum Beispiel die Verarbeitung von schützenswerten Industriedaten übertragen. Im Rahmen des Forschungsprojekts IIP-Ecosphere, des Innovationswettbewerbs Künstliche Intelligenz, des Bundesministeriums für Wirtschaft und Klimaschutz (BMWK) entwickelt das Projektteam beispielsweise im Industrie- und Forschungs-Konsortium eine Plattform/Community mit deren Hilfe Unternehmen des produzierenden Gewerbes Zugang zu KI-Lösungen für die Produktion erhalten. Hierfür ist es notwendig, dass die Produktionsunternehmen wertvolle Daten aus ihren Produktionsprozessen auf die Plattform übermitteln. Die hier beschriebenen Pseudonymisierungsverfahren setzen wir dort ein, um sensible Daten zu schützen und somit die mit den Daten verbundenen Geschäftsgeheimnisse der Produktionsunternehmen zu wahren. Die Pseudonymisierung erschwert hierbei die Zuordnung der Daten zu einem konkreten Unternehmen und senkt damit das mit der Verarbeitung verbundene Risiko unter anderem im Falle eines Datenverlustes, Datendiebstahls oder der unbeabsichtigten Aufdeckung der Daten. Die im Rahmen des Projekts durchgeführte angewandte Forschung fokussiert sich hierbei auf die Vereinfachung der Anbindung von Datensicherheits- und Datenschutzmechanismen an bestehende Infrastrukturen sowie die Entwicklung moderner Ansätze zur Pseudonymisierung und Anonymisierung, die auch auf Industriedaten angewandt werden können.

Die hervorgehobene Bedeutung der Pseudonymisierung und Anonymisierung bei der Verarbeitung personenbezogener Daten ergibt sich aus der Verankerung der beiden Techniken im Datenschutzrecht, insbesondere im Rahmen der Datenschutzgrundverordnung (DSGVO). Jedoch können sie genauso im Bereich des Schutzes von Geschäftsgeheimnissen oder der generellen IT-Sicherheit angewandt werden, um Daten vor unbefugtem Zugriff zu schützen und das Schadensrisiko bei Datenverlust oder Datendiebstahl zu reduzieren. Sie stellen damit generelle Techniken zum Schutz von Daten dar, die unabhängig von einer konkreten rechtlichen Anforderung in der Praxis nützlich sind.

2 Begriffsbestimmungen

In diesem Leitfaden behandeln wir überwiegend strukturierte Datensätze. Diese besitzen eine vorgegebene Struktur und werden in Abgrenzung zu Daten definiert, die keiner solchen Struktur entsprechen (zum Beispiel Freitexte, Bilder, Audiodateien). Strukturierte Daten bestehen aus einzelnen Datenpunkten, welche jeweils verschiedene Attribute enthalten. Diese besitzen jeweils einen Namen und einen Datentyp. Beispielsweise könnte ein Datenpunkt das Attribut „Geburtsdatum“ enthalten mit einem Attributwert, der eine Datumsangabe im Format YYYY-MM-TT (zum Beispiel 1986-09-14) enthält. Wir nehmen weiterhin an, dass jeder Datenpunkt mit allen Attributen einer spezifischen Person zugeordnet ist, welche im Folgenden als betroffene Person bezeichnet wird. Wir sprechen zudem von der Veröffentlichung oder Publikation anonymisierter oder pseudonymisierter Daten. Hiermit wird nicht impliziert, dass die Daten der allgemeinen Öffentlichkeit zur Verfügung gestellt werden, vielmehr ist zum Beispiel auch eine interne Veröffentlichung oder generell eine Verwendung der Daten in einem Unternehmen gemeint. Weiterhin definieren wir für unsere Analyse die Rolle eines Angreifers. Ein solcher Angreifer versucht mithilfe von ihm vorliegenden Kontextinformationen zu einzelnen Personen aus den publizierten Daten Rückschlüsse zu Attributwerten dieser Personen zu ziehen oder sie ggf. in den Daten zu re-identifizieren. Das Ziel einer Pseudonymisierung oder Anonymisierung von Daten ist, eine solche Re-Identifikation einzelner Personen sowie eine Inferenz (Ableitung) von Attributwerten dieser Person auszuschließen oder zumindest erheblich zu erschweren. Im Rahmen einer Risikomodellierung können unterschiedlich versierte Angreifer modelliert werden, um einzelne Ansätze für die Pseudonymisierung oder Anonymisierung von Daten zu bewerten.

3 Anonymität

In diesem Abschnitt werden verschiedene rechtliche Definitionen von Anonymität sowie deren Bedeutung in unterschiedlichen Rechtsordnungen beschrieben. Ein besonderer Fokus wird hierbei auf die Europäische Union gelegt, es werden jedoch auch kurz wesentliche Regelungen außerhalb der EU erläutert.

3.1 Europa

Mit dem Inkrafttreten der Datenschutzgrundverordnung (DSGVO) soll der Anonymitätsbegriff in der EU vereinheitlicht werden. Zwar bewerten einzelne nationale Aufsichtsbehörden Anonymität noch leicht unterschiedlich, es ist jedoch zu erwarten, dass in den kommenden Jahren eine weitgehende Harmonisierung der Definition erfolgt. Eine wesentliche Rolle hierbei spielte die Arbeitsgruppe Data Protection der Europäischen Kommission, welche 2014 in einer Publikation wesentliche Kriterien für die Anonymität von Daten definiert hat (AG Data Protection der Europäischen Kommission 2014), die bis heute vielen Aufsichtsbehörden als Richtlinie für die Bewertung von Anonymisierungsverfahren dienen. Gemäß den dort formulierten Kriterien sollen durch die Anonymisierung von Daten die folgenden drei Risiken minimiert werden:

  • Re-Identifikation einzelner Personen,

  • Vorhersage von Attributwerten einzelner Personen,

  • Möglichkeit der Verknüpfung anonymer Daten mit Dritt-Daten.

Nicht alle Risiken sind für alle anonymisierten Datensätze gleich relevant und oft stellt eine reine Re-Identifikation ohne mögliche Vorhersage von Attributwerten für eine Person nur ein geringes Risiko dar. Eine Verknüpfung der anonymen Daten mit externen Datensätzen ist für sich genommen ebenfalls ein geringes Risiko, kann einem Angreifer in einem zweiten Schritt jedoch erlauben, anhand der verknüpften Daten einfacher eine Re-Identifikation einzelner Personen vorzunehmen.

Außerhalb der Europäischen Union gibt es auch in vielen anderen Ländern Gesetzgebungen zur Anonymisierung von Daten. In den folgenden Abschnitten werden exemplarisch die Regelungen einiger Länder aufgelistet.

3.2 Singapur

Der Personal Data Protection Act (PDPA) wurde 2012 verabschiedet und trat schrittweise bis 2014 in Kraft. Er schützt personenbezogene Daten, die in Singapur verarbeitet werden. Die Gesetzgebung lehnt sich in vielen Bereichen an Regelungen aus der Europäischen Union an. Die Datenschutzbehörde von Singapur bietet Richtlinien für die Anonymisierung von Daten an (Datenschutzkommission Singapur 2018), die Definition von Anonymität stützt sich hierbei sehr stark auf den Begriff der Re-Identifizierbarkeit. Aspekte wie Vorhersagen sensibler Attributwerte oder Verknüpfung von anonymen Daten mit Drittdaten werden hingegen nicht oder nur am Rande behandelt.

3.3 Brasilien

Das General Data Protection Law (GDPL) wurde 2018 verabschiedet und schützt personenbezogene Daten, die in Brasilien verarbeitet werden. Das Gesetz hat ebenfalls viele Ähnlichkeiten zur DSGVO. Insbesondere der Anonymitätsbegriff und die Freiheiten, die Organisationen bei der Verarbeitung anonymer Daten gewährt werden, weisen eine hohe Ähnlichkeit zu den entsprechenden europäischen Regelungen auf.

3.4 Vereinigte Staaten von Amerika (USA)

In den USA existieren verschiedene Gesetze, die den Umgang mit personenbezogenen Daten in einzelnen Bereichen regeln, wie beispielsweise der „Health Insurance Portability and Accountability Act“ (HIPAA), der den Umgang mit personenbezogenen medizinischen Daten regelt. Als einer der ersten Bundesstaaten hat Kalifornien zudem mit dem „California Consumer Privacy Act“ (CCPA) 2019 ein der DSGVO in vielen Teilen ähnliches Gesetz verabschiedet. Der CCPA bezieht sich ähnlich wie die DSGVO auf personenbezogene Daten und schließt anonyme sowie re-identifizierte Daten aus, wobei ein hoher Standard für die Bewertung der Anonymität angesetzt wird.

3.5 China

China hat 2017 mit dem Cybersecurity Law ein Gesetz verabschiedet, das die Verarbeitung und Weitergabe personenbezogener Informationen stark einschränkt. 2018 hat die chinesische Standardisierungsbehörde TC260 zudem einen nationalen Standard veröffentlicht, der die Verarbeitung personenbezogener Daten noch weitgehender regelt. Beide Gesetze spezifizieren Anonymisierung als ein Schlüsselverfahren zum Schutz personenbezogener Daten und befreien anonymisierte Daten weitgehend von den sonst geltenden Beschränkungen.

4 Anonymisierung

Es existieren eine Vielzahl von Verfahren, die zur Anonymisierung von Daten genutzt werden können. Im Folgenden werden die wichtigsten historischen Ansätze betrachtet und im Anschluss wird exemplarisch das Konzept von Differential Privacy sowie darauf basierende moderne Anonymisierungsverfahren vorgestellt.

Generell müssen Anonymisierungsverfahren an den jeweiligen Anwendungsfall angepasst werden. Für die einmalige Anonymisierung eines Datensatzes bestehend aus strukturierten Daten sind beispielsweise andere Techniken nötig als für die Echtzeit-Anonymisierung unstrukturierter Daten wie zum Beispiel Videoaufnahmen. Unstrukturierte Daten haben zudem oft eine sehr hohe Informationsdichte und werden dementsprechend als hochdimensional bezeichnet, da die Anzahl der Attribute eines Datenpunktes weitaus größer ist als die Anzahl der Datenpunkte in einem gegebenen Datensatz. Solche Daten sind sehr viel schwieriger verlässlich zu anonymisieren und viele Konzepte zur Risikoanalyse anonymisierter Daten können auf sie nicht angewandt werden. Im Folgenden liegt der Schwerpunkt der Betrachtung daher auf strukturierte Daten, bei denen jeder Datenpunkt eine überschaubare Anzahl an Attributen aufweist, die wiederum einer fest definierten internen Struktur unterliegen.

4.1 Aggregationsbasierte Anonymisierung

Anonymisierungsverfahren, die auf einer Aggregation, also Zusammenfassung verschiedener Datenpunkte basieren, erfreuen sich großer Beliebtheit und werden von vielen Anwendenden synonym mit dem Begriff der Anonymisierung betrachtet. Diese Verfahren versuchen hierbei die Anonymität einzelner Personen, die Datenpunkte zur Aggregation beitragen, zu gewährleisten, indem ihre Daten mit denen anderer Personen zusammengefasst und zur Berechnung aggregierter Statistiken verwendet werden. Da diese Statistiken aus den Daten vieler Personen berechnet werden, können aus ihnen im Idealfall keine Rückschlüsse mehr auf Daten einer einzelnen Person gezogen werden. Die Gruppierung sowie die Auswahl der zu berechnenden Statistiken erfolgt hierbei anhand des zugrundeliegenden Anwendungsfalls und muss vorab festgelegt werden. Beispielsweise könnte für einen Datensatz, der Lohndaten einzelner Mitarbeitenden eines Unternehmens enthält und zusätzlich zu diesen demografischen Daten wie Alter und Geschlecht erfasst, zunächst eine Gruppierung nach Altersklasse (zum Beispiel in 5-Jahres-Intervallen) und Geschlecht erfolgen. Für jede dieser Gruppen könnte anschließend der Median des Gehaltes sowie die Anzahl der Personen in der Gruppe veröffentlicht werden. Das Gehalt ist hierbei eine sensible Information, die schützenswert ist. Merkmale wie Alter und Geschlecht werden hingegen meist nicht als schützenswert betrachtet. In Kombination können solche Merkmale jedoch ermöglichen, einzelne Personen in einem Datensatz zu identifizieren. Falls zum Beispiel nur eine Person im Alter zwischen 80 und 85 Jahren im Betrieb arbeitet, ist einem Angreifer mit diesem Wissen sofort ersichtlich, dass ein Datenpunkt, der diese Attribute aufweist, zu dieser Person gehören muss. Man bezeichnet solche Attributkombinationen daher als Quasi-Identifikatoren, da sie in vielen Fällen einzelne Personen auch in großen Datensätzen mit hoher Wahrscheinlichkeit identifizieren können (Sweeney 2002).

Bei der Aggregation von Daten nach obigem Verfahren besteht jedoch die Gefahr, dass einzelne Gruppen nur eine geringe Anzahl an Datenpunkten enthalten. Im Extremfall kann eine Gruppe aus nur einem einzelnen Datenpunkt bestehen. In diesem Fall wäre die Anonymität der zugehörigen Person nicht geschützt, da es einem Angreifer, der Kenntnis über das Alter und Geschlecht der Person hat, sofort möglich wäre, aus den Daten das Einkommen dieser abzuleiten. Um dies zu verhindern, können entweder Gruppierungsmerkmale so angepasst werden, dass in jeder Gruppe eine Mindestanzahl an Datenpunkten vorhanden ist, oder Gruppen mit einer geringen Anzahl an Datenpunkten können ausgeschlossen werden. Werden nur Daten zu Gruppen mit mindestens k Datenpunkten veröffentlicht, spricht man von k-Anonymität (Sweeney 2002) und bezeichnet den resultierten aggregierten Datensatz als k-anonym. K-Anonymität kann vor einer einfachen Re-Identifikation anhand von Quasi-Identifikatoren schützen, vor allem, wenn sehr große Werte von k verwendet werden. Jedoch kann es in Abhängigkeit der berechneten Statistiken trotzdem zu einer De-Anonymisierung bzw. einem Privatsphäre-Verlust kommen. Wird zum Beispiel für jede Gruppe die Häufigkeit eines Ja/Nein-Wertes publiziert, so kann ein Angreifer eventuell von dieser Häufigkeit auf den entsprechenden Datenwert einer Person zurückschließen. Beispielsweise könnten im ungünstigen Fall alle Datenpunkte in einer Gruppe den gleichen Wert eines Attributs aufweisen (zum Beispiel alle Personen in der Gruppe „männlich, 40–50 Jahre“ eines Datensatzes besitzen den Attributwert „HIV-positiv“). Ein Angreifer, der weiß, dass die Daten einer Person zu dieser Gruppe gehören, kann dann mit Sicherheit den Attributwert der Person vorhersagen. Auch wenn ein Großteil aller Datenpunkte der Gruppe den gleichen Datenwert aufweisen, kann ein Angreifer anhand dieser Information den Attributwert einer Person schätzen. Obwohl der Wert hierbei nicht mit Sicherheit vorhergesagt werden kann, stellt auch eine Schätzung mit hoher Genauigkeit oft ein Privatsphäre-Risiko für Betroffene dar. Um diese Risiken zu senken, wurde das Konzept der k-Anonymität mehrfach erweitert, unter anderem durch das Konzept der l-Diversität (Machanavajjhala et al. 2006) sowie der t-Ähnlichkeit (Li et al. 2007), welche das Risiko des angesprochenen Angriffs in der Praxis reduzieren können.

Die Generierung k-anonymer, l-diverser oder t-ähnlicher Datensätze ist nicht immer einfach. Generell wird diese umso schwieriger, je größer der Ausgangsdatensatz ist, je mehr Attribute für die Gruppierung genutzt werden sollen und je mehr Statistiken generiert werden sollen. Die Anzahl möglicher Gruppen steigt hierbei oft exponentiell mit der Anzahl an Attributen an, die für die Gruppierung gewählt werden. Man bezeichnet diesen Zusammenhang daher oft als „Fluch der Dimensionalität“ (curse of dimensionality). In der Praxis beschränkt man sich daher oft auf 2–4 Attributwerte für die Gruppierung von Daten bei der Anonymisierung, wobei die praktisch erreichbare Anzahl an Attributen stark von dem betrachteten Datensatz abhängt. Konkrete Gruppen können hierbei agglomerativ (bottom-up) oder divisiv (top-down) gebildet werden. Im ersten Fall wird zunächst jedem Datenpunkt eine einzelne Gruppe zugeordnet. Diese Gruppen werden iterativ miteinander verschmolzen, bis jede Gruppe das gewünschte Kriterium erfüllt. Im zweiten Fall wird zunächst eine einzelne Gruppe gebildet, die alle Datenpunkte beinhaltet. Diese wird in zwei Untergruppen aufgeteilt, welche selbst wiederum aufgeteilt werden können, solange die hieraus entstehenden Gruppen das gewünschte Kriterium noch erfüllen. Ein populäres Beispiel für den letztgenannten Ansatz ist der Mondrian-Algorithmus (LeFevre et al. 2006).

Generell sind diese Verfahren vor allem für niedrigdimensionale Datensätze mit wenigen Attributen, aus denen nur einfache Statistiken berechnet werden sollen, meist ausreichend gut geeignet.

4.2 Differential Privacy

Anonymisierungsverfahren wie die oben beschriebenen modellieren Privatsphäre-Risiken anhand von spezifischen Angriffsszenarien. Dies hat den Nachteil, dass bei nicht vollständiger Erfassung aller relevanter Szenarien ein unerkanntes Privatsphäre-Risiko entstehen kann. Zudem können hierdurch unterschiedliche Anonymisierungsverfahren nur eingeschränkt miteinander verglichen werden. Differential Privacy (Dwork 2006; Dwork und Roth 2014) wurde als Bewertungsverfahren für die Anonymisierung von Daten entwickelt, um genau diese Problematik zu lösen. Es liefert eine rigorose, informationstheoretische Definition von Anonymität, die es erlaubt, den größten zu erwartenden Privatsphäre-Verlust eines Anonymisierungsverfahrens zu quantifizieren, ohne hierbei anwendungsspezifische Angriffsszenarien zu modellieren. Differential Privacy (im Folgenden als DP abgekürzt) erfreut sich seit seiner Einführung großer Beliebtheit und wird bereits von einer Vielzahl von Organisationen eingesetzt (Abowd 2018; DATEV eG 2022; Bhowmick et al. 2018; Aktay et al. 2020). Es existieren hierbei eine Vielzahl sogenannter Mechanismen, die das von DP formulierte Anonymitätskriterium (im Folgenden als DP-Kriterium bezeichnet) erfüllen und auf verschiedene Datentypen angewandt werden können (Ghosh et al. 2009; Smith 2011). DP schützt die Daten einzelner Personen, indem Ergebniswerte zufallsbasiert verändert werden. Beträgt zum Beispiel der wahre Wert einer Häufigkeitsstatistik x = 131, so könnte ein DP-Mechanismus zu diesem Wert beispielweise einen Zufallswert aus einer geometrischen Verteilung hinzuaddieren und dementsprechend zum Beispiel den Wert x = 123 oder x = 154 zurückgeben. Hierdurch kann ein Angreifer kaum Rückschlüsse auf den Attributwert eines einzelnen Datenpunktes ziehen, auch wenn er bereits alle Attributwerte aller anderen Datenpunkte kennt, da der Effekt den ein einzelner Datenpunkt auf das Ergebnis der Statistik hat von dem hinzugefügten Zufallswert (den ein Angreifer nicht kennen kann) maskiert wird. Die Verteilung des hinzugefügten Zufallswertes muss hierbei jedoch spezifisch an die zu berechnende Statistik angepasst werden, um zu garantieren, dass das DP-Kriterium erfüllt ist. Generell ist es möglich, bereits einzelne Datenpunkte mit einem DP-Mechanismus zu schützen. Üblicherweise werden DP-Mechanismen jedoch eher auf Statistiken und Kennzahlen angewandt, die mithilfe aggregierter Daten gewonnen wurden, da hierbei insgesamt weniger Rauschen hinzugefügt werden muss aufgrund der geringeren Abhängigkeit des Ergebnisses von einzelnen Datenpunkten (was im Rahmen von DP als Sensitivität bezeichnet wird). Wird ein DP-Mechanismus dezentral auf einzelne Datenpunkte angewandt, spricht man von lokaler DP. Erfolgt die Anwendung auf einen Ergebniswert, der an zentraler Stelle basierend auf mehreren Datenpunkten berechnet wird, spricht man von zentraler DP. Lokale DP-Mechanismen bieten die besten Privatsphäre-Garantien, da Daten direkt an der Quelle geschützt werden und nie zentral vorliegen. Jedoch ist der Genauigkeitsverlust bei diesen Mechanismen im Allgemeinen weitaus größer als bei zentralen DP-Mechanismen, dementsprechend ist eine Nutzung dieser oft schwierig.

Beispiel: Differenziell privater Häufigkeitsmechanismus

Einer der einfachsten DP-Mechanismen ist der geometrische Häufigkeitsmechanismus. Dieser schützt eine Häufigkeitsangabe durch Hinzufügen von geometrischem Rauschen. Die Häufigkeit entspricht hierbei zum Beispiel der Anzahl aller Datenpunkte eines Datensatzes D, die bestimmte Attributwerte besitzen. Beispielsweise könnte man die Häufigkeit von Personen mit Einkommen zwischen 60.000–70.000 Euro in einem Einkommensdatensatz untersuchen. Durch Hinzufügen oder Entfernen eines Datenpunktes kann sich diese Häufigkeit maximal um den Betrag 1 ändern. Im Rahmen des DP-Mechanismus wird nun durch das Hinzufügen eines geometrisch verteilten Zufallswerts zum Gesamtergebnis der Effekt eines einzelnen hinzugefügten Datenpunktes maskiert. Da sich die resultierende Wahrscheinlichkeitsverteilung des Ergebniswertes durch Hinzufügen des Datenpunktes damit nur unwesentlich ändert, kann ein Angreifer aus diesem Wert kaum Informationen über den hinzugefügten Datenpunkt ableiten. Abb. 14.1 zeigt exemplarisch die empirische Häufigkeitsverteilungen von Ergebniswerten für einen solchen Mechanismus vor und nach dem Hinzufügen eines einzelnen Datenpunktes. Eine interaktive Version mit vielen weiterführenden Informationen ist online verfügbar (Dewes 2021).

Abb. 14.1
figure 1

Empirische Verteilung der Ergebniswerte des geometrischen DP Häufigkeits-Mechanismus für einen Häufigkeitswert abgeleitet aus einem Datensatz vor (violett) und nach (grün) Hinzufügen eines einzelnen Datenpunktes, für ε = 0.2. Die unten gezeigten Werte (626 und 727) zeigen exemplarisch zwei Ergebniswerte für die entsprechenden Datensätze. Der wahre Ergebniswert beträgt x = 627 für den Ursprungsdatensatz bzw. x = 628 für den Datensatz nach Hinzufügen des Datenpunktes (Dewes 2021)

Selbst ein Angreifer, der bereits den kompletten Datensatz vor Hinzufügen des Datenpunktes kennt, kann aufgrund des geometrisch verteilten Zufallswertes so trotzdem keine wesentlichen Rückschlüsse darauf ziehen, ob der hinzugefügte Datenpunkt zu der betrachteten Häufigkeit beigetragen hat. Diese Logik lässt sich auf alle Datenpunkte eines Datensatzes übertragen und belegt damit die Anonymität des Gesamtdatensatzes.

Weiterführende Themen

Grundlegende DP-Mechanismen zur Berechnung differenziell privater Häufigkeiten sowie anderer Statistiken lassen sich recht einfach auf Datensätze anwenden. Jedoch ergeben sich in der Praxis hierbei eine Reihe weiterführender Fragen, die beantwortet werden müssen, um DP erfolgreich einzusetzen.

Festlegung von Epsilon und Privatsphäre-Budget

Der Privatsphäre-Parameter ε bestimmt im Wesentlichen die Privatsphäre-Garantien, die ein DP-Mechanismus mindestens erfüllt. Die Wahl von ε ist hierbei nicht immer einfach, vor allem wenn mehrere DP-Statistiken aus einem Datensatz berechnet werden sollen, was in der Praxis fast immer der Fall ist. Hierbei addieren sich im ungünstigsten Fall die entsprechenden ε-Werte zu einem Gesamtbudget. Dieses sollte im Regelfall nicht wesentlich über dem Wert 1 liegen, da ansonsten die Wahrscheinlichkeit einer erfolgreichen De-Anonymisierung durch einen Angreifer stark ansteigt. Hierbei ist jedoch zu betonen, dass die über den Angreifer getroffenen Annahmen sehr konservativ sind in dem Sinne, dass dieser bereits über eine fast perfekte Kenntnis des Datensatzes verfügt. Dies ist in der Praxis nur selten gegeben. Andererseits können immer wieder Situationen entstehen, unter denen solche Annahmen gerechtfertigt sind. Es ist daher ratsam, den Parameter möglichst klein zu wählen und das Gesamtbudget ebenfalls möglichst klein zu halten. Die Wahl des Parameters kann sich hierbei an der benötigten Genauigkeit der Ergebniswerte orientieren, welche anhand des Ursprungsdatensatzes und der zu berechnenden Statistiken in Abhängigkeit von ε abgeschätzt werden kann.

Privatsphäre-Verstärkung durch Stichprobenbildung

Um die Privatsphäre-Garantien eines DP-Mechanismus zusätzlich zu stärken und einen weiteren unabhängigen Schutzmechanismus zu implementieren, kann der DP-Mechanismus auf eine Stichprobe des ursprünglichen Datensatzes statt auf den Gesamtdatensatz angewandt werden (Balle et al. 2018). Hierdurch wird einem Angreifer zusätzlich erschwert, Rückschlüsse auf die Daten einzelner Personen zu ziehen, denn der Angreifer kann nicht wissen, welche Datenpunkte aus dem Gesamtdatensatz für die Berechnung des Ergebnisses genutzt wurden. Der zusätzlich erreichbare Schutzeffekt hängt hierbei von mehreren Faktoren ab und ist nicht für alle DP-Mechanismen gleich. Generell werden in der Praxis oft Stichprobengrößen von 80–90 Prozent verwendet, die bei einer ausreichenden Anzahl von Datenpunkten im Gesamtdatensatz (> 100) bereits einen signifikanten zusätzlichen Schutzeffekt bieten. Durch die Stichprobenbildung reduziert sich das effektive ε des DP-Mechanismus, dementsprechend kann bei gleichbleibenden Privatsphäre-Garantien ein höherer Ausgangswert für ε gewählt werden.

Implementierung von DP-Mechanismen

Die Definition und Anwendung eines geeigneten DP-Mechanismus ist nicht immer einfach und kann mit einem großen Aufwand verbunden sein. Die Implementierung der Mechanismen in Form von Software-Code ist wie jede Software-Entwicklung zudem fehlerbehaftet. In der Praxis wurden daher bereits mehrere Bibliotheken entwickelt (Google Inc. 2021), die den Einsatz von DP-Mechanismen vereinfachen sollen, indem sie diese sorgfältig implementieren und testen. Einzelne Software-Bibliotheken versuchen hierbei auch, neben der Implementierung einzelner DP-Mechanismen deren Auswahl zu automatisieren. Es ist zu erwarten, dass DP in den kommenden Jahren in weitere Systeme zur Datenverarbeitung integriert wird und sich die Nutzung damit weiter vereinfacht.

Testen von DP-Mechanismen

DP-Mechanismen sollten in der Praxis stets validiert werden, um Programmierfehler auszuschließen. Dies erfolgt üblicherweise mithilfe automatisierter Tests. Hierzu können beispielsweise zufallsgenerierte Testdaten durch einen DP-Mechanismus geschützt werden. Anschließend werden die Ergebnisse des Mechanismus über ein geeignetes Verfahren gruppiert und die Häufigkeiten einzelner Ergebniswerte werden über viele Durchläufe des DP-Mechanismus festgehalten. Dies wird nun für einen geeignet gewählten Differenzdatensatz wiederholt. Die Differenzen aller beobachteten Häufigkeiten für die beiden Datensätze und alle beobachteten Ergebniswerte können dann statistisch analysiert werden, um zu ermitteln, ob diese im Rahmen der maximal zu erwartenden Abweichungen für einen ε-DP-Mechanismus liegen (Ding et al. 2019). Sind die Abweichungen zu groß, kann mit hoher Wahrscheinlichkeit ausgeschlossen werden, dass der implementierte Mechanismus ε-DP erfüllt.

Die Wahl geeigneter Testdatensätze sowie geeigneter Differenzpunkte ist nicht immer einfach. Im Normalfall kann nur eine kleine Anzahl möglicher Datensätze betrachtet werden. Es ist daher möglich, dass zum Beispiel durch spezifische Randbedingungen verursachte Implementierungsfehler in einem DP-Mechanismus auch durch die Tests unentdeckt bleiben. Jedoch bieten automatisierte Tests zumindest einen gewissen Schutz vor Fehlern sowie eine grundlegende Validierung der implementierten Verfahren.

Generell sollten automatisierte Tests mit formellen Code-Überprüfungen sowie analytischen Untersuchungen kombiniert werden, um möglichst viele Fehlerquellen bei der Implementierung von DP-Mechanismen auszuschließen.

Differential Privacy in der Praxis

DP wird in den USA unter anderem vom Zensusbüro (Abowd 2018) sowie von Apple (Bhowmick et al. 2018) und Google (Aktay et al. 2020) genutzt, um sensible personenbezogene Daten zu anonymisieren. Auch in Deutschland wird DP bereits eingesetzt, als eines der ersten großen Unternehmen nutzt unter anderem DATEV ein DP-Verfahren zur Generierung anonymer Lohnstatistiken (DATEV eG 2022). Hierbei werden zum Beispiel anonyme Gehalts-Quantile sowie Häufigkeiten von Bonusbeträgen für einzelne Berufsgruppen gruppiert nach Region veröffentlicht.

4.3 Fazit Anonymisierung

Auch in Bezug auf Anonymisierung gilt, dass stets der aktuelle Stand der Technik berücksichtigt werden sollte sowie gleichermaßen die Empfehlungen der der Artikel-29-Arbeitsgruppe (AG Data Protection der Europäischen Kommission 2014). Eine robuste Anonymisierung kann nicht allein durch das Entfernen von direkten Identifikationsmerkmalen oder die Veränderung von einzelnen Datenpunkten erzielt werden. Das Hinzufügen von zufallsbasiertem Rauschen zu Daten ist ebenfalls keine Garantie für eine robuste Anonymisierung. Ebenso wenig führt eine reine Aggregation von Daten nicht zwangsläufig zu einem robust anonymisierten Datensatz. In spezifischen fällen kann sie dennoch ausreichen, um Anonymität von Daten zu gewährleisten (Agencia española de protección de datos 2019).

Differential Privacy ist eine moderne Bewertungsmethodik für Anonymisierungsverfahren. Es ist die einzige Methodik zur Bewertung von Anonymisierungsverfahren, in der bisher keine wesentlichen Schwachstellen identifiziert wurden. Eine Stichprobenbildung kann die Privatsphäre-Garantien von Differential. Privacy-Verfahren signifikant steigern und De-Anonymisierung erschweren. Sie kann zudem die Genauigkeit der resultierenden Daten bei gleichen Privatsphäre-Garantien verbessern.

Abschließend lässt sich folgendes festhalten: Öffentlich auditierbare und quelloffene Verfahren zur Anonymisierung von Daten sollten geschlossenen Verfahren vorgezogen werden, da sie üblicherweise bessere Sicherheitsgarantien bieten.

5 Pseudonymisierung

Pseudonymisierung ist eine Technik zum Schutz von personenbezogenen Daten, die unter anderem in der DSGVO explizit erwähnt wird und daher in Europa eine hervorgehobene Bedeutung im technischen Datenschutz hat. Generell versteht man unter Pseudonymisierung das Ersetzen direkter Identifikationsmerkmale von Datenpunkten in einer Weise, die dazu führt, dass die resultierenden Daten von einem Angreifer nicht oder nur mit unverhältnismäßigem Aufwand wieder auf eine konkrete Person bezogen werden können. Eine Wiederherstellung des Personenbezugs (im Folgenden als Re-Identifikation bezeichnet) soll lediglich durch Hinzuziehen von zusätzlichen Informationen (zum Beispiel einem kryptografischen Schlüssel) möglich sein. Diese Informationen sollten technisch und organisatorisch getrennt von den Originaldaten aufbewahrt werden, um zu gewährleisten, dass eine Wiederherstellung des direkten Personenbezugs nur unter genau vorgegebenen Bedingungen und unter Beachtung der rechtlichen Anforderungen möglich ist.

Pseudonymisierung unterscheidet sich von Anonymisierung insoweit, als dass bei der Pseudonymisierung im Allgemeinen einzelne Datenpunkte sowie ggf. Mengen von Datenpunkten, die einer einzelnen Person zugeordnet sind, in ihrer Integrität erhalten bleiben. Dementsprechend ist der Informationsgehalt pseudonymisierter Daten typischerweise höher als der anonymisierter Daten. Dies hat in vielen Fällen eine höhere Nutzbarkeit zur Folge, insbesondere für Anwendungen, die hochdimensionale Daten benötigen, wie zum Beispiel maschinelles Lernen und für welche eine verlässliche Anonymisierung oft nicht oder nur sehr eingeschränkt möglich ist. Andererseits ist jedoch auch die Re-Identifikation einzelner Personen durch einen Angreifer in pseudonymisierten Daten einfacher, weshalb diese weiterhin als personenbezogen gelten und dementsprechend auch der DSGVO unterliegen.

In der Praxis werden die Begriffe Pseudonymisierung und Anonymisierung leider oft verwechselt. Pseudonymisierte Daten werden zum Beispiel fälschlicherweise oft als anonym angesehen, da kein direkter Personenbezug mehr vorhanden ist. Eine echte Anonymisierung muss jedoch die in Abschn. 14.3.1 genannten Kriterien erfüllen, die sich in vielen Fällen nicht erreichen lassen, ohne eine Aggregation von Datenpunkten durchzuführen. Transformationen, die einzelne Datenpunkte verändern, indem sie zum Beispiel direkte Identifikationsmerkmale der Daten durch nicht-umkehrbare Pseudonyme ersetzen, sind daher meist nicht geeignet, anonyme Daten zu erzeugen, selbst wenn in einem zweiten Schritt im Rahmen einer De-Identifikation der Daten die erzeugten Pseudonyme vollständig aus diesen entfernt werden. Auch wenn in vielen Fällen in der Praxis noch mit der faktischen Anonymität solcher Daten argumentiert wird, lässt sich diese Behauptung in Anbetracht der stetig besser werdenden technischen Möglichkeiten zur Re-Identifikation von Daten mithilfe von Kontextinformationen in den wenigsten Fällen aufrechterhalten.

5.1 Moderne Pseudonymisierungsverfahren

Generell kann eine Pseudonymisierung von Daten über viele unterschiedliche Mechanismen erfolgen. In der Praxis sind insbesondere tabellenbasierte und kryptografische Mechanismen sowie deren Kombinationen relevant (Europäische Agentur für Cybersicherheit 2019). Bei einer tabellenbasierten Pseudonymisierung werden Pseudonyme zufallsbasiert oder deterministisch generiert und anschließend den Originaldaten zugeordnet. Die Zuordnung wird in einer Tabelle gespeichert und separat von den pseudonymisierten Daten aufbewahrt. Eine direkte Re-Identifikation der ursprünglichen Daten ist dann nur mithilfe der Tabelle möglich. Kryptografische Verfahren nutzen hingegen geeignete kryptografische Methoden wie Hashing oder formaterhaltende Verschlüsselung, um Originalwerte auf Pseudonyme zu übertragen. Je nach eingesetztem Verfahren kann es hierbei ebenfalls notwendig sein, Zuordnungen in einer Tabelle zu speichern, falls eine Re-Identifikation gewünscht ist.

Moderne Ansätze zur Pseudonymisierung von Daten beziehen bei der Gestaltung des Verfahrens die Gesamtheit der Datenpunkte einer Person in die Risikobetrachtung ein und sie schließen neben der Abbildung direkter Identifikationsmerkmale auch Transformationen strukturierter oder unstrukturierter Attributwerte ein. In diesem Sinne ist die Pseudonymisierung als Gesamttransformation eines Datenpunktes zu verstehen mit dem Ziel, die Re-Identifikation der zu den Daten zugehörigen Person möglichst gut auszuschließen und gleichzeitig die Nutzbarkeit der Daten für den gegebenen Anwendungsfall möglichst gut zu erhalten.

5.2 Format- und strukturerhaltende Pseudonymisierung

Für eine einfache Weiternutzung pseudonymisierter Daten ist in vielen Fällen entscheidend, dass das ursprüngliche Datenformat sowie bestimmte Struktureigenschaften der Daten erhalten bleiben. Hierzu kann beispielsweise das folgende Verfahren angewandt werden, welches auf eine Vielzahl von Datenformaten anpassbar ist:

  1. 1.

    Ein Attributwert wird als Vektor in einen geeigneten Repräsentationsraum abgebildet, der wesentliche Struktureigenschaften der Attribute erfasst.

  2. 2.

    Die Vektor-Repräsentation wird durch kryptografische oder tabellenbasierte Verfahren transformiert, wodurch ein neuer Vektor im Repräsentationsraum erhalten wird. Die Transformation kann hierbei so gestaltet werden, dass verschiedene strukturelle Eigenschaften des Datenpunktes erhalten bleiben.

  3. 3.

    Der transformierte Vektor wird durch eine Umkehrabbildung wiederum auf einen Attributwert des ursprünglichen Datenformats abgebildet.

Ein Beispiel für eine solche struktur- und formaterhaltende Transformation ist die Pseudonymisierung von Postleitzahlen über ein kryptografisches Verfahren (Xu et al. 2002). Hierbei wird die Information über gemeinsame Präfixe erhalten, welche für die Auswertung der Daten relevant sein kann, da dies zum Beispiel eine Gruppierung der pseudonymisierten Daten nach Postleitzahlgebieten ermöglicht. Das Format der Postleitzahlen kann hierbei ebenfalls erhalten werden. Nicht zwangsweise erhalten wird jedoch die fachliche Korrektheit, da nicht jede gültige Postleitzahl auf eine andere gültige Postleitzahl abgebildet werden kann, weil in manchen PLZ-Bereichen mehr Postleitzahlen liegen als in anderen und eine 1:1-Zuordnung zwischen gültigen Ursprungswerten und gültigen Pseudonymen damit nicht immer möglich ist. Eine solche Zuordnung wäre nur möglich, wenn zumindest teilweise die Präfixerhaltung aufgeben würde. Die Erhaltung der Präfixe ist aber für viele Analysezwecke wichtig, da so zum Beispiel eine Gruppierung der pseudonymisierten Daten ermöglicht wird. Analysten, die diese verarbeiten, können damit sicher sein, dass Postleitzahlen die ein gemeinsames Präfix aufweisen, auch in den Ursprungsdaten ein gemeinsames Präfix der gleichen Länge besitzen. Abb. 14.2 zeigt exemplarisch die Abbildung eines Adressbestandteils von IP-Adressen mithilfe format- und strukturerhaltender kryptografischer Pseudonymisierung.

Abb. 14.2
figure 2

Abbildung einer Postleitzahl unter Einsatz format- und strukturerhaltender Pseudonymisierung und unter Erhaltung der Postleitzahl-Präfixe. Postleitzahlen, die mit dem gleichen Präfix beginnen, werden auch auf Pseudonyme abgebildet, die entsprechend das gleiche (pseudonymisierte) Präfix besitzen. Die Abbildung der n-ten Stelle einer Postleitzahl hängt somit von den Werten der n vorherigen Stellen ab (Dewes und Jarmul 2018). Abbildungsteil (a) illustriert die Pseudonymisierung einzelner Stellen einer Postleitzahl mithilfe einer strukturerhaltenden kryptografischen Abbildung, Abbildungsteil (b) zeigt zwei Beispiele für die resultierende präfixerhaltende Pseudonymisierung. (Eigene Darstellung)

Diese Methodik lässt sich unter Einsatz Feedback-basierter Verfahren zur Stromverschlüsselung auch auf andere Datentypen und -formate übertragen (zum Beispiel auf Datumsangaben) und kann hierdurch genutzt werden, um quasi beliebige Daten format- und strukturerhaltend zu pseudonymisieren. Es ist jedoch zu beachten, dass durch die Strukturerhaltung auch zusätzliche Möglichkeiten für Angreifer geschaffen werden, eine Re-Identifikation von Daten zu erreichen. So kann im obigen Beispiel ein Angreifer, der eine einzelne Postleitzahl einem Pseudonym zuordnen kann, damit auch alle Postleitzahlen, die Präfixe mit der aufgedeckten Postleitzahl aufweisen, teilweise de-pseudonymisieren. Ob eine strukturerhaltende Pseudonymisierung daher die Anforderungen an die Datensicherheit erfüllt, muss im Einzelfall anhand statistischer Analysen geprüft werden. Die Pseudonymisierung muss dann ggf. angepasst werden. Um die Sicherheit zu erhöhen, kann im obigen Beispiel zum Beispiel die Präfixerhaltung auf die ersten beiden Stellen einer Postleitzahl begrenzt werden, was die Re-Identifikation einzelner Postleitzahlen anhand bekannter Präfixe deutlich erschwert.

Solche format- und strukturerhaltenden Pseudonymisierungsverfahren können in der Praxis erlauben, komplexe und hochdimensionale Daten so zu schützen, dass eine Wiederherstellung eines direkten Personenbezugs für einen Angreifer sehr schwierig wird und gleichzeitig legitime Nutzerinnen und Nutzer die pseudonymisierten Daten zu Analysezwecken fast wie die Originaldaten verwenden können. Da eine Pseudonymisierung zudem auf einzelne Datenpunkte angewandt wird und kontinuierlich erfolgen kann, ist sie in der Praxis zudem deutlich einfacher umzusetzen als zum Beispiel eine Anonymisierung, die im Normalfall nicht kontinuierlich vorgenommen werden kann und die Verarbeitung eines Gesamtdatensatzes oder zumindest größerer Teildatensätze erfordert. Zudem können Anonymisierungsverfahren nur verlässlich auf relativ einfache Daten angewandt werden, wohingegen Pseudonymisierungsverfahren auch auf komplexe und hochdimensionale Daten anwendbar sind. Man muss hierbei jedoch beachten, dass auch bei der Pseudonymisierung mit jedem hinzugezogenen Attribut das Risiko eine Re-Identifikation steigt.

Generell kann Pseudonymisierung auch auf nicht-personenbezogene Daten angewandt werden, zum Beispiel mit der Zielstellung, Geschäftsgeheimnisse zu schützen. So werden struktur- und formaterhaltende Pseudonymisierungsverfahren im Rahmen des Forschungsprojekts IIP-Ecosphere (2020) eingesetzt, um industrielle Maschinendaten zu schützen.

Mithilfe von Verfahren des maschinellen Lernens können auch unstrukturierte Daten in eine Binärcodierung überführt werden, die wesentliche syntaktische und semantische Zusammenhänge beschreibt. Die so codierten Daten können dann wiederum mithilfe kryptografischer Pseudonymisierung transformiert werden und die entstandenen binärcodierten Pseudonyme können wiederum zu unstrukturierten Daten decodiert werden. Tab. 14.1 zeigt beispielhaft die Generierung von pseudonymisierten Namen basierend auf einer Codierung, die auf einem Markov-Kettenmodell basiert, welches mit Charakternamen der Serie „Game of Thrones“ trainiert wurde. Man erkennt, dass die Pseudonyme ähnlichen syntaktischen Regeln folgen wie die Ursprungsdaten. Ob eine solche Pseudonymisierung sinnvoll ist, muss im Einzelfall entschieden werden. Die Erhaltung bestimmter syntaktischer und semantischer Eigenschaften von Daten kann jedoch sinnvoll sein, um zum Beispiel. möglichst realistische Testdaten zu generieren. In vielen Fällen sind unstrukturierte Daten wie Texte jedoch nicht sinnvoll zu pseudonymisieren.

Tab. 14.1 Beispiel für eine Pseudonymisierung mit dem Markov-Kettenmodell

5.3 Organisatorische Aspekte der Pseudonymisierung

Um einen effektiven Schutz von Daten durch Pseudonymisierung zu erreichen, müssen neben den technischen auch organisatorische Anforderungen beachtet werden. Insbesondere muss gewährleistet sein, dass eine De-Pseudonymisierung nur unter Beachtung datenschutzrechtlicher Vorgaben möglich ist. Hierzu ist im Normalfall eine organisatorische Trennung der pseudonymisierenden Stelle von den Datennutzenden erforderlich. Im Idealfall besteht sogar eine rechtliche Trennung zwischen den beiden. Die Pseudonymisierung kann dann als Auftragsverarbeitung erfolgen und diese kann so ausgestaltet werden, dass eine De-Pseudonymisierung nur unter genau definierten Bedingungen ermöglicht wird. In einzelnen Fällen kann sogar eine mehrstufige Pseudonymisierung durch unterschiedliche, möglichst unabhängige Akteure erfolgen. Solche mehrstufigen Verfahren werden unter anderem im Gesundheitsbereich bei der Pseudonymisierung besonders sensibler Daten eingesetzt.

An die Aufbewahrung von kryptografischen Schlüsseln oder von Zuordnungstabellen sollten die gleichen Anforderungen wie an die Aufbewahrung und Verwaltung regulären zur Verschlüsselung eingesetzten Schlüsselmaterials gestellt werden.

Generell sollten Parameter und kryptografische Schlüssel, die für die Pseudonymisierung eingesetzt werden, zentral verwaltet und überwacht werden. Sie sollten in Abhängigkeit des Anwendungsfalls häufig rotiert werden, um eine Re-Identifikation von Daten durch langfristige Beobachtung zu erschweren. Eine Schlüsselrotation bezeichnet hierbei generell das Austauschen oder die Neugenerierung kryptografischen Schlüsselmaterials.

5.4 Fazit Pseudonymisierung

Zusammenfasend lässt sich festhalten, dass die Pseudonymisierung von Daten technisch und organisatorisch so gestaltet werden muss, dass eine nicht-autorisierte De-Pseudonymisierung durch interne Nutzende nicht oder nur mit unverhältnismäßigem Aufwand möglich ist. Dazu können sowohl tabellenbasierte als auch kryptografische Verfahren eingesetzt werden. Eingesetzte kryptografische Verfahren sollten immer modernen Standards entsprechen und hohe Sicherheitsanforderungen erfüllen. Entsprechende Empfehlungen finden sich beispielsweise in den jährlich durch das BSI veröffentlichten Empfehlungen zum Einsatz von Hashing- und Verschlüsselungsverfahren (Dewes und Jarmul 2018). Auch auf europäischer Ebene finden sich verschiedene Richtlinien zum Einsatz kryptografischer Techniken zur Pseudonymisierung von Daten (Bundesamt für Sicherheit in der Informationstechnik 2021; Agencia española de protección de datos 2019).

Für die Praxis gilt, dass Parameter, kryptografische Schlüssel und Zuordnungstabellen stets sicher aufbewahrt werden sollten. Eine De-Pseudonymisierung kann beispielsweise durch den Einsatz eines Rotationsplans für Schlüssel erschwert werden. Hierzu können beispielsweise Empfehlungen zum Schlüsselmanagement im Rahmen des IT-Grundschutzkatalogs des BSI herangezogen werden (Bundesamt für Sicherheit in der Informationstechnik 2021).

Danksagung

Der Autor bedankt sich für die Förderung des Projektes IIP-Ecosphere (Förderkennzeichen: 01MK20006O) durch das Bundesministerium für Wirtschaft und Klimaschutz im Rahmen des Förderprogramms KI-Innovationswettbewerb.