1 Einleitung

Im Sinne der Modellierung kann grundsätzlich zwischen den beiden Kategorien der physikalisch basierten Modelle, welche wir in dieser Arbeit gänzlich beiseitelassen, sowie der auf Daten basierenden statistischen Modellierung unterschieden werden. Eine stringente Klassifizierung der Methoden der datenbasierten Modellierung ist de facto nicht möglich, da dies je nach Problemstellung und Fachgebiet divergent definiert wird. Die Methoden umfassen den Bereich der klassischen Statistik (z. B. lineare oder logistische Regression) bis hin zu Artificial Neural Networks (ANN)Footnote 1 und Deep Learning (DL)-Methoden, wobei für letztere Verfahren die Bezeichnung Machine Learning (ML) geläufig ist.

Der in der Literatur oft verwendete Begriff Artificial Intelligence (AI) geht über die Modellierung auf Basis von Daten weit hinaus und umfasst auch heuristische Lösungsverfahren zur Entscheidungsfindung wie z. B. Genetische Algorithmen. ML-Verfahren sind daher eine Untergruppe der AI.

ML-Modelle können wiederum anhand der zur Verfügung stehenden Daten kategorisiert werden, an welche sie angepasst werden sollen. Man spricht dabei – je nachdem, ob zu gegebenen Eingangsdaten ein gewünschter Ausgangswert vorliegt oder nicht – von überwachtem bzw. unüberwachtem Lernen. Als gesonderter Fall muss das sogenannte Bestärkende oder Reinforcement Learning (RL) betrachtet werden, bei dem das Modell nur durch Vorgabe einer (negativen) Belohnung nach dem Versuch-und-Irrtum-Prinzip von selbst eine Gewinnstrategie entwickelt, siehe Abb. 1. Im Sinne der Klassifizierung ist zu beachten, dass auch statistische Verfahren wie z. B. Clusteranalyse oder Principal Component Analysis (PCA) in der Literatur dem unüberwachtem Lernen zugeordnet werden. Andererseits sind diese Verfahren nicht (zumindest nicht direkt) dem Bereich ML zugehörig.

Abb. 1
figure 1

Unterscheidung nach Methodik: a (Überwachtes Lernen) Bestimme eine trennende Gerade (gestrichelt) zwischen den markierten Trainingsdaten (Kreis, Quadrat) mit Merkmalen (x1,x2) zur binären Klassifikation. b (Unüberwachtes Lernen) Finde Muster in nicht unterscheidbaren Daten mit Merkmalen (x1,x2). c (RL) Finde basierend auf einem Zustand st und einer Belohnung rt zum Zeitpunkt t eine Aktion at+1 für den nächsten Zeitschritt t + 1 welche rt+1 maximiert und beginne von Neuem

Lässt man die Google Suchanfragen im Netz zu den englischen Begriffen AI, ML und DL als Gradmesser für die Popularität dieser Thematik gelten, so scheint das Interesse daran nach wie vor ungebrochen zu sein, vgl. Abb. 2. Da heutzutage alles (Un‑)Mögliche aufgezeichnet, archiviert und für eventuelle spätere Anwendungszwecke gespeichert wird, wurde die perfekte Ausgangslage für den Einsatz von selbstlernenden Modellen geschaffen. Speziell auch in der Siedlungswasserwirtschaft (SWW) kann mit dem Einsatz von Smart Metern eine große Menge an Daten zur Verfügung gestellt werden. In Souza et al. (2000) wird die Entwicklung von Smarten Städten in Zusammenhang mit ML- und DL-Methoden anhand von 39 relevanten Publikationen untersucht. Drei davon analysieren Techniken zur Prognose von Zeitreihen des urbanen Wasserverbrauchs und sind damit eindeutig der SWW zuzuordnen. Die generellen Möglichkeiten sind noch um einiges vielseitiger und reichen über dezentrale Steuerung von Pumpen in Entwässerungssystemen bis hin zur assistierten Zustandserhebung von Kanalrohren.

Abb. 2
figure 2

Ungebrochener Trend: Die weltweiten Google Suchanfragen seit 2004 in % des Maximums offenbaren einen merklichen Anstieg mit dem Durchbruch von ML und DL im Jahre 2012. Da der AI schon lange bekannte Algorithmen wie PCA zugeordnet werden, war reges Interesse daran bereits schon vor 2012 vorhanden. (https://trends.google.com/)

Im Folgenden beschäftigen wir uns primär mit der Methodik des ML und geben einen kurzen Einblick in die historische Entwicklung sowie die dafür notwendigen theoretischen Grundlagen. Weiters führen wir drei Gründe an, weshalb die rasante Entwicklung dieser Methoden in den letzten Jahren, auch im Bereich der SWW, überhaupt erst möglich war.

2 Machine Learning – Vom Neuron zum Netzwerk

Der Begriff ML bezieht sich auf computergestützte Methoden mit dem Ziel, wiederkehrende sinnvolle Muster aus oft sehr umfangreichen Datensätzen zu extrahieren. Im Gegensatz zu konventionellen Ansätzen, bei denen ein menschlicher Programmierer explizit Regeln für das Erkennen solcher Gesetzmäßigkeiten erstellen muss, „erlernt“ ein ML-Modell basierend auf den Daten inhärent eine in gewissem Sinne optimale Vorgehensweise. Es sammelt dabei Erfahrung aus Beobachtungen, den Trainingsdaten, und verwandelt diese mittels Adjustierung seiner internen Parameter in domänenspezifisches Wissen. Seit Anfang der 2000er-Jahre wird ML mit großem Erfolg, z. B. zur Erkennung von Objekten und Segmentierung von Regionen in Bildern, eingesetzt.

2.1 Die Natur als Vorbild

Das menschliche Gehirn als Ursprung unserer kognitiven Leistungsfähigkeit ist eine biologische Rechenmaschine bestehend aus 100 Mrd. Neuronen und dem Zehn- bis Fünfzigfachen davon an Gliazellen (Herculano-Houzel 2012). Obwohl seine Masse nur 2 % zum Gesamtkörpergewicht beiträgt, verbraucht es doch rund 20 % der vom menschlichen Metabolismus zur Verfügung gestellten Energie.

Das Gehirn ermöglicht es uns, Muster sowie Zusammenhänge zu erkennen und komplexe Aufgabenstellungen zu bearbeiten. Ein Strom verschiedenster äußerer sensorischer Reize wird dabei umgewandelt in konkretes Handeln und Interagieren mit unserer Umwelt. Auch wenn das Gehirn den Menschen zu sehr vielschichtigen Gedankengängen bemächtigt, sind jene Prozesse, die dabei auf mikroskopischem Level ablaufen, erstaunlich rudimentär. Die einzelnen Neuronen leiten entweder Strom weiter oder verbleiben in einem Ruhezustand und codieren damit ein binäres Signal, welches an und für sich noch wenig Möglichkeiten bietet, Informationen zu verwerten. Erst die Komposition vieler dieser elementaren Komponenten macht das Gehirn zu einem ausdrucksstarken Instrument der Datenverarbeitung, das im Zentrum des menschlichen Nervensystems steht.

2.2 Über Bits und Bytes

Die theoretischen Grundlagen sind für die wichtigsten ML-Verfahren, d. h. ANN, Convolutional Neural Networks (CNN) und Support-Vector Machines (SVM), allgemein gültig. Man beachte, dass eine SVM als Spezialfall eines ANNs im Rahmen von überwachtem Lernen betrachtet werden kann.

Am Beginn jedes ML-Problems mit überwachtem Lernen steht ein N-elementiger Datensatz (X, Y) der sich zusammensetzt aus Eingangsvariablen X = (xj)Nj=1 in einem meistens hochdimensionalen Raum und dem gewünschten Resultat Y = (yj)Nj=1. Ist Y nicht bekannt, so spricht man vom, wie schon anfangs erwähnt, unüberwachten Lernen, also das Verarbeiten von nicht markierten Daten, wie z. B. Clusteranalyse mit dem k-Means-Algorithmus. Optimalerweise ist der Datensatz (X, Y) von hoher Qualität, d. h. es werden standardisierte Datenformate eingehalten, er enthält keine fehlenden Werte oder Duplikate und die Anzahl an erklärenden Variablen für eine vorgegebene Problemstellung ist ausreichend. Bis zu einem gewissen Grad kann die Methodik ungenügende Datenqualität z. B. aufgrund von Messfehlern kompensieren, jedoch sinkt mit der Güte der Daten auch die Performance des ML-Modells.

Wir treffen die theoretische Annahme, dass eine uns unbekannte Abbildung f:XY existiert, welche jedem Wert xj das korrekte Ergebnis yj zuordnet, also f (xj) = yj. Das Ziel unseres ML-Algorithmus ist es, diese Abbildung f auf den uns zur Verfügung stehenden Daten bestmöglich mit einem ANN, CNN oder einer SVM, im Folgenden mit h bezeichnet, zu approximieren (Shalev-Shwartz, Ben-David 2014). Sobald ein solches Modell jedoch Vorhersagen für noch nie zuvor gesehene Eingangswerte treffen muss, lässt die Güte der Annäherung h sehr schnell zu wünschen übrig, siehe Abb. 3.

Abb. 3
figure 3

Schematische Darstellung von Approximation mit ML-Modellen: Die unbekannte Abbildung f, welche jedem Wert xj ϵ X das korrekte Ergebnis yj ϵ Y aus dem Datensatz (X, Y) zuordnet, wird mit einem ML Modell, hier als h bezeichnet, angenähert. Der schraffierte Bereich kennzeichnet die Verfügbarkeit von Trainingsdaten. Außerhalb dieses Gebiets offenbart sich ein Nachteil jedes datengetriebenen Modells, nämlich der Mangel an Fähigkeit zur Extrapolation, der sich in einem rapide zunehmenden Fehler widerspiegelt. Zusätzlich hängt das Ergebnis der Modellierung sehr stark von der Qualität der ursprünglichen Daten ab

Inspiriert von den in Abschn. 2.1. beschriebenen biologischen Prozessen setzt sich h aus miteinander verschachtelten linearen Abbildungen zusammen, deren einzelne Komponenten, in Abb. 4 schematisch als Kreise dargestellt, ebenfalls Neuronen genannt werden. Da die Hintereinanderausführung linearer Funktionen wiederum linear ist, werden Nichtlinearitäten als Aktivierungsfunktionen, in den nachfolgenden Ausführungen als σ bezeichnet, dazwischen geschaltet. In den letzten Jahren hat sich hier die sogenannte Rectified Linear Unit (ReLU) als De-facto-Standard etabliert (LeCun et al. 2015; siehe Abb. 5). Insgesamt lässt sich h mit n − 1 versteckten Schichten schreiben als:

$$h(x_{j})=W_{n}\sigma (W_{n-1}(\ldots \sigma (W_{1}x_{j}+b_{1})+\ldots ))+b_{n}=\hat{y}_{j}.$$
(1)
Abb. 4
figure 4

Schematische Darstellung eines Neuronalen Netzwerks: Die Eingangsparameter xj aus dem Trainingsdatensatz X werden mit Gewichten wj multipliziert, ein Biasterm b addiert und auf das Ergebnis dieser affinen Abbildung anschließend punktweise eine Nichtlinearität σ angewendet (links). In ein ANN kann prinzipiell eine beliebige Anzahl von versteckten Schichten und Neuronen eingebaut werden (rechts). Mit dem einhergehenden Anstieg an Parametern nimmt aber nicht nur die Komplexität des ML-Modells, sondern auch die Schwierigkeit des Optimierungsprozesses zu. Falls das gewünschte Resultat yj ϵ Y bekannt ist, wird das Ergebnis ŷj des Modells mit diesem bezüglich einer Kostenfunktion verglichen

Abb. 5
figure 5

Nichtlineare Abbildungen als Aktivierungsfunktion: Da die Hintereinanderausführung zweier linearer Abbildungen wieder linear, ist werden in einem ANN in jedem Neuron punktweise Nichtlinearitäten auf die Daten angewendet. Die Wahl der Funktionen ist vielfältig und erfolgt in Abhängigkeit vom Problem. Die falsche Aktivierungsfunktion kann ebenfalls die Konvergenzgeschwindigkeit des Trainingsprozesses negativ beeinflussen

Die zu bestimmenden Parameter W1, … , Wn sowie b1, … , bn, auch Gewichte bzw. Bias-Terme genannt, werden zufällig initialisiert und dann anhand der Daten (X, Y) optimiert. Dazu bedarf es einer Fehler- oder Kostenfunktion ℓ, welche den Abstand zwischen dem Ergebnis des Modells \(\hat{y}_{j}\) zum tatsächlichen Wert yj misst. Das Trainieren von h bedeutet die empirische Verlustminimierung auf den Daten, genauer:

$$\sum _{j=1}^{N}\ell(y_{j},\hat{y}_{j})\rightarrow \min$$
(2)

mittels einer Feinabstimmung der Gewichte des Modells. Üblicherweise verwendet man bloß 80 % aller Daten zur Bestimmung der Wj,bj laut Gl. 2. Auf den verbleibenden 20 %, dem Testdatensatz, wird das fertig trainierte Modell auf Überanpassung, also eine unerwünschte hohe Genauigkeit auf den Trainingsdaten, getestet.

2.3 Weitere Ansätze

Wie schon eingangs erwähnt, ist die Klassifizierung der Methoden in diesem Bereich schwierig. Auch werden fallweise AI-Algorithmen fälschlicherweise dem Bereich ML zugeordnet. Die folgende Darstellung soll nur einen kurzen Abriss über diverse Verfahren geben, die in diesem Zusammenhang häufig genannt werden.

In Entscheidungsbäumen wird an jeder Verzweigung ein Attribut der Eingangsdaten mit einem zu optimierenden Grenzwert verglichen, bis ein Endknoten erreicht wird. Dieses Verfahren wurde mittlerweile weitgehend durch ML und DL abgelöst. Heuristische Methoden wie z. B. Genetische Algorithmen, Simulated Annealing und Ameisenalgorithmen verwenden – wie auch ANNs – biologisch (bzw. im Fall von Simulated Annealing physikalisch) basierte Konzepte, sind jedoch nicht dem Bereich ML zuzuordnen. Dies gilt auch für Fallbasiertes Schließen, wo eine neue Problemstellung anhand einer Ansammlung ähnlicher bereits gelöster Probleme aus der Vergangenheit bewältigt wird. Statistische Verfahren wie z. B. PCA aber auch k-Means-Clustering sind weiterhin in Gebrauch, oft jedoch nur als Vorbearbeitungsschritt für detailliertere Verfahren.

3 Eine Erfolgsgeschichte

Im Wesentlichen waren die folgenden drei Faktoren ausschlaggebend für das Wiederaufgreifen von zumindest in der Literatur bereits bekannten ML-Algorithmen:

3.1 Theorie und Methoden

Erste sehr primitive Formen von ML-Modellen existieren schon seit langem. Als Beispiel sei hier das von Rosenblatt 1957 entwickelte sogenannte Perceptron erwähnt (Rosenblatt 1957). Es trennt Datenpunkte linear mittels eines Schwellenwerts und ermöglicht somit eine Unterteilung in zwei verschiedene Klassen.

Jenes theoretische Resultat, auf dem im Prinzip alle heutigen ML-Modelle beruhen, wurde 1989 von Cybenko bewiesen (Cybenko 1989). Das „Universal Approximation Theorem“ garantiert, dass eine stetige Funktion beliebig genau mit einer wie in Gl. 1 definierten Abbildung approximiert werden kann. Auch für die Praxis relevante Resultate, wie z. B. der in Lecun et al. (1989) beschriebene Algorithmus, mit dessen Hilfe die Parameter eines ML-Modells über eine Kostenfunktion Gl. 2 optimiert werden, folgten schon sehr rasch. Trotz der fundierten theoretischen Ergebnisse stellte sich der gewünschte Erfolg in der Praxis allerdings nicht ein und das Interesse an ML flaute Ende der 80er-Jahre wieder ab. Das erneute Aufkommen von ML und DL ab dem Jahre 2012 (vgl. Abb. 2) war nur aufgrund der passenden technischen Voraussetzungen möglich.

3.2 Hardware

ML auf einer herkömmlichen Central Processing Unit (CPU) ist aufgrund veralteter Software und dem immensen Rechenaufwand unpraktikabel (Steinkraus et al. 2005), daher ist die Verwendung einer Graphics Processing Unit (GPU) fast zwingend notwendig. Deren spezielle auf parallele Verarbeitung der Daten ausgerichtete Architektur erbringt für rechenintensive Anwendungen, wie z. B. das Optimieren von teilweise Millionen Modellparametern, eine erhebliche Leistungssteigerung im Gegensatz zu CPUs, vgl. dazu auch Abb. 6. Grund dafür ist, dass sich ML-Algorithmen größtenteils auf die Verwendung von simplen Operationen aus der Linearen Algebra wie innere/äußere Produkte, Addition oder Multiplikation von Matrizen und Vektoren sowie Transponieren stützen, die den hohen Grad an Parallelisierung optimal nutzen können.

Abb. 6
figure 6

Entwicklung von CPU/GPU-Hardware: Trotz ähnlicher Steigerungsraten bei der Rechenleistung von CPU/GPU ist z. B. die NVIDIA Titan X um circa eine Größenordnung leistungsstärker als der Xeon E5-2699 v4. Da ML-Algorithmen typischerweise von simplen Matrix-Vektor-Operationen Gebrauch machen, ist die Architektur von Grafikkarten gegenüber jener von herkömmlichen Prozessoren klar im Vorteil. Das Auswerten der ML-Modelle kann mithilfe einer dezidierten GPU um mehr als das Dreifache beschleunigt werden. (Steinkraus et al. 2005; https://github.com/karlrupp/cpu-gpu-mic-comparison)

3.3 Sensoren und Messdaten

Während der durchschnittliche Preis eines Internet of Things (IoT)-Sensors 2004 noch 1,3 $ betrug, verringerte sich dieser Wert bis ins Jahr 2018 auf nur mehr 0,44 $, eine Fortsetzung dieses Trends in die Zukunft scheint sehr wahrscheinlichFootnote 2. Mit dem Preisverfall setzt auch gleichzeitig die gesteigerte Verfügbarkeit und damit ein umfangreicheres Sammeln von Messdaten jeglicher Art ein. Wie z. B. in Reinecke et al. (2018) beschrieben, werden in einer Abwasserreinigungsanlage (ARA) inzwischen hydrodynamisch relevante Prozessparameter wie Geschwindigkeit der Strömung oder der Luftblasen und sogar Blasengrößenverteilungen im Belebungsbecken erhoben. Damit konnten in weiterer Folge signifikante Energieeinsparungen von mehr als 20 % gegenüber dem Referenzbetrieb der ARA erreicht werden. Diese großen Mengen an Messdaten müssen auch archiviert werden. Die Kosten für Festplattenspeicher belaufen sich aber mittlerweile auf weniger als 0,03 $ pro GigabyteFootnote 3.

4 Metastudien

Hadjimichael et al. (2016) verschaffen sich anhand der Abstrakt- und Zitierungsdatenbank Scopus von Elsevier einen Eindruck von der Beliebtheit des Themas AI, hauptsächlich ML, im akademischen Bereich der SWW. Für die beiden Themengebiete Wasserversorgung und Abwasserbehandlung konnte ein Wandel von herkömmlichen Clustering-Methoden, verwendet in den späten 60er-Jahren, hin zu ANNs, der heute am weitesten verbreiteten Methodik, beobachtet werden. Allerdings haben viele ML-Techniken den Sprung in die Praxis oft aufgrund der dafür nötigen interdisziplinären Erfahrung noch nicht geschafft und bleiben akademische Gedankenexperimente.

In Ghalehkhondabi et al. (2017) werden in den Jahren 2005–2015 veröffentlichte Arbeiten zur Wasserbedarfsprognose untersucht. Viele davon bestätigen die verbesserten Vorhersagen, wenn auch in den meisten Fällen nur für kurzfristige Zeiträume, mit innovativen ML-Modellen im Vergleich zu den klassischen. Interessanterweise wurden sehr moderne Methoden wie DL oder unüberwachtes Lernen noch nicht getestet.

Auch im Bereich der Vorhersage von Überflutungsereignissen stützen sich viele Modelle schon auf ANNs, Perceptrons, SVMs oder Entscheidungsbäume, die Anzahl an Publikationen dazu wächst beständig (Mosavi et al. 2018). Ein zu beobachtender Trend ist die Zunahme von hybriden Modellen, z. B. wenn Eingangsdaten für ein ANN zuerst mittels Wavelets transformiert werden, um die Genauigkeit der Vorhersagen, die Fähigkeit zur Extrapolation oder die Berechnungsgeschwindigkeit zu erhöhen. Die Performance der in Mosavi et al. (2018) behandelten Arbeiten wird anhand von Summe der Fehlerquadrate sowie dem Determinationskoeffizient miteinander verglichen.

Eine äußerst interessante historische Betrachtungsweise von ML im Abwasserbereich ist in Corominas et al. (2018) zu finden. Als Beweggründe hinter der Verwendung von datengetriebenen Modellen in einer ARA werden einerseits der Wunsch nach Kontrolle über die biochemischen Verfahren sowie eine daraus resultierende Stabilität der Abbauprozesse, andererseits das Profitieren aus von bis dato ungenützten Datenfriedhöfen genannt. Mithilfe der Verhältnisgröße von Publikationen zu Zitaten wird eine Gartner-Hype-Zyklus-Grafik erstellt, laut der wir uns nach dem „Tal der Enttäuschungen“ und dem anschließenden „Pfad der Erleuchtung“ gerade auf dem „Plateau der Produktivität“ befinden. Wie auch in Ghalehkhondabi et al. (2017) erwähnt, finden nur sehr wenige theoretische Arbeiten, nämlich rund 9 %, wirklich Anwendung in der Praxis. Der Rest wurde entweder nicht unter realen Bedingungen getestet, oder nur auf einem synthetischen Datensatz validiert.

Von allgemeinen Interesse sind Eggimann et al. (2017) und Song et al. (2018). Es werden Chancen sowie Risiken von datenbasierten Ansätzen und Big Data in den einzelnen Teilbereichen der SWW aufgelistet.

Die nachfolgende Auflistung von Publikationen betreffend ML in der SWW erhebt keinen Anspruch auf Vollständigkeit. Es wurde lediglich der Versuch unternommen, interessante Fallbeispiele für den praktischen Anwender herauszufiltern. Eine Übersicht ausgewählter Arbeiten ist in Tab. 1 zu finden.

Tab. 1 ML in der SWW, ausgewählte Beispiele

5 Wasserversorgung

Einen ausführlichen Gesamtüberblick über die Fortschritte der letzten drei Jahrzehnte im Bereich der Wasserbedarfsprognose verschaffen sich House-Peters und Chang (2011). Es erfolgt eine grobe Unterteilung der Methoden basierend auf zeitlicher und räumlicher Skalierung der Daten, Behandlung von Unsicherheiten der Eingangsvariablen, der Nichtlinearität des Modells, sowie ob ein dynamischer Ansatz gewählt wurde.

Der Verbrauch an Grundwasser nimmt in vielen mediterranen Bereichen bereits sehr hohe Ausmaße an, weshalb Versorger immer mehr unter Druck stehen, den wachsenden Bedarf zu decken. Eine akkurate Prognose des stündlichen Wasserverbrauchs in städtischen Gebieten ist deshalb notwendig, um die Versorgungssicherheit gewährleisten zu können (Herrera et al. 2010). Die Autoren dieser Arbeit stellen herkömmliche ANNs weiteren statistischen Methoden wie Projection Pursuit Regression (PPR), Multivariate Adaptive Regression Splines (MARS), SVM und Entscheidungsbäumen gegenüber. Die Vorhersagegenauigkeit wird anhand von Zeitserien für den stündlich gemessenen Wasserbedarf einer spanischen Stadt mit 5000 Einwohnern über eine Periode von vier Monaten validiert. Besonders klimatische Parameter, wie z. B. Temperatur und Niederschlag, scheinen einen dynamischen Effekt auf den stündlichen Wasserverbrauch zu haben und werden als solche in die Modelle miteinbezogen. Erstaunlicherweise übertrifft – für diese Problemstellung – eine SVM die Genauigkeit des sehr viel komplexeren ANN-Modells.

In Adamowski et al. (2012) wird mit linearer sowie nichtlinearer Regression und verschiedenen ANNs der kurzfristige Wasserbedarf prognostiziert. Der Datensatz umfasst tägliche Messwerte von Niederschlag, Temperatur und Verbrauch auf acht Jahre in Montreal, Kanada. Aufgrund des maroden Zustands des Leitungsnetzes sind Prognosen von besonderer Bedeutung, weil sie es den Planern ermöglichen, ein besseres Verständnis der Dynamik und der zugrunde liegenden Faktoren der Wassernutzung zu entwickeln. Weiters können Wartungs- und Betriebszeiten der Infrastruktur optimiert, Vorteile und Kosten von Wasserspartechnologien analysiert sowie Spitzen im Verbrauch vorhergesagt werden.

Mit Prognosen für einen längerfristigen Zeitraum von einer Woche und ein bis zwei Monaten befassen sich Tiwari und Adamowski (2015). Als erschwerender Faktor kommt hier der limitierte Datensatz von weniger als drei Jahren hinzu. Abhilfe schafft die sogenannte Bootstrap-Methode, bei der zunächst die Modelle auf endlich vielen zufällig ausgewählten Teilmengen der gesamten Daten trainiert werden. Der gemittelte Wert der Prognosen aller ANNs liefert anschließend trotz geringer Anzahl an Observationen bessere Ergebnisse. Darüber hinaus kann mit den Realisierungen der einzelnen schwächeren Modelle ein Konfidenzband für Punktschätzungen erzeugt werden.

Auch Entscheidungen zur Instandhaltung des Rohrleitungssystems können mit Unterstützung von ML- bzw. AI-Methoden getroffen und verbessert werden, so geschehen für eine mittelgroße österreichische Stadt in Winkler et al. (2018). Nach einer gründlichen Vorbehandlung der Daten wurden mehrere Entscheidungsbäume trainiert und deren gemitteltes Ergebnis als Ausfallswahrscheinlichkeit einzelner Abschnitte im Rohrnetz interpretiert. Im Gegensatz zu Blackbox-Modellen wie ANNs bieten Bäume weiterhin die Möglichkeit zur Interpretation der Ergebnisse, da diese nur von linear getrennten einzelnen Merkmalen, wie z. B. Alter, Material oder Rohrlänge abhängen. Mit derselben Methodik wird in Kumar et al. (2018) die Wahrscheinlichkeit eines Rohrbruchs für mehr als 800 km Leitungen in Syracuse, U. S. prognostiziert. Aufgrund sinkender Einwohnerzahlen kann die Stadtverwaltung das mittlerweile überdimensionierte Leitungsnetz nicht mehr instandhalten. Zum Zeitpunkt der Veröffentlichung dieser Arbeit waren bereits 42 der Top 52 vom Modell vorhergesagten problematischen Häuserblöcke von Schäden betroffen.

Eine im großen Stil angelegte Studie untersucht Trinkwasserversorgungsmuster in 627 chinesischen Städten über einen Zeitraum von 12 Jahren (De Clercq et al. 2018). In die Analyse fließen dabei gewichtete Merkmale wie Zuverlässigkeit, Wasserqualität, Effizienz und Verbrauch mit ein. Zusätzlich werden die Städte anhand eines mit PCA entwickelten Nachhaltigkeitsindex verglichen und gereiht.

6 Entwässerung

Eine typische Problemstellung in der Siedlungsentwässerung ist die Echtzeitsteuerung der Anlagen, welche grundsätzlich ein Optimierungs- bzw. Entscheidungsfindungsproblem darstellt. Obwohl die verwendeten Verfahren nicht stringent dem Bereich ML, sondern dem weiter gefassten Begriff AI zuzuordnen sind, wird hier exemplarisch ein Beispiel vorgestellt: Die in den Niederlanden verwendete proprietäre Software AquariusFootnote 4 bietet Möglichkeiten sowohl zur lokalen Steuerung von regulierenden Strukturen, wie z. B. Pumpstationen oder Wehre, oder einer zentralisierten dynamischen Realtime Control (RTC). Für letzteres bedarf es aktueller Messdaten von verschiedenen Knotenpunkten des Abflusssystems, um anschließend die beste Kontrollstrategie als Lösung eines Optimierungsproblems formulieren zu können (Lobbrecht und Solomatine 2002). Einziger Nachteil ist die Dimensionierung des Problems für komplexe Wassersysteme, wo die Anzahl an freien Variablen schnell mehrere 10.000 betragen kann. Hinzu kommen umfangreiche Nebenbedingungen, die sich aus den technisch machbaren Grenzen der Steuerungselemente ergeben. Das Finden einer Lösung kann hier bis zu 10 min dauern, für RTC nicht akzeptabel. Deshalb wird in Lobbrecht und Solomatine (2002) ein AI-Modell trainiert, welches nur lokale Informationen verarbeitet, aber die globale Kontrollstrategie der Aquarius-Software zu imitieren versucht. Die AI repliziert anschließend zentralisiertes Verhalten auf lokaler Ebene in Echtzeit, ohne den Gesamtzustand des Systems zu kennen.

Inspektionen von Abwasserrohren erfolgen meist unter Zuhilfenahme von Closed-Circuit Television (CCTV) Systemen, d. h. Videoüberwachung. Das Auswerten etlicher Stunden Videomaterials mittels händischer Selektierung ist eine ermüdende Tätigkeit sowie abhängig von subjektivem Empfinden. Mit ML-Methoden zur Bildverarbeitung kann diese Arbeit größtenteils automatisiert werden. In Halfawy und Hengmeechai (2014) und Yang und Su (2008) werden einzelne Frames zuerst manuell bearbeitet, bevor ein ANN und eine SVM auf Erkennung von z. B. Rissen oder Brüchen trainiert wird. Die modernere Vorgehensweise ist die Verwendung eines CNN (Cheng und Wang 2018), die besonders für Bildanalysen geeignet sind. Völlig autonom werden von diesem Modell zuerst interessante Bereiche auf den Frames markiert, bevor eine Klassifizierung der Mängel erfolgt.

Einen gänzlich anderen Ansatz verfolgen Carbajal et al. (2017). Modellbasierte Aufgaben wie Sensitivitätsanalysen, Optimierung und RTC erfordern viele kostspielige Auswertungen. Schnelle Emulatoren bieten eine Lösung für diese Effizienzanforderung und tauschen unnötige Genauigkeit gegen erhöhte Geschwindigkeit. Zu diesem Zweck wird in Carbajal et al. (2017) eine komplette Simulation mit dem physikalischen Modell SWMM (Gironás et al. 2010) mit datengetriebenen AI-Modellen emuliert. Der prozentuale Fehler bewegt sich zwischen 6 und 7,9 % bei gleichzeitig bis zu mehr als 5 × 104-facher Beschleunigung.

Der in Abschn. 2.2. beschriebene Optimierungsprozess der Parameter eines ML-Modells kann eventuell in lokalen Minima hängenbleiben und nicht gegen ein globales Optimum konvergieren. Deshalb wird in Niu (2018) eine AI verwendet, welche eine optimale analytische Lösung im Sinne der geringsten Fehlerquadrate besitzt. Damit prognostizieren die Autoren den täglichen Abfluss eines chinesischen Stausees auf einem 15 Jahre umfassenden Datensatz, welcher auch Niederschlagsereignisse beinhaltet.

7 Abwasserbehandlung

Da heutzutage nahezu alle Prozesse einer ARA gemessen und aufgezeichnet werden (Reinecke et al. 2018), scheint die Fülle an verfügbaren Daten wie geschaffen für ML. Bereits 1997 wurde in Sanchez-Marre und Cortes (1997) die Steuerung einer ARA mit fallbasiertem Schließen veröffentlicht. Dazu muss zunächst von einem Expertenteam eine Bibliothek von Zuständen der ARA im normalen Betrieb sowie bekannter Störfälle und deren Behebung erstellt werden. Im weiteren Verlauf übernimmt eine AI basierend auf diesen Aufzeichnungen den laufenden Betrieb, indem der aktuelle Zustand der ARA mit jenen in der Bibliothek verglichen und Parameter dementsprechend adjustiert werden. Tritt eine bis dato noch unbekannte Situation auf, wird diese als eigener Fall in die Bibliothek mitaufgenommen und somit der Erfahrungsschatz der AI ständig ausgebaut.

Zeng et al. (2003) kombinieren jeweils ein ML-Modell, um einerseits den gesamten Prozess der auf Flockung basierenden Reinigung der Abwässer einer Papiermühle abzubilden, andererseits die Steuerung der Dosierung von Zugabestoffen zu kontrollieren. Ziel dabei ist die Optimierung der Menge an notwendigen Gerinnungsmitteln in Hinblick auf Kosten bei gleichzeitigem Einhalten von gesetzlich vorgegebenen Mindeststandards im Abfluss.

Der Gärprozess in einem anaeroben Faulturm kann mit einem ANN modelliert werden (Qdais et al. 2010). Als Eingangsvariablen dienen unter anderem Temperatur sowie pH-Konzentration des Faulschlamms, der Ausgangswert des Modells ist die Menge an produziertem Methangas in m3. So kann bei leichter Adjustierung der Betriebsparameter die Gasausbeute beobachtet und optimiert werden, ohne jedoch in den operativen Betrieb der echten Anlage eingreifen zu müssen. In Qdais et al. (2010) konnte somit der prozentuale Anteil an Methangas in einer jordanischen Biogasanlage um circa 7 % gesteigert werden.

Gleich mehrere Arbeiten (Alejo et al. 2018; Fang et al. 2011; Guo et al. 2015) befassen sich mit der Prozessoptimierung bei der Entfernung von Stickstoff als umweltschädlichste Verbindung im Abfluss einer ARA. Mit dem Einsatz von ANNs und SVMs konnte somit unter anderem das Volumen des anoxischen Tanks um 11 % verkleinert, das interne Rezirkulationsvolumen von 300 auf 250 % verringert sowie der Anlagenbetreiber bei zu großen Mengen an Lebensmittelabfällen frühzeitig vorgewarnt werden.

In Hernandez-Del-Olmo et al. (2012) wird eine AI mit RL darauf trainiert, den Sollwert für den gelösten Sauerstoff im Belebtschlammverfahren optimal zu bestimmen. Die dafür verwendete Kostenfunktion setzt sich als gewichtete Summe von Betriebskosten und Bußgeldern für überschrittene Schadstoffkonzentrationen im Abfluss der ARA zusammen. Etwaige Bedenken zwecks ethischer Vertretbarkeit bzw. Umweltschutz seien an dieser Stelle einstweilen außen vor gelassen, die Resultate sprechen jedenfalls für sich. Eine der am öftesten in ARAs zum Einsatz kommende Kontrollstrategie wurde in puncto Kosteneffizienz übertroffen.

8 Conclusio

Digitalisierung ist ein allgegenwärtiges Schlagwort und die Anwendung derartiger Methoden wird für fast alle Bereiche und Prozesse der Industrie vorangetrieben. Digitalisierung ist jedoch ein Überbegriff und geht weit über die Anwendung von AI bzw. noch enger gefasst die Anwendung von ML für die Modellierung hinaus. In der SWW ist Digitalisierung schon lange bekannt und die Sammlung, Analyse und Verwendung von Daten werden generell und mit Erfolg angewendet.

Dem gegenüber ist die Anwendung datengetriebener Modelle in den drei Bereichen Wasserversorgung, Entwässerung und Abwasserbehandlung noch nicht so weit verbreitet. Beispiele aus der Literatur zeigen aber durchwegs positive Effekte bei der Anwendung. Dabei sind ML-Methoden keinesfalls als Ersatz, sondern bloß als Unterstützung für menschliche Entscheidungsträger anzusehen.

Speziell das verstärkende Lernen bietet viel Potenzial, wie die aktuellsten medienwirksam vermarkteten Erfolge für das Brettspiel Go (Silver et al. 2016) und das von Blizzard Entertainment entwickelte und veröffentlichte Science-Fiction-Echtzeit-Strategie-Videospiel StarCraft II (Vinyals et al. 2017) vermuten lassen. Diese Modelle basieren auf einem Trainingsalgorithmus, welcher von selbst eine Vorgehensweise erlernt, mit der eine vorher definierte Form der Belohnung maximiert wird. Besonders bei Datensätzen, über die wenig bis nichts bekannt ist, sind diese Algorithmen in der Lage, Informationen zu extrahieren. Trotz des immensen Erfolgs von ML bzw. AI im akademischen Sektor sowie ausgewählten Bereichen der Praxis, sind bis zur endgültigen Marktreife dieser Methoden noch einige Hürden zu überwinden. Der Einsatz interdisziplinärer Arbeitsgruppen für ML als Verbindung zwischen den Ingenieurwissenschaften, der Mathematik und der Informatik ist aus unserer Sicht unumgänglich.