1 Einleitung

Deep Learning (DL) ist das Herzstück der modernen Künstlichen Intelligenz (e.g. Hinton et al. 2012; Sutskever et al. 2014; Krizhevsky et al. 2017). Bei DL handelt es sich um eine Reihe von Methoden, die das Lösen von Problemen mittels vielschichtiger künstlicher neuronaler Netze ermöglicht. Dieser Beitrag veranschaulicht das Potenzial von DL für die wasserwirtschaftliche Anwendung. Der Fokus liegt dabei auf konkreten Problemstellungen aus der Niederschlags-Abfluss-Modellierung, aus drei Themengebieten: 1. Regionale Modellierung, 2. Vorhersage in unbeobachteten Einzugsgebieten und 3. Modelleigenschaften.

1.1 Regionale Modellierung

Die regionale Skala ist typisch für die hydrologische Modellbildung. Sie ist größer als ein einzelner Hang oder Flussabschnitt, jedoch kleiner als ein Kontinent (e.g. Blöschl und Sivapalan 1995). Die Herausforderung für Modellierer besteht darin, aus dem vorhandenen Prozessverständnis und den verfügbaren Daten (etwa Pegel‑, Grundwasser- und/oder Schneehöhen-Messungen) ein Modell zu erarbeiten. Dabei kommt es zu einem Kompromiss zwischen hydrologisch konsistenten Parametern und Performance (Klotz et al. 2017; Feigl et al. 2020; Mizukami et al. 2017). Den Schwerpunkt auf nur eines der beiden Kriterien zu legen, ist kaum machbar. Obwohl die Parameter hydrologischer Modelle oft eine physikalische Bedeutung haben (z. B. Infiltrationskoeffizient), ist es in der Praxis nicht möglich, die Modellparameter aus der Theorie abzuleiten. Ein wesentlicher Grund dafür ist, dass unsere Prozessbeschreibung auf einer anderen Skala konzeptualisiert wurde (z. B. im Labor), als sie für die hydrologische Modellierung benötigt wird. Die Ansätze lassen sich nicht ohne weiteres auf Einzugsgebiets-Skala übertragen (Klemeš 1983). Das rein empirische Bestimmen der Parameter gestaltet sich ähnlich problematisch. Konventionelle Modelle (etwa physikalisch basierte oder konzeptionelle Ansätze) wurden entwickelt, um hydrologische Prozesse abzubilden und sind nicht unbedingt dafür vorgesehen, eine möglichst einfache Parametrisierung zu ermöglichen (Klemeš 1997; Kirchner 2006). Für die regionale Modellierung ist es außerdem schwierig, eine allgemeingültige Abbildung von Einzugsgebietseigenschaften zu Modellparametern zu finden, die zu ähnlich guten Vorhersagen führt wie einzugsgebietsspezifisch kalibrierte Modelle (Hrachowitz et al., 2013; Mizukami et al. 2017; Blöschl et al., 2019).

DL ermöglicht einen fundamental anderen Ansatz der Modellbildung, der nicht auf vordefinierten Regeln basiert, sondern das gesamte Prozessverständnis aus den verfügbaren Daten lernen muss. Der von uns entwickelte Ansatz führt zu Modellen, deren Qualität tendenziell mit der Zahl der abgedeckten Einzugsgebiete steigt (siehe Kratzert et al. 2018b, 2019c; Gauch et al. 2021). Konventionelle hydrologische Modellansätze erreichen deutlich bessere Modellgüte, wenn sie für jedes Einzugsgebiet spezifisch kalibriert werden statt für viele (diverse) Einzugsgebiete auf einmal (siehe Abb. 1). Der Nutzen von strukturell explizit dargestellten Systemprozessen ist hier limitierend. DL-Modelle haben den Vorteil, dass sie alle Prozesse modellieren können, die aus den verfügbaren Daten ableitbar sind: Je größer und diverser die verfügbare Datenmenge ist, desto allgemeiner ist das gelernte Prozessverständnis (Kratzert et al. 2019c; Gauch et al. 2021; siehe auch Halevy et al. 2009).

Abb. 1
figure 1

Beispiel für die Verschlechterung der Modellgüte durch regionales Modellieren. Zu sehen sind die empirischen kumulativen Verteilungsfunktionen der Nash-Sutcliffe Effizienz (NSE) von zwei hydrologischen Modellen. VIC (Liang et al. 1994) in Blau und mHM (Samaniego et al. 2010; Mizukami et al. 2017) in Rot. Die unterbrochenen Linien zeigen die Performance einzugsgebietsspezifisch kalibrierter Modelle, die durchgehenden Linien jene regional kalibrierter Modelle. Je weiter rechts die Dichtekurve, desto besser

1.2 Vorhersage in unbeobachteten Einzugsgebieten

Zum Modellieren eines Einzugsgebiets werden in der Regel meteorologische Inputs (etwa Niederschlag und Temperatur) und Daten bezüglich der vorhandenen Einzugsgebietseigenschaften und Abflussmengen benötigt. Vor allem Abflussmessungen sind jedoch nicht für alle Einzugsgebiete vorhanden.

Die Vorhersage in unbeobachteten Einzugsgebieten gilt als allgemein sehr schwierig (Sivapalan 2003; Parajka et al. 2013). Hydrologische Prozesse sind sowohl räumlich als auch zeitlich heterogen und auf verschiedenen relevanten Skalen nicht vollständig verstanden. Im Allgemeinen fehlen hoch aufgelöste Informationen über den Aufbau des Untergrunds, welche eine genaue physikalische Modellierung ermöglichen würden. In der Tat gestaltet sich das Problem derart kompliziert, dass es oft als eines der zentralen Probleme der hydrologischen Modellierung angesehen wird (Blöschl et al., 2013; Blöschl et al. 2019). Die International Association of Hydrological Sciences (IAHS) hat der Lösung dieser Fragestellung (Vorhersage in unbeobachteten Einzugsgebieten) eine ganze Dekade (2003–2012) gewidmet, trotzdem gilt sie bis heute als weitgehend ungelöst (Hrachowitz et al. 2013).

DL-Modelle sind auch hier sinnvoll nutzbar, da sie kein explizites Wissen über die räumlichen Zusammenhänge voraussetzen. Stattdessen werden räumlich übertragbare Repräsentationen gelernt. Kap. 3 demonstriert diese Vorteile. Unter anderem zeigt sich, dass DL-Ansätze bessere Modellgüte in „unbeobachteten“ Einzugsgebieten aufweisen als einzugsgebietsspezifisch kalibrierte, klassische Niederschlags-Abfluss-Modelle.

1.3 Modelleigenschaften

Die von uns vorgestellten DL-Ansätze besitzen zusätzlich inhärente Eigenschaften, welche für die hydrologische Modellierung von Interesse sind. Wir demonstrieren zwei Formen dieser Modelleigenschaften: Die erste Eigenschaft bezieht sich auf das Einbeziehen von unterschiedlichen Eingabedaten. Wir zeigen, wie DL-Modelle Eingabedaten verschiedener meteorologischer Produkte (DayMet, Maurer und NLDAS) verwenden und von den daraus resultierenden Synergieeffekten profitieren können (siehe z. B. Kratzert et al. 2020). Als zweite Eigenschaft diskutieren wir die Speicher der vorgestellten Modellklasse. Konkret demonstrieren wir, wie Informationen aus den „black box“-Modellen gewonnen werden können, indem deren interne Repräsentationen bezüglich Prozesseigenschaften analysiert werden (Kratzert et al., 2019a).

Im Folgenden geben wir zunächst einen Überblick über das von uns verwendete DL-Modell sowie von uns genutzte Datensätze (Kap. 2). Anschließend gehen wir im Detail auf die drei Kernthemen dieser Publikation ein: Regionale Modellierung (Abschn. 3.1), Vorhersage in unbeobachteten Einzugsgebieten (Abschn. 3.2) sowie Modelleigenschaften (Abschn. 3.3). Dem folgt eine Übersicht an Erweiterungen von DL-basierten Niederschlags-Abfluss-Modellen (Kap. 4.). Abschließend fassen wir die Ergebnisse noch einmal zusammen und geben einen Ausblick auf zukünftige Forschungsthemen (Kap. 5) die auch im Rahmen hydrologischer und wasserwirtschaftlicher Fragestellungen sinnvolle Unterstützung bieten werden.

2 Methoden

2.1 Long Short-Term Memory-Netzwerk

Die Grundlage unserer DL-Modelle bildet das Long Short-Term Memory-Netzwerk (LSTM; Hochreiter 1991; Hochreiter und Schmidhuber 1997; Gers, Schmidhuber & Cummins 2000). Das LSTM gehört zur Familie der rekurrenten neuronalen Netze. Dies sind neuronale Netze, die Eingabedaten in sequenzieller Reihenfolge verarbeiten (siehe Abb. 2). Eine spezielle Eigenschaft von LSTMs ist, dass sie dedizierte interne Speicher besitzen, um Informationen für lange Zeit speichern zu können. Zusätzlich verfügen LSTMs über eine Reihe von sogenannten Gates. Diese kontrollieren in jedem Zeitschritt (a) welche Informationen aus dem Speicher gelöscht werden, (b) was für neue Informationen aus den Eingabedaten in den internen Speicher hinzugefügt werden, und (c) aus welchen Informationen des aktuellen Speichers die Vorhersage gewonnen werden kann. Außerdem, und dies macht LSTMs speziell interessant für den wasserwirtschaftlichen Einsatz, besitzen sie Parallelen zu klassischen hydrologischen Modellen. Wir skizzieren diese im Folgenden. Für eine detaillierte, technische Beschreibung verweisen wir auf Kratzert et al. (2018b).

Abb. 2
figure 2

Setup-Schema für die Verwendung des LSTM. Dem LSTM (blau) wird an jedem Zeitschritt ein Eingabevektor (lila) bereitgestellt. Es besitzt interne Speicher, die von Zeitschritt zu Zeitschritt aktualisiert werden können. Aus der LSTM-Ausgabe des letzten Zeitschritts (gelb) wird die Vorhersage ermittelt

Die meisten in der Hydrologie verwendeten Modelle bestehen aus einer Abfolge von Speichern (z. B. für Schnee oder Bodenfeuchte) und fest eingebauten Regeln. Diese Regeln definieren, wie Eingabedaten die Speicher verändern und wie aus den Speichern die Abflussvorhersage gewonnen werden kann (e.g. Liang et al. 1994; Seibert und Vis 2012). Es bleibt eine Reihe an Modellparametern, mit denen sich die Modelle an individuelle Einzugsgebiete anpassen lassen. Wie eingangs beschrieben, besitzen auch LSTMs interne Speicher und auch hier wird die Vorhersage aus den Speichern erzeugt. Der wesentliche Unterschied ist jedoch, dass beim LSTM nicht von vornherein definiert ist, wie die Eingabedaten mit der Zielvariable zusammenhängen und welche Informationen dafür über die Zeit gespeichert oder akkumuliert werden müssen. Diese Zusammenhänge werden während der sogenannten Trainingsphase vom LSTM gelernt. Das LSTM muss also nicht passende Parameterschätzungen einer gegebenen Modellstruktur finden, sondern ein gesamtes Modell. Dies ist eine Stärke: Klassische hydrologische Modelle können nur jene Systemprozesse berücksichtigen, welche explizit in das Modell eingebaut wurden – LSTMs hingegen können alle Prozesse modellieren, die aus den verfügbaren Daten ableitbar sind.

In unseren Experimenten verwenden wir das LSTM in folgender Konfiguration: Wir übergeben dem LSTM eine Sequenz von ca. einem Jahr an meteorologischen Eingabedaten, um eine Abflussvorhersage am letzten Zeitschritt zu erzeugen. Zusätzlich zu den meteorologischen Daten werden in den meisten Experimenten auch statische Kenngrößen des Einzugsgebietes (wie etwa Ton- oder Sandgehalt des Bodens) als zusätzliche Inputs an jedem Zeitschritt übergeben (siehe Abschn. 2.2).

2.2 Daten

In allen Experimenten verwenden wir Daten aus dem CAMELS-Datensatz (Newman et al. 2015; Addor et al. 2017), einem offenen hydrologischen Datensatz mit 671 unbeeinflussten Einzugsgebieten aus den USA. Die Einzugsgebiete sind quer über die USA verteilt und decken ein breites Spektrum an unterschiedlichen hydrologischen Eigenschaften ab (Abb. 3). Neben ca. 35 Jahren Abflussdaten in täglicher Auflösung beinhaltet CAMELS meteorologische Daten von drei verschiedenen meteorologischen Produkten sowie eine Reihe statischer Kenngrößen. Die drei Produkte beinhalten jeweils Niederschlag, tägliche Höchst- und Niedertemperatur, Sonneneinstrahlung und Wasserdampfdruck. Die statischen Kenngrößen lassen sich grob in die Bereiche Boden, Vegetation, Hydrologie, Klima und Topologie gliedern (eine Übersicht ist in Newman et al. 2015 und Addor et al. 2017 zu finden).

Abb. 3
figure 3

Übersichtskarte der CAMELS-Einzugsgebiete, farblich kodiert nach Trockenheit (definiert als das Verhältnis der mittleren jährlichen potenziellen Verdunstung zu mittleren jährlichen Niederschlagsmenge, siehe Addor et al. (2017))

3 Experimente und Ergebnisse

3.1 Regionale Modellierung

3.1.1 Vergleich des einzugsgebietsspezifischen und regionalen LSTM

In diesem Experiment vergleichen wir einzugsgebietsspezifische LSTMs mit einem regionalen LSTM. Ersteres bedeutet, dass für jedes Einzugsgebiet ein separates LSTM trainiert und verwendet wird. Letzteres bedeutet, dass ein einziges Modell so aufgesetzt wird, dass es für alle Einzugsgebiete verwendbar ist (siehe Diskussion über regionale Modellbildung in der Einleitung). Die einzugsgebietsspezifischen LSTMs erhalten ausschließlich meteorologische Eingabedaten, wohingegen das regionale LSTM zusätzlich statische Kenngrößen der Einzugsgebiete als Inputs bekommt (siehe Abschn. 2.2). Dies ermöglicht es dem regionalen LSTM, die meteorologischen Inputs je nach Einzugsgebiet unterschiedlich zu verarbeiten (siehe Kratzert et al. 2019c).

Abb. 4 zeigt die empirischen kumulativen Verteilungsfunktionen der NSE-Werte aus den CAMELS-Einzugsgebieten. Der regionale Ansatz (Median NSE 0,76) ist deutlich besser als die einzugsgebietsspezifischen LSTMs (Median NSE 0,67). Das Verhalten der LSTMs ist also genau gegensätzlich zu klassischen hydrologischen Modellen, bei denen einzugsgebietsspezifische Ansätze in der Regel deutlich besser sind (siehe auch Abb. 1). Bei der Verwendung von LSTMs als hydrologische Modelle ist es immer sinnvoll, verschiedene Einzugsgebiete in die Modellbildung einfließen zu lassen. Dies gilt selbst dann, wenn das eigentliche Ziel der Modellierung sich auf einen spezifischen Flussabschnitt beschränkt. Eine Erklärung hierfür ist, dass die abflussbildenden Prozesse überall prinzipiell dieselben sind – wenn auch lokal stark unterschiedlich ausgeprägt. Je mehr (diverse) Einzugsgebiete für das Training verwendet werden, desto mehr Prozessverständnis kann vom LSTM aus den Daten gelernt werden. Mehr Einzugsgebiete führen daher tendenziell zu einer besser verallgemeinernden Repräsentation der Niederschlags-Abfluss-Modellierung.

Abb. 4
figure 4

Vergleich der empirischen kumulativen Verteilungen der Nash-Sutcliffe-Effizienz (NSE)-Werte zweier LSTMs über die verschiedenen Einzugsgebiete. Die bestmögliche Verteilung entspricht einer vertikalen Linie bei NSE 1,0. In Analogie zu Abb. 1 sind die einzugsgebietsspezifischen LSTMs mittels einer unterbrochenen Linie und das regionale LSTM mittels einer durchgängigen Linie dargestellt. In Gegensatz zu Abb. 1 ist das regionale LSTM besser als die einzugsgebietsspezifisch angepassten LSTMs

Resümee: Das LSTM ist in der Lage, gelerntes Prozessverständnis zwischen den Einzugsgebieten zu transferieren. Es lernt etwas aus den Daten eines gegebenen Einzugsgebiets, dass es in positiver Hinsicht in einem anderen Einzugsgebiet anwenden kann. Für eine ausführliche Diskussion verweisen wir auf Nearing et al. (2020).

3.1.2 Vergleich des regionalen LSTM mit hydrologischen Modellen

Vergleichen wir nun das regionale LSTM mit zwei unterschiedlichen, regional kalibrierten (mittels MPR; Samaniego et al. 2010) hydrologischen Modellen, ergibt sich folgendes Bild (Abb. 5): Das regionale LSTM (Median NSE 0,76) ist beiden hydrologischen Modellen (Median NSE VIC: 0,31, Median NSE mHM: 0,53) sehr deutlich überlegen.

Abb. 5
figure 5

Vergleich der empirischen kumulativen Verteilungen der Nash-Sutcliffe-Effizienz (NSE)-Werte für das regionale VIC-Modell (dunkelblau), das regionale mHM-Modell (rot), und das regionale LSTM (orange). Je weiter rechts die Gesamtverteilung, desto besser die Modellgüte. In diesem Vergleich ist das regionale LSTM der mit Abstand beste Ansatz

Aber nicht nur im Vergleich zu regional kalibrierten hydrologischen Modellen schneidet das LSTM gut ab. Beim Vergleich des regionalen LSTM mit einzugsgebietsspezifischen hydrologischen Modellen ergibt sich ein ähnliches Bild (siehe Abb. 6): auch hier ist das LSTM deutlich besser. Dabei muss betont werden, dass alle hydrologischen Modelle von anderen Forschergruppen mit Expertise in der Anwendung des entsprechenden Modells kalibriert wurden, um jeglichen Bias bei der Kalibrierung zu vermeiden. Alle Modelle wurden mit denselben meteorologischen Daten auf den denselben Zeiträumen kalibriert und ausgewertet. Für weitere Details zu den hydrologischen Modellen sowie für Vergleiche mit weiteren Metriken verweisen wir auf Kratzert et al. (2019c).

Abb. 6
figure 6

Modellgütevergleich zwischen verschiedenen einzugsgebietsspezifischen klassischen Niederschlags-Abfluss-Modellen und dem regionalen LSTM (orange). Dargestellt werden die empirischen kumulativen Verteilungsfunktionen der Nash-Sutcliffe-Effizienz (NSE) über die verschiedenen Einzugsgebiete. Je weiter nach rechts verschoben die Gesamtverteilung, desto besser ist das Model. In diesem Vergleich ist das regionale LSTM der beste Ansatz

Resümee: Bezogen auf die Modellgüte (hier exemplarisch in Form des NSE-Kriteriums dargestellt) übertrifft das regionale LSTM eine Reihe von klassischen hydrologischen Modellen. Dies gilt sowohl für Modelle, die regional kalibriert wurden, als auch für solche, die einzugsgebietsspezifisch optimiert wurden. Ein regionales LSTM ist also ein einziges LSTM, das für Vorhersagen an allen Pegeln in einer Region verwendet werden kann. Für weitere Details zu den hydrologischen Modellen sowie Vergleiche mit weiteren Metriken verweisen wir auf Kratzert et al. (2019c).

3.2 Generalisierung des LSTM für unbeobachtete Einzugsgebiete

Trotz dieser eindeutigen Ergebnisse stellt sich die Frage, wie gut das gelernte „Wissen“ eines datenbasierten Modells wirklich ist, oder ob das Modell nur gut ist im „Auswendiglernen“. In Kratzert et al. (2019b) haben wir diese Annahme untersucht. Dafür wurden die Einzugsgebiete mittels zufälliger Kreuzvalidierung in 10 unterschiedliche Gruppen aufgeteilt. Anschließend wurde jeweils ein regionales LSTM anhand der Einzugsgebiete aus neun Gruppen trainiert und anhand der Einzugsgebiete in der verbleibenden zehnten Gruppe ausgewertet. Dabei ist jedes Einzugsgebiet genau einmal in der Gruppe, die nicht für das Modelltraining verwendet wird. Der Versuchsaufbau misst also, wie gut ein Modell in Einzugsgebieten ist, für die keine Daten für die Kalibrierung zur Verfügung stehen. Damit wird eine Vorhersage in unbeobachteten Einzugsgebieten (Prediction in Ungauged Basins, PUB) simuliert, was als eine der wichtigsten Problemstellungen in der Hydrologie gilt (siehe Einleitung). Eine quantitative Auswertung von de facto unbeobachteten Einzugsgebieten ist natürlich nicht möglich. Unser Ansatz bietet jedoch eine naheliegende Annäherung.

Die Ergebnisse sind in Abb. 7 zu sehen: Dort wird das PUB-Modell mit zwei hydrologischen Modellen sowie dem regionalen LSTM verglichen. Letzteres wurde wie in den vorherigen Kapiteln mit allen Daten trainiert. Die hydrologischen Modelle sind das SAC-SMA-Modell (Burnash et al., 1973, 1995), separat kalibriert für jedes Einzugsgebiet und das aktuelle US National Water Model (WRF-Hydro; Salas et al. 2018). Trotz Einbußen gegenüber dem regionalen LSTM ist das in diesem Experiment aufgesetzte PUB-LSTM besser als die zum Vergleich verwendeten klassischen Modelle.

Abb. 7
figure 7

Vergleich der Modellgüte für die Vorhersage in unbeobachteten Einzugsgebieten (PUB)

In diesem Vergleich stellen wir die Performance eines LSTM für unbeobachtete Einzugsgebiete (PUB; orange mit Stern) der Performance von drei anderen Modellen gegenüber: ein physikalisches Modell (US NWM, Cosgrove und Klemmer (NOAA) 2019), ein einzugsgebietsspezifisch kalibriertes konzeptionelles Modell (SAC-SMA) und das zuvor eingeführte regionale LSTM (Abschn. 2.1). Wir haben die ersten beiden Modelle gewählt, da sie das alte (SAC-SMA) sowie aktuell verwendete US National Water Model und somit wichtige Modelle sind, die weit verbreitete Anwendung finden.

Resümee: Das LSTM liefert durchschnittlich bessere Simulationsergebnisse für Einzugsgebiete, für die es nicht trainiert wurde, als etablierte hydrologische Modelle, die für jedes Einzugsgebiet separat kalibriert wurden. Das LSTM lernt eine besser generalisierende Repräsentation der abflussbildenden Prozesse als die von einzugsgebietsspezifisch kalibrierten Modellen erreichte. Eine vertiefende Diskussion bezüglich der vorgestellten Experimente und Ergebnisse kann in Kratzert et al. (2019b) gefunden werden.

3.3 Modelleigenschaften

3.3.1 Synergieeffekte mehrerer meteorologischen Daten in einem LSTM

Ein weiterer Vorteil von DL-Modellen ist es, dass sie keine A‑priori-Annahmen zu den Eingabedaten benötigen. Im Gegensatz zu klassischen hydrologischen Modellen ist es also nicht notwendig, eine genaue mathematische Beziehung zwischen jeder Eingangsvariable und der Zielvariable (z. B. Abfluss) zu definieren, sondern genau diese Beziehungen werden während der Trainingsphase vom Modell gelernt. Dies können wir uns auf mehrere Arten zunutze machen, wobei eine spezielle Anwendung die meteorologischen Inputs betrifft.

Konzentrieren wir uns auf die wichtigste Eingangsvariable, den Niederschlag, so ist weithin bekannt, dass hierin eine der größten Quellen von Unsicherheit steckt (Fekete et al. 2004; Beven 2019). Niederschlagsdaten gibt es sowohl als Punktmessung (z. B. von Niederschlagsmessstellen) als auch Rasterdaten (Maurer et al. 2002; Thornton et al. 2012; Xia et al. 2012; Hersbach et al. 2020). Erstere sind, wie der Name impliziert, nur am Ort der Messstelle gültig, wohingegen letztere wiederum selbst das Produkt eines Modells sind, das mit eigenen Annahmen und Fehlern behaftet ist. Des Weiteren existiert eine Vielzahl unterschiedlicher meteorologischer Produkte – die teils mit unterschiedlichen Modellen erzeugt wurden – in unterschiedlicher räumlicher und zeitlicher Auflösung (e.g. verschieden generierte Ensemble-Vorhersagen). Dabei variieren vor allem die Niederschlagsdaten für ein und denselben Ort und Zeitpunkt teilweise deutlich, und trotzdem gibt es zumeist kein universal „bestes“ Niederschlagsprodukt (z. B. Behnke et al. 2016). DL bietet die Möglichkeit, aus den unterschiedlichen meteorologischen Datenprodukten möglicherweise vorhandene Synergien zu extrahieren. Ein einzelnes Modell kann sich diese Synergieeffekte zunutze machen und somit bessere Ergebnisse erzeugen.

Wie im Abschn. 2.2 beschrieben, stehen im CAMELS-Datensatz drei verschiedene meteorologische Produkte zur Verfügung (DayMet, Maurer und NLDAS). In Kratzert et al. (2020) haben wir untersucht, wie sich die Verwendung mehrerer unterschiedlicher Niederschlagsdaten (neben anderen meteorologischen Variablen) auf die Modellgüte auswirken. Dazu haben wir regionale LSTM für jedes meteorologische Produkt separat kalibriert, weiters für jede Kombination aus zwei meteorologischen Produkten sowie ein regionales LSTM, das die meteorologischen Variablen aus allen drei Datensätzen auf einmal als Eingabedaten bekommt.

Die Ergebnisse aus Kratzert et al. (2020) zeigen, dass jede Kombination aus zwei meteorologischen Datenprodukten besser ist als das beste Modell, das nur mit Daten aus einem meteorologischen Produkt gefüttert wird (Abb. 8). Weiter ist das Modell, IN das alle drei meteorologischen Produkte auf einmal einfließen, besser als das beste der Modelle, die eine Kombination aus zwei meteorologischen Produkten erhalten. Kurz gesagt: je mehr (unterschiedliche) meteorologische Daten (insbesondere Niederschlag) das Modell gleichzeitig erhält, desto besser.

Abb. 8
figure 8

Verteilung der NSE-Werte für regionale LSTMs, die mit je einem meteorologischen Produkt (grün), mit je einer Kombination aus zwei Produkten (blau) bzw. mit allen drei verfügbaren Produkten (rot) kalibriert wurden

Vergleicht man das beste Modell (jenes, das alle drei meteorologischen Daten auf einmal bekommt) mit dem regionalen Modell aus den vorherigen Kapiteln, so ergibt sich eine konstante Verbesserung der Modellgüte (Abb. 9). Eines der gängigsten Verfahren, um Informationen aus unterschiedlichen meteorologischen Datensätzen mit klassischen hydrologischen Modellen zu verwenden, ist das Bilden eines „Modell-Ensembles“. Hierbei werden für jeden meteorologischen Datensatz Modelle separat kalibriert und die Vorhersagen der einzelnen Modelle dann kombiniert, z. B. über das arithmetische Mittel (siehe SAC-SMA-Ensemble, Abb. 9). Der Nachteil eines solchen Ensembles ist, dass es – zusätzlich zu den bereits genannten Annahmen zur Modellstruktur – voraussetzt, dass die Datenprodukte voneinander unabhängig sind. Jedes Modell wird mit imperfekten Daten betrieben und potenzielle synergetische Effekte, die aus der produktübergreifenden Verbindung zur Verfügung stehender Informationen für die Modellierung der hydrologischen Prozesse gewonnen werden könnten, werden nicht genutzt.

Abb. 9
figure 9

Modellgütevergleich für die Ansätze mit mehrerer meteorologischen Eingaben. Die empirischen kumulativen Verteilungsfunktionen zeigen ein hydrologisches Ensemble-Modell (SAC-SMA; blaue unterbrochene Linie) im Vergleich zu einem LSTM, das mehrere meteorologische Datenprodukte als Eingaben verwendet (LSTM (multi forcing); orange Linie mit Punkten). Das normale LSTM, das bereits in den vorherigen Experimenten eingeführt wurde (LSTM (single forcing); orange Linie), dient hierbei als Orientierungspunkt, um die Güte einordnen zu können

Resümee:

Das LSTM hat die Fähigkeit, diverse Inputs zu berücksichtigen und etwaige Synergien in den Daten (z. B. bei Verwendung unterschiedlicher meteorologischer Datensätze in einem Modell) für eine verbesserte Modellierung zu nutzen.

3.3.2 Analyse und Interpretation von LSTM-Speichern

Unter Hydrologen genießen neuronale Netze nicht den besten Ruf. Einer der Hauptgründe dafür ist, dass Modelle nicht nur Vorhersagen für den Abfluss liefern sollen, sondern auch ein hydrologisches Prozessverständnis darüber hinaus ermöglichen sollen (Klemeš 1986). Sprich: Ein Modell soll nicht nur gute Simulationsergebnisse für den Abfluss generieren, sondern es soll dies tun, weil es die entsprechenden Prozesse, die Niederschlag in Abfluss verwandeln, (richtig) modelliert. Allerdings ist bekannt, dass hydrologische Modelle zwar beispielsweise Bodenfeuchte oder Schnee intern modellieren, diese Werte jedoch nur bedingt an die realen Prozesse gekoppelt sind und zwischen verschiedenen hydrologischen Modellen stark variieren können (Bouaziz et al. 2020).

Bei neuronalen Netze ist zunächst nicht klar, was intern modelliert wird, um von den Eingabedaten auf die Zielvariable zu kommen. Das Forschungsfeld der Explainable AI widmet sich diesem Thema und erforscht Methoden, die das Modellverständnis verbessern sollen (Samek et al. 2019). Hinzu kommt, dass das LSTM explizite Speicherzellen besitzt (siehe Abschn. 2.1) und es möglich ist zu analysieren, was das LSTM über die Zeit in diesen Zellen modelliert.

In Kratzert et al. (2018a, 2019a, 2019c) haben wir untersucht, was das LSTM in seinen Speicherzellen modelliert und konnten dabei nachweisen, dass das LSTM wichtige hydrologische Prozesse wie Bodenfeuchte und Schnee intern modelliert, obwohl es nur trainiert wurde, aus meteorologischen Daten Abfluss vorherzusagen. Abb. 10 zeigt beispielhaft den Vergleich von modelliertem Schnee-Wasser-Äquivalent (SWE) eines etablierten Schneemodells (Snow-17; REF) mit SWE, welches aus den Speicherzellen des LSTM abgeleitet wurde. Dies ist ein Indikator dafür, dass der datenbasierte Ansatz keine Scheinkorrelationen abbildet, sondern den unterliegenden Prozess intern wiedergibt. Gepaart mit der exzellenten Modellgüte (siehe Abschnitt „Regionale Modellierung“) ist also davon auszugehen, dass LSTMs tatsächlich hydrologisch relevante Prozesse lernen und intern modellieren, die es dem LSTM ermöglichen, einzugsgebietsübergreifend gute Vorhersagen zu liefern.

Abb. 10
figure 10

Beispielhafter Vergleich von Schnee-Wasser-Äquivalent (mittlere Reihe), modelliert vom Schneemodell Snow-17 (blaue Linien) sowie extrahiert aus LSTM-Speichern (orange unterbrochene Linie). Zusätzlich dargestellt sind Niederschlag (obere Reihe) und Tageshöchst- sowie Tagestiefsttemperatur (untere Reihe). Beim Niederschlag sind Tage mit Temperaturen unter dem Gefrierpunkt als schwarze Balken dargestellt

Resümee: Es ist möglich, die Speicher von LSTMs mit hydrologischen Prozessen in Verbindung zu setzen und so Einsichten über die interne Organisation der ML-Modelle zu gewinnen.

4 Erweiterungen

Abschließend wollen wir noch auf einige eine Reihe weiterer Forschungsergebnisse eingehen, die auch im Kontext der hydrologischen Modellierung von Interesse sind:

  1. 1.

    Das MC-LSTM (Hoedt et al. 2021), eine neue Variante des LSTM mit Massenerhaltung.

  2. 2.

    Das Prinzip des MTS-LSTM (Gauch et al. 2020), mit dem es möglich ist, aus einem LSTM-basierten Modell Abflussprognosen in unterschiedlichen zeitlichen Auflösungen zu gewinnen.

  3. 3.

    LSTM-basierte Modelle zur direkten Schätzung von Unsicherheiten in den Abflussprognosen (Klotz et al. 2021).

4.1 Massenerhaltung

Das Mass-Conserving LSTM (MC-LSTM; Hoedt et al. 2021) ist eine vor kurzem entwickelte Adaptierung des LSTM, das durch seine Architektur die Erhaltung von Massen-Inputs garantiert. Hierbei muss die Masse nicht zwangsläufig Wasser sein, sondern kann auch jede andere beliebige Größe repräsentieren (z. B. Energie, Geld, Personen). Das MC-LSTM besitzt nach wie vor explizite Speicher, allerdings werden die Eingabedaten in zwei Gruppen aufgeteilt: Massen-Inputs und Nicht-Massen-Inputs. Letztere werden ausschließlich für die Steuerung innerhalb des Netzwerkes verwendet (wie viel Masse fließt wohin, wie viel Masse verlässt an einem Zeitschritt das System etc.) und die Massen-Inputs sind jene Werte, die in ihrer Gesamtbilanz im System erhalten werden (z. B. Wasser in Form von Niederschlag). In den Speichern des MC-LSTM wird ausschließlich Masse gespeichert (also z. B. Wasser), was eine Interpretation des Modells erleichtert. Für eine technische Beschreibung des MC-LSTM sowie erste Ergebnisse zu dessen Anwendung in der Hydrologie siehe Hoedt et al. (2021).

4.2 Berücksichtigung mehrerer Zeitskalen

Für viele Anwendungen genügt es, Prognosen in täglicher Auflösung bereitzustellen. Für bestimmte Aufgabenbereiche, etwa die Flutvorhersage, ist diese Auflösung jedoch nicht ausreichend.

Ein wichtiges Forschungsgebiet der LSTM-basierten Modellierung ist daher die Vorhersage in hoher zeitlicher Auflösung (etwa stündlich). Hierbei ergeben sich sehr lange Zeitreihen der Eingabedaten, was die Anwendung von LSTMs in der Praxis erschwert. Weiterhin müsste man in diesem Ansatz je ein unabhängiges LSTM für jede Zielauflösung trainieren, wobei mit hoher Wahrscheinlichkeit die Vorhersagen der einzelnen Modelle inkonsistent würden.

Multi-Timescale LSTMs (MTS-LSTM, Gauch et al. 2020) bieten eine Lösung für diese Probleme: Es ermöglicht die gemeinsame Vorhersage in verschiedenen zeitlichen Auflösungen durch ein einziges Modell. Zudem bietet es die Möglichkeit, Eingabedaten mit unterschiedlichen Vorhersagehorizonten (lead times) für die verschiedenen Auflösungen zu nutzen. Intuitiv basiert der Ansatz darauf, dass der Wasserkreislauf ein gedämpftes System ist: Für stündliche Vorhersagen sind hochaufgelöste Daten der nahen Vergangenheit wichtig, während für weit zurückliegende Ereignisse eine niedrigere Auflösung genügt. Für eine detaillierte Beschreibung des Ansatzes verweisen wir auf Gauch et al. (2020).

4.3 Schätzung von Unsicherheiten

Unsicherheiten sind eine intrinsische Komponente der hydrologischen Modellierung. Jede Vorhersage, jede Messung und jedes Modell ist mit Unsicherheit behaftet. Die Schätzung von Unsicherheiten ist eine zentrale Komponente vieler modellgestützter Anwendungen. Die Bereitstellung einer solchen Schätzung ist jedoch nicht trivial und oft mit facettenreichen Problemstellungen assoziiert (Nearing und Gupta 2015; Beven 2016). Klassische Modelle benötigen in der Regel einen zusätzlichen Mechanismus, um eine solche Schätzung zu ermöglichen (z. B. pre-processing, post-processing, Datenassimilation oder Monte-Carlo-Sampling). DL-basierte Modelle können die Unsicherheiten direkt aus dem Modell ableiten. Grundsätzlich werden dabei entweder modellintrinsische Eigenschaften genutzt oder Architekturen verwendet, die direkte probabilistische Vorhersagen ermöglichen. In Klotz et al. (2021) vergleichen und testen wir eine Reihe von Methoden zur Unsicherheitsschätzung mit DL-basierten Niederschlags-Abfluss-Modellen. Im Test zeichnet sich bereits ab, dass DL-basierte Verfahren sehr gute Unsicherheitsschätzungen ermöglichen.

5 Zusammenfassung, Diskussion und Ausblick

Viele technologische Entwicklungen der letzten Jahre sind auf Deep Learning (DL) zurückzuführen. In diesem Beitrag haben wir gezeigt, wie sich DL-Modelle, im Speziellen das Long Short-Term Memory Netzwerk (LSTM), für wasserwirtschaftliche Fragestellungen nutzen lassen.

Zuerst haben wir demonstriert, dass LSTM-basierte hydrologische Modelle stark davon profitieren, wenn sie für eine große Anzahl an (unterschiedlichen) Einzugsgebieten gleichzeitig trainiert werden und dass diese Vorgehensweise einzugsgebietsspezifischen Modellen überlegen ist.

Der Vergleich dieser „regionalen“ LSTMs mit klassischen hydrologischen Modellen liefert zwei wesentliche Ergebnisse: Erstens, die regionalen LSTMs sind regional kalibrierten hydrologischen Modellen deutlich überlegen. Zweitens, das regionale LSTM ist auch besser als einzugsgebietsspezifische hydrologische Modelle.

Des Weiteren haben wir gezeigt, dass ein regionales LSTM ein sehr allgemeines hydrologisches Prozessverständnis lernt. Angewendet auf Einzugsgebiete, die nicht für das Training des Modells verwendet wurden (eine Annäherung an die Vorhersage in unbeobachteten Einzugsgebieten), liefert das regionale LSTM im Durchschnitt bessere Simulationsergebnisse als speziell für die Einzugsgebiete kalibrierte hydrologische Modelle.

Ein weiterer Vorteil von DL-Modellen ist, dass sie beliebige Daten als Eingabedaten erlauben. LSTMs sind in der Lage, synergetische Effekte aus unterschiedlichen meteorologischen Datensätzen zu extrahieren und für die Verbesserung der Modellgüte zu Nutzen.

Zuletzt haben wir gezeigt, dass LSTMs relevante hydrologische Prozesse (wie z. B. das Akkumulieren und Schmelzen von Schnee) lernen, ohne darauf trainiert worden zu sein. Dies legt nahe, dass das LSTM keine Scheinkorrelationen lernt, sondern die tatsächlichen physikalischen Zusammenhänge zwischen meteorologischen Eingabedaten und Abfluss.

Die künstliche Intelligenz bietet große Chancen für die wasserwirtschaftliche Anwendung. In diesem Beitrag haben wir das Potenzial anhand der jüngsten Entwicklungen in der Niederschlags-Abfluss-Modellierung herausgearbeitet. Diese Fortschritte demonstrieren, wie bereits jetzt leistungsfähige Werkzeuge aus dieser Technologie gewonnen werden können. Die jetzigen prototypischen Vorhersagemodelle erzielen bereits bessere Ergebnisse als klassische Ansätze, die bereits über Jahre verbessert wurden.

Trotz der vielversprechenden Ergebnisse befinden wir uns noch in der Anfangsphase von DL-basierten Ansätzen. Die Möglichkeiten bzw. Limitierungen sind noch nicht genügend erforscht. Wir erwarten daher, dass in den nächsten Jahren noch zahlreiche Erweiterungen konzipiert und Anwendungen erschlossen werden.

Hierfür seien zwei Beispiele genannt: (a) Die Erstellung von räumlich verteilten DL-Modellen, welche die Flussstruktur explizit mit einbeziehen. Es existieren bereits erste Ansätze, die dies versuchen (z. B. Moshe et al. 2020), jedoch gibt noch keinen allgemeinen, gut skalierbaren Lösungsansatz. (b) Das Verwenden von DL-Modellen für hypothetische Untersuchungen. Beispielsweise die Fragestellung: Wie würde sich die Aufforstung in einem Teil des Einzugsgebiets auf den Abfluss auswirken?

Beide Themengebiete sind Bestandteil unserer aktuellen Forschung.