1 Einleitung

Infiltration, also „Wassereintritt durch die Bodenoberfläche und die nachfolgende Wasserbewegung durch das Bodenprofil“ (Brutsaert 2005), gilt als einer der Schlüsselprozesse des Wasserkreislaufs (Vereecken et al. 2019). Ihre Rate stellt während Regenereignissen den bestimmenden Faktor für die Teilung des Niederschlagswassers an der Geländeoberfläche in Infiltration und Abflussbildung dar. Übersteigt die Regenintensität die aktuelle Infiltrationsrate, kommt es zur Bildung von Oberflächenabfluss (Horton 1933).

Die Bestimmung regionaler Infiltrationskapazitäten gewinnt angesichts aktueller Extremwetterereignisse, wie lokaler Starkregen, an Bedeutung. Solche Wetterextreme werden im Hinblick auf ein sich wandelndes Klima zukünftig deutlich häufiger und intensiver erwartet (IPCC 2013; BMNT 2017). Konvektive, raumzeitlich gesehen sehr kleinskalige Niederschlagsereignisse überschreiten aufgrund ihrer hohen Intensität rasch die Infiltrationsraten des Bodens. Die damit einhergehende Bildung von großen Mengen an Oberflächenabfluss führen häufig zu pluvialem Hochwasser (Rözer et al. 2021; ÖWAV-EP 2020). Solche Wetterextreme sind nur schwer zu prognostizieren und treten oft in Gebieten auf, die aus historischer Sicht nicht als hochwassergefährdet gelten (Rözer et al. 2016, 2021). Um eine fundierte Risikoabschätzung vornehmen zu können, ist es notwendig, großflächig Infiltrationskapazitäten darzustellen bzw. die maßgebenden Einflussfaktoren auf die Infiltrationsrate regional abzuschätzen.

Die räumliche Verteilung der Infiltrationsrate hängt in erster Linie von den Bodeneigenschaften, der Landbedeckung und Nutzung sowie der lokalen Topografie ab (Vereecken et al. 2019; Mahapatra et al. 2020). Die zeitliche Variabilität wird durch die Bodenfeuchte bestimmt, bei zunehmender Bodenfeuchte nähert sich die Endinfiltrationsrate der gesättigten hydraulischen Leitfähigkeit (ks) an (Fohrer et al. 2016). Demzufolge kann bei Kenntnis bodenhydraulischer Eigenschaften, insbesondere von ks, in Kombination mit Landschaftsattributen eine Abschätzung der Infiltrationskapazitäten vorgenommen werden. Während Landnutzungs- und topografische Informationen für Österreich flächig über Geoportale wie Open Data Österreich (data.gv.at) oder INSPIRE Österreich (inspire.gv.at) abgerufen werden können, sind Bodeneigenschaften für Österreich nicht flächig verfügbar und die vorhandenen Daten oft nur eingeschränkt zugänglich.

Derzeit bestehen zahlreiche Bestrebungen zur Erfassung und Erforschung bodenhydraulischer Prozesse: Das Bundesministerium für Landwirtschaft, Regionen und Tourismus (BMLRT) betreibt zur Sammlung bodenhydraulischer Informationen ein Messnetz an 11 verschiedenen Standorten (BMLRT o.J.). Das Institut für Kulturtechnik und Bodenwasserhaushalt des Bundesamts für Wasserwirtschaft (BAW-IKT) führt eine Datenbank, in der für rd. 250 Bodenprofile horizontweise Proben gezogen und bodenhydraulische Parameter im Labor analysiert wurden. Des Weiteren sammelt das Bundesforschungszentrum für Wald (BFW) in seiner Datenbank die Ergebnisse von rd. 400 Beregnungsversuchen aus unterschiedlichen Gebieten (Markart et al. 2017), im Rahmen derer Abflussreaktionen bei Regenereignissen unterschiedlicher Dauer und Intensität untersucht werden. Aus den Beregnungsexperimenten können folglich auch Rückschlüsse auf Infiltrationskapazitäten gewonnen werden. Die genannten Initiativen tragen zwar maßgeblich zum besseren Verständnis von Bodenwasserbewegungen in der vadosen Zone und Abflussreaktionen bei, allerdings ist die Anzahl der Datenpunkte nicht ausreichend, um eine flächige Ableitung der Bodenhydraulik für Österreich daraus vorzunehmen.

Im Allgemeinen ist die direkte Bestimmung von bodenhydraulischen Eigenschaften für größere Flächen aufgrund ihrer hohen räumlichen Variabilität nicht praktikabel, und direkte Messungen sind zudem teuer und zeitintensiv (Vereecken et al. 2010). Vor diesem Hintergrund wurden Pedotransfer-Funktionen (PTFs) entwickelt, mithilfe derer bodenhydraulische Eigenschaften über leichter verfügbare Daten – z. B. aus Bodenaufnahmen – abgeleitet werden können (Van Looy et al. 2017). In Österreich starteten im Jahr 1958 systematische Bodenkartierungen der landwirtschaftlichen Nutzfläche mit dem Ziel, die flächenmäßige Verteilung von Bodenformen, also Flächeneinheiten, die denselben Typ und einen möglichst ähnlichen Standortcharakter aufweisen, zu erfassen. Jeder dieser Bodenformen ist mindestens ein Profil zugeordnet, für das zumindest die Textur, der pH-Wert, der Humus- und der Carbonatgehalt im Labor bestimmt werden (Schneider et al. 2001). Die Ergebnisse der Bodenkartierung sind über die digitale Bodenkarte eBOD (BFW 2019), die vom BFW betrieben wird, abrufbar. Ergänzend zur landwirtschaftlichen Bodenaufnahme stellt das Bodeninformationssystem BORIS des Umweltbundesamts (Umweltbundesamt GmbH 2021) Boden- und Waldbodenzustandsinventuren zur Verfügung.

Speziell für landwirtschaftliche Nutzflächen sind Österreichs Böden also hinsichtlich der wichtigsten Eingangsparameter für PTFs gut erfasst. Die für die Bestimmung der ks wichtigen Bodeneigenschaften – wie z. B. die Korngrößenverteilung – müssen für alle anderen Landnutzungsarten allerdings erst abgeschätzt werden. Um diese – nicht nur in Österreich bestehende – Lücke zwischen Bedarf und Verfügbarkeit an flächigen Bodeninformationen zu schließen, gibt es sowohl in Österreich als auch überregional Projektaktivitäten: Im Rahmen zweier Projekte wurden für Niederösterreich (Eder et al. 2011; Sotier et al. 2017) und die Südoststeiermark (Klebinder et al. 2017) Bodeninformationen über einen geostatistischen (NÖ) bzw. einen konzeptionellen Ansatz (SO) regionalisiert und anschließend mithilfe von am IKT entwickelten PTFs hydrologische Bodenkennwerte abgeleitet. Auf globaler Ebene wurde das Open Data Bodeninformationssystem „SoilGrids“ entwickelt, das seit 2014 unter ständiger Weiterentwicklung Bodendaten für verschiedene Tiefenstufen auf einer Rasterbasis von 250 m zur Verfügung stellt. Die Schätzung der räumlichen Verteilung von Bodeneigenschaften erfolgt in diesem Projekt mithilfe maschineller Lernverfahren (ML) basierend auf Bodenprofilen und Fernerkundungsdaten (Hengl et al. 2017). Seit dem neuersten Projektupdate steht auch eine Abschätzung der Vorhersage-Unsicherheiten zur Verfügung (Poggio et al. 2021).

Das SoilGrids-Projekt ist ein Beispiel für „digital soil mapping“ (DSM) bzw. „predictive soil mapping“ (PSM). In diesen Verfahren werden numerische und statistische Modelle über die Zusammenhänge von Umgebungsvariablen und Bodeneigenschaften entwickelt und in weiterer Folge zur Generierung von Karten eingesetzt (Scull et al. 2003). McBratney et al. (2003) schufen mit ihrer vielzitierten Arbeit einen generellen Rahmen, um Zusammenhänge zwischen Bodenattributen und ihrer Umgebung abzuleiten. Mit dem „scorpan“-Modell formulierten sie eine Zielfunktion für die Abschätzung von Bodenattributen, in der sieben raumbezogene Faktoren berücksichtigt werden:

$$S_{a}=f(s,c,o,r,p,a,n)$$
Sa:

Bodenattribute

s:

gemessene Bodeneigenschaften an einem Punkt

c:

klimatische Gegebenheiten

o:

Organismen, Vegetation, Fauna oder anthropogene Aktivitäten

r:

Topografie und Landschaftsattribute

p:

Ausgangsmaterial, Lithologie

a:

Alter, Zeitfaktor

n:

Lage, räumliche Positionierung

In den letzten Jahren ist der Einsatz von ML-Verfahren beim DSM (siehe Hengl et al. 2017) zur Vorhersage von Bodeneigenschaften, und ganz allgemein bei vielen anderen bodenwissenschaftlichen Fragestellungen, rasant gestiegen (Padarian et al. 2020). Ein weiteres populäres ML-Anwendungsgebiet ist die Generierung von PTFs (vgl. Araya and Ghezzehei 2019; Szabó et al. 2021). In erste Linie begründet sich die große Beliebtheit von ML-Verfahren in ihrer vielfach erprobten, guten Performance. Daneben spielen aber auch die größer werdende Anzahl an digital verfügbaren Bodendaten und hochaufgelösten Co-Variablen (Topografie, Klimadaten etc.), die frei zugänglichen ML-Algorithmen, die kontinuierlich weiter entwickelt werden, sowie die steigenden Rechen-Ressourcen eine wichtige Rolle (Padarian et al. 2020; Wadoux et al. 2020). ML bezeichnet nicht-lineare Algorithmen, die in erster Linie auf große Datenmengen angewendet werden (Wadoux et al. 2020) und in der Lage sind, aus Erfahrungswerten zu lernen und Entscheidungen zu treffen. ML-Algorithmen haben auch bei der Anwendung auf Fragestellungen im Bereich der Umweltwissenschaften gezeigt, dass sie versteckte Muster in großen Datenmengen erkennen, wichtige Merkmale herausfiltern bzw. Verbindungen zwischen verschiedenen Variablen identifizieren können (Tahmasebi et al. 2020). Aus diesen Gründen wurden auch in dieser Studie ML-Verfahren zur Ableitung bodenhydraulischer Eigenschaften eingesetzt.

Zentrales Anliegen der vorliegenden Studie war es, Bodeninformationen – insbesondere die gesättigte hydraulische Leitfähigkeit – auf Basis verfügbarer Daten für die Gesamtfläche von Österreich abzuleiten. Zu diesem Zweck wurden alle in Österreich verfügbaren Bodendaten sowie frei zugänglichen, relevanten, physio-geografischen Parameter zusammengestellt und analysiert. Die Ableitung der Zielgröße erfolgte aufgrundlage des beschriebenen DSM-Ansatzes mithilfe zweier gängiger ML-Verfahren, die basierend auf Vorarbeiten von Feigl et al. (2021) angewendet und weiterentwickelt wurden.

2 Daten und Methoden

2.1 Datengrundlagen und Aufbereitung

Zur österreichweiten flächenhaften Ableitung der Bodeneigenschaften wurden alle zur Verfügung gestellten Bodendaten sowie sämtliche frei verfügbare Prädiktorvariablen herangezogen. Die größte Datenquelle an lokalen Bodendaten stellt die digitale Bodenkarte eBOD dar, in der die Ergebnisse der Bodenkartierung von Österreichs landwirtschaftlichen Flächen abgebildet sind. Neben dem eBOD-Datensatz wurden alle verfügbaren Bodenzustandsinventuren (BZI) der einzelnen Bundesländer und Waldbodenzustandsinventuren (WBZI) in die Studie eingebunden. Für die Ableitung und Validierung bodenhydraulischer Parameter wurden die bodenhydraulische Datenbank des BAW-IKT, die Beregnungsexperimente des BFW Innsbruck, eine aktuelle Studie zum Bodenwassermonitoring-Programm des Bundesministeriums für Landwirtschaft, Regionen und Tourismus (Brunetti et al. 2022, in diesem Heft) sowie die Hydrobod-NÖ-Ergebnisse analysiert. Als Benchmark wurden die Rasterbodenkarten des SoilGrids-Projekts herangezogen. Eine Zusammenfassung der berücksichtigten Bodendatensätze ist in Tab. 1 ersichtlich.

Tab. 1 Zusammenstellung und Kurzbeschreibung der verfügbaren Bodendatensätze und der einbezogenen Parameter samt Quellenangabe

Nach dem scorpan-Modell (McBratney et al. 2003) sollen über sieben Faktoren Zusammenhänge zur Zielgröße (z. B. Textur oder ks) hergestellt werden. Im Rahmen dieser Studie wurden basierend auf verfügbaren Informationen zu Topografie, Vegetation, Landbedeckung, Geologie und Klimadaten Prädiktorvariablen abgeleitet. Die Ausgangsdaten samt abgeleiteter Prädiktorvariablen sind in Tab. 2 zusammengefasst.

Tab. 2 Datensatzgrundlage und Kurzbeschreibung der Prädiktorvariablen, samt abgeleiteter Eingangsgrößen und Quellenangaben

Für alle raumbezogenen Datensätze wurde die gemeinsame Kartenprojektion ETRS89/Austria Lambert (EPSG: 3416) gewählt. Für alle flächig verfügbaren Daten wurde auf Basis der SPARATCUS-Raster die räumliche Diskretisierung von 1 × 1 km2 gewählt. Diese Auflösung wurde in erster Linie auf Grundlage der verfügbaren Auflösung der Prädiktorvariablen gewählt, aber auch um den Rechenaufwand für die Datenaufbereitung und das Modelltraining selbst in einem vertretbaren Rahmen zu halten. Bei der Ableitung verschiedener Prädiktorvariablen auf Basis des vergleichsweise sehr fein aufgelösten digitalen Geländemodells (10 × 10 m2) wurde im Zuge der Aggregierung auf die Zielauflösung von 1 × 1 km2 neben dem Mittelwert auch die statistischen Kennwerte Median, Standardabweichung, 5‑%-Quantil und 95-%-Quantil berechnet, um die lokale topografische Variabilität auch im großskaligen Bereich berücksichtigen zu können.

Alle Profildaten der eBOD-, BZI- und WBZI-Datensätze wurden von fehlenden oder unrealistischen (z. B. negativen) Werten bereinigt. Die Sand‑, Schluff- und Tonanteile wurden auf ihre Konsistenz (Summe der drei Anteile muss 100 % ergeben) überprüft und gegebenenfalls korrigiert. Alle relevanten Parameter wurden für sämtliche Bodenprofile auf drei einheitliche Tiefenstufen, nämlich 0–20 cm, 20–50 cm und 50–100 cm, über gewichtete Mittelwertbildung nach der Trapezregel aggregiert. Bodeninformationen für Tiefen > 100 cm wurden nicht berücksichtigt, da sie für schnelle Abflussprozesse, wenn überhaupt, nur eine geringe Rolle spielen. Die gewählten Tiefenstufen fungieren in den ML-Modellen auch als zusätzliche Prädiktorvariable, um nicht nur eine horizontale, sondern auch eine vertikale Verteilung der Bodeneigenschaften abschätzen zu können. Zur Bereinigung von Multikollinearität der Prädiktorvariablen und generell zur Vereinfachung der großen Eingangsdatenmenge wurde für die Anwendung eines der ML-Verfahren, XGBoost (siehe Abschn. 2.2.2), im Vorfeld eine Hauptkomponentenanalyse (PCA) durchgeführt. Im Gegensatz zum XGBoost-Algorithmus können neuronale Netze gut mit Datenredundanz umgehen, und eine PCA der Eingangsdaten bringt keine Verbesserung der Ergebnisse. Alle beschriebenen abgeleiteten Variablen sind tabellarisch in Tab. 2 zusammengefasst.

2.2 Methodik

2.2.1 Methodische Ansätze

In der vorliegenden Studie wurden zwei unterschiedliche Ansätze getestet, um die gesättigte hydraulische Leitfähigkeit österreichweit zu bestimmen:

  • indirekte Ableitung von ks und

  • direkte Ableitung von ks.

Bei der indirekten Ableitung werden in einem ersten Schritt die in großer Anzahl verfügbaren Bodeneigenschaften, wie Textur (Sand‑, Schluff- und Tongehalt) mittels ML-Verfahren flächig für ganz Österreich abgeleitet. Die regionalisierten Größen werden dann als Eingangsgrößen für die EU-PTF (Szabó et al. 2021; Tóth et al. 2015) herangezogen. Über die EU-PTF wird schließlich flächig für ganz Österreich auf einer Rasterauflösung von 1 km die gesättigte hydraulische Leitfähigkeit für drei verschiedene Tiefenstufen bestimmt. Die EU-PTF wurde aufgrund ihrer guten Ergebnisse im Rahmen einer Evaluierung von PTFs an ausgewählten Standorten in Österreich (vgl. Wallner 2021) gewählt. Innerhalb der verfügbaren EU-PTFs wurde die PTF02 gewählt, die als Eingangsgrößen die Korngrößenverteilung, Tiefeninformationen und den Humusgehalt benötigt. Der Vorteil des indirekten Ansatzes liegt in den großen verfügbaren Datenmengen. Dies ist eine Grundvoraussetzung, um mit ML-Verfahren valide Ergebnisse zu erzielen.

Bei der direkten Ableitung wird ks über ML-Verfahren direkt vorhergesagt. Hierfür werden ML-Modelle auf Basis der abgeleiteten ks-Raster des Hydrobod-Projekts trainiert und im Anschluss auf ganz Österreich transferiert. Ein Nachteil dieser direkten Ableitung ist, dass es sich bei den Hydrobod-Rastern nicht um gemessene Werte, sondern um abgeleitete Größen handelt, die dementsprechend mit zusätzlichen Unsicherheiten behaftet sind.

2.2.2 ML-Modelle und Setup

Im Rahmen dieser Studie werden zwei ML-Modelle zur Abschätzung der Zielgrößen angewendet: eXtreme Gradient Boosting (XGBoost) und Feedforward Neural Networks (FNN). Chen und Guestrin (2016) entwickelten mit XGBoost einen skalierbaren Tree-Boosting-Algorithmus, der zu einem der populärsten ML-Algorithmen der letzten Jahre avancierte. XGBoost kann für Klassifikations- und Regressionsprobleme eingesetzt werden und baut, wie es schon die Terminologie verrät, auf dem Gradient Boosting Verfahren (Friedman 2001) auf. Gradient Boosting ist ein additives Vorhersagemodell, in welchem Ensembles von Entscheidungsbäumen basierend auf den Fehlern des vorangegangen Entscheidungsbaumes trainiert werden. XGBoost punktet gegenüber dem klassischen Gradient Boosting vor allem durch seine Skalierbarkeit, die verbesserte Effizienz und eine Reduktion des Overfittings. Bei der Anwendung des XGBoost-Algorithmus müssen zu Beginn einige Hyperparameter gewählt werden. Die Wertebereiche für die Hyperparameter samt Kurzbeschreibung sind in Tab. 3 dargestellt.

Tab. 3 Wertebereiche für die XGBoost-Hyperparametersuche (Bezeichnung der Parameter gemäß R Paket „caret“)

Das FNN (White and Rosenblatt 1963) ist die simpelste Form künstlicher neuronaler Netzwerke. Ein künstliches neuronales Netzwerk setzt sich aus einem Input Layer, einem Output Layer und einem oder mehreren Hidden Layers zusammen. Ein Layer wiederum besteht aus einzelnen Neuronen. Alle Neuronen eines Layers sind mit allen Neuronen des vor- und nachgeschalteten Layers verbunden. Diesen Neuronen-Verbindungen sind Gewichte zugewiesen, die im Laufe des Lernprozesses modifiziert werden. Jedes Neuron erhält einen Input, der mithilfe von (linearen oder nicht-linearen) Aktivierungsfunktionen transformiert und an das nächste Neuron als Output weitergesendet wird. Beim FNN müssen ebenso vorab Hyperparameter definiert werden. Zu diesen Hyperparametern gehören zum Beispiel die Aktivierungsfunktion, die Anzahl der Layer, die Anzahl der Neuronen pro Layer oder die Dropout Rate. Dropout Layer sollen durch ein zufälliges Eliminieren von Neuronen ein Overfitting unterbinden (Feigl et al. 2021). Die Wertebereiche für die Auswahl der Hyperparameter sind in Tab. 4 dargestellt.

Tab. 4 Wertebereiche für die FNN-Hyperparametersuche

Die Hyperparameter von XGBoost und FNN (mit Ausnahme der Aktivierungsfunktion) wurden mittles Bayes’scher Hyperparameter-Optimierung (Bergstra et al. 2013) innerhalb vorgegebener Wertebereiche ermittelt. Dabei wurden jeweils 40 Iterationen mit 20 verschiedenen zufällig gewählten Initialisierungspunkten durchgeführt. Um die Vorhersageergebnisse durch unabhängige Daten testen zu können, wurden die Eingangsdaten für beide ML-Verfahren in Trainingsdaten (90 %) und Testdaten (10 %) unterteilt. Zur Optimierung des XGBoost-Modells wurde auf den Trainingsdatensatz eine 10-fache Kreuzvalidierung mit fünf Wiederholungen angewendet.

Für die Hyperparameter-Optimierung des FNN wurden 75 % des Trainingsdatensatzes zum Trainieren des Modells eingesetzt und 25 % zum Validieren. Zusätzlich wurden die Eingangsdaten beim FNN vor der Hyperparameter-Optimierung standardisiert. Bei der FNN-Applikation wurden aus den besten Hyperparametersets fünf unabhängige Modelle trainiert, die für die finale Vorhersage durch Mittelwertbildung zu einem Ensemble zusammengefasst wurden.

Als Modellgütefunktionen und somit als zu minimierende Zielfunktionen wurden für beide ML-Modelle sowie für die Hyperparameter-Optimierung die Wurzel der mittleren quadratischen Abweichung (RMSE) sowie der mittlere absolute Fehler (MAE) herangezogen.

Die Datenaufbereitung, Analyse und Berechnung der Ergebnisse erfolgte mithilfe der Software ArcGIS (ESRI 2018) und sämtlichen frei verfügbaren Softwarepaketen der Programmierumgebung R (R Core Team 2020).

3 Ergebnisse

3.1 Unsicherheiten und Fehlerquellen der Input-Daten

3.1.1 Skalenproblematik

Beim Einbinden unterschiedlicher Datenquellen ist es unerlässlich, den jeweiligen Aufnahme- und Betrachtungsmaßstab zu berücksichtigen. Punktinformationen, z. B. in Form der eBOD- oder BZI-Bodenprofile, liefern lokale, sehr kleinskalige Informationen. Bei SoilGrids wiederum werden Bodendaten für eine Rasterauflösung von 250 m abgeleitet, die Vorhersage geschieht allerdings zum Teil auf viel niedriger aufgelösten Datensätzen, wie z. B. der globalen lithologischen Karte (Hartmann and Moosdorf 2012) mit einem durchschnittlichen Maßstab von 1:3.750.000 oder Informationen zu Temperatur (Wan 2006) und Niederschlag (Hijmans et al. 2005) mit einer Auflösung von 1 km. Vergleicht man nun österreichweit die Texturdaten der eBOD-Profile mit den Texturinformationen der SoilGrids-Produkte, zeigt sich nur eine geringe Korrelation und relativ hohe RMSE. In Abb. 1 wurden für die oberste Bodenschicht (0–20 cm) die Texturwerte der eBOD-Profile (X-Achse) den Texturwerten von SoilGrids (Y-Achse) gegenübergestellt.

Abb. 1
figure 1

Vergleich der Texturanteile (Sand (links), Schluff (Mitte) und Ton (rechts), jeweils in Prozent) der eBOD-Profile (X-Achse) mit den Texturanteilen der SoilGrids-Raster (Y-Achse)

Beim Sand entsprechen die Mittelwerte von eBOD und SoilGrids mit 31,6 % bzw. 29,7 % einander gut. Anders sieht der Vergleich der Spannweite der Sandwerte (eBOD = 97 %, SoilGrids = 45 %) oder der Standardabweichung (sdeBOD = 17,7 % versus sdSoilGrids = 7,2 %) aus. Hier zeigt sich bei SoilGrids eine deutlich geringere Variabilität. Analog zu den Sandwerten verhält sich auch der Vergleich der Schluff‑ und Tonwerte der zwei Bodendatensätze. Die reduzierte Variabilität ist auf die unterschiedlichen Skalen der Produkte zurückzuführen. Die charakteristischerweise sehr hohe kleinskalige Variabilität, die in den eBOD-Profilen widergespiegelt wird, kann bei der Betrachtung selbiger Eigenschaften auf größerem Betrachtungsmaßstab, wie es bei SoilGrids der Fall ist, nicht wiedergegeben werden. Durch Aggregierung der Eigenschaften auf größere Skalen reduziert sich die Variabilität und alle Datenpunkte nähern sich dem Mittelwert an. Dieses Phänomen ist ein sehr allgemeines Problem beim Vergleich von Daten auf unterschiedlichen räumlichen Skalen.

3.1.2 Natürliche Heterogenität der Bodeneigenschaften

Bodeneigenschaften weisen typischerweise eine sehr hohe lokale Heterogenität auf. Diese Heterogenität ist in den verfügbaren Datensätzen selbst ersichtlich. In Abb. 2 werden in der linken Grafik Sandwerte der BZI-Profile mit dem Sandgehalt des jeweiligen eBOD-Polygons, in dem sie sich geografisch befinden, verglichen. Der Vergleich wurde für die oberste Bodenschicht (0–20 cm) durchgeführt. Die Zahlenwerte oberhalb der X‑Achse geben die Anzahl der BZI-Profile wieder, die innerhalb der jeweiligen Bodenform liegen. Manchen eBOD-Bodenformpolygonen sind zwei Leitprofile zugeordnet, dementsprechend sind auch teilweise zwei eBOD-Werte pro Polygon ID abgebildet.

Abb. 2
figure 2

Links: Vergleich der Sandwerte der BZI-Profile innerhalb von eBOD-Polygonen, Zahlenwert oberhalb der X‑Achse entspricht der Anzahl der BZI-Profile im jeweiligen eBOD-Polygon; rechts: Variabilität von ks, aufgeschlüsselt nach Texturklassen (BAW-IKT Datenbank)

Wie eingangs beschrieben, werden innerhalb eines Bodenform-Polygons Flächen mit möglichst gleicher Bodenbeschaffenheit und Standortcharakteristika zusammengefasst. Aus Abb. 2 kann man gut erkennen, dass die Sandwerte innerhalb einer Bodenform zum Teil bereits eine hohe Variabilität aufweisen. Dementsprechend schwierig gestaltet es sich, die natürliche Variabilität für Regionen ohne lokale Bodenaufnahmen entsprechend abzuleiten.

Die hohe natürliche Heterogenität zeigt sich auch innerhalb der BAW-IKT Datenbank. In Abb. 2 auf der rechten Seite ist die Variabilität von ks aufgeschlüsselt nach Texturklasse dargestellt. Dabei ergeben sich je nach Texturklassen Schwankungsbreiten von bis zu vier Größenordnungen.

3.1.3 Lageungenauigkeit und Datenaktualität

Die gesamte BZI- und WBZI-Datenbank wurde aus Datenschutzgründen lediglich mit einer Lagegenauigkeit von 1 km zur Verfügung gestellt. Aufgrund der hohen lokalen Variabilität der Bodeneigenschaften kann jede Lageungenauigkeit der Profildaten zu nur schwer quantifizierbaren Unsicherheiten im Regionalisierungsprozess führen. Eine weitere potenzielle Fehlerquelle stellt das teilweise hohe Alter der Bodenaufnahmen dar. Der größte Teil der eBOD-Informationen wurde zwischen 1971 und 2002 kartiert. Selbiges gilt für WBZI- und BZI-Bodenaufnahmen: Die Erhebungen fanden zwischen 1986 und 2006 statt. Welche Profilstandorte aktuell noch dieselben Bodeneigenschaften wie zum Zeitpunkt der Erhebung aufweisen, ist aufgrund kontinuierlicher Landnutzungs- und Landbedeckungsänderungen sowie allgemeiner bodengenetischer Prozesse der letzten Jahrzehnte oftmals nur mit erheblichem Aufwand feststellbar.

3.1.4 Repräsentanz und Ungleichgewicht

Für eine flächige Ableitung von Bodeneigenschaften ist es notwendig, auf eine möglichst repräsentative Datengrundlage hinsichtlich Österreichs topografischer und klimatischer Charakteristika sowie der wichtigsten Landnutzungsklassen zurückgreifen zu können. Bodeneigenschaften landwirtschaftlich genutzter Flächen können für Österreich dank der großen Anzahl an Bodenprofilen bzw. über die Bodenformpolygone vergleichsweise gut abgebildet werden. Für Österreichs Waldflächen hingegen stehen mit den WBZI lediglich rund 550 Profile zur Verfügung, wobei jeweils nur für die Tiefenstufe 30–50 cm Texturdaten erhoben wurden. Gemäß BFW (2021) beträgt die Waldfläche Österreichs aktuell rund 47,6 % der Gesamtfläche. Mit dementsprechend größeren Unsicherheiten ist eine Ableitung von Bodeninformationen für so einen großen Flächenanteil auf Basis von nur wenigen Datenpunkten behaftet.

Auch in Bezug auf Österreichs Topografie sind die vorhandenen Bodendaten nicht gleichmäßig über alle Höhenlagen verteilt und erwartungsgemäß sind höhere Lagen unterrepräsentiert. Das Gros der Profildaten betrifft Höhen < 1100 m ü. A., obgleich rund 40 % der Gesamtfläche Österreichs höher als 1000 m ü. A. liegen.

3.1.5 Messmethodik

Vor der Regionalisierung der Zielgrößen wurden auch die Messverfahren der unterschiedlichen Datenquellen näher betrachtet. Während zum Beispiel die pH- und Kalkwerte für BZI, eBOD und die BAW-IKT-Datenbank nach denselben Messverfahren bestimmt wurden (pH-Wert in 0,01 m CaCl2-Lösung nach ÖNORM L 1083 bzw. Carbonatgehalt-Bestimmung nach Scheibler), wurde der organische Kohlenstoff je nach Datenquelle durch Nass- oder Trockenoxidation bestimmt. Auch bei der Korngrößenverteilung wurde nach unterschiedlichen Messverfahren (ohne/mit H2O2) vorgegangen. Durch verschiedene Messverfahren sind die verfügbaren Datensätze nicht eins zu eins vergleichbar und zusätzliche, nur schwer quantifizierbare Unsicherheiten können eine Folge davon sein.

3.2 Indirekte Ableitung Ks

3.2.1 Ableitung Eingangsgrößen für PTF

Bei der indirekten Ableitung von ks wurden in einem ersten Schritt die Eingangsgrößen für die gewählte EU-PTF, nämlich Sand‑, Schluff‑, Ton- und Humusgehalt, österreichweit regionalisiert. Erste Modellläufe mit den Texturanteilen als Zielgrößen haben schnell gezeigt, dass XGBoost auf Basis der vorhandenen Datenlage bessere Ergebnisse als FNN erzielt. Zu einer ersten Vorabschätzung stellt das FNN-Modell trotzdem ein wichtiges Instrument dar, da es vor allem hinsichtlich des Rechenaufwands und der Nachbereitung der Ergebnisse große Vorteile aufweist. Bei XGBoost muss für jede Zielgröße ein eigenes Modell trainiert werden, wobei die Rechendauer je Modell rund 11 bis 13 h beträgt. Zusätzlich müssen die XGBoost-Ergebnisse nachträglich hinsichtlich ihrer Wertebereiche normiert werden, damit sichergestellt ist, dass die Summe der abgeleiteten Texturanteile 100 % ergibt. Im Gegensatz dazu liefert das FNN-Modell für alle drei Texturanteile in rund 35 min Ergebnisse und es ist keine nachträgliche Skalierung der Texturwerte auf 100 % notwendig, da dieser Schritt bereits im Training durch die Wahl der Aktivierungsfunktion des Output Layers (Softmax-Aktivierung) implementiert werden kann.

Die besten Modellläufe für die Texturanteile hinsichtlich des Test-RMSE sind in Tab. 5 für alle betrachteten Tiefenstufen separat dargestellt. Der Fehler der XGBoost-Vorhersagen ist für jede Zielgröße und Tiefenstufe geringer als jener der FNN-Modelle. Aufgrund der besseren XGBoost-Ergebnisse wurde für die vierte Eingangsgröße der EU-PTF, also für den Humusgehalt, nur das XGBoost-Modell herangezogen. Hier beträgt der Test-RMSE je nach Tiefenstufen zwischen 6,12 % und 8,37 %.

Tab. 5 Gegenüberstellung der Test-Performance bezogen auf den Test-RMSE von XGBoost und FNN für die Vorhersage der Texturanteile (%) für alle drei Tiefenstufen

Tab. 5 zeigt, dass der Fehler in beiden Modellen mit zunehmender Tiefe größer wird. Bei näherer Betrachtung der vertikalen Verteilung der Sand- und Tongehalte in Abb. 3 zeigt sich, dass die Variabilität der Beobachtungsdaten (blaue Boxplots) mit der Tiefe zunimmt. Die XGBoost-Modelle (rote Boxplots) sind nicht in der Lage, diese größer werdende Varianz abzubilden. Zusätzlich erschwert wird dies durch die geringere Anzahl an Beobachtungspunkten mit der Tiefe. Für die Tiefenstufe 50–100 cm stehen mit rd. 10.500 Beobachtungspunkten ca. 5 000 Punkte weniger zur Verfügung als für den Oberboden.

Abb. 3
figure 3

Boxplots der Profildaten (observation – blau) und der XGBoost-Vorhersagen (prediction - rot) der Sand- (links) und Tongehalte (rechts) über die Tiefenstufen

Die Test-RMSEs der XGBoost-Ergebnisse zeigen außerdem eine deutliche Verbesserung der bis dato einzigen österreichweit verfügbaren, flächigen Bodeninformation SoilGrids. Abb. 4 zeigt links eine Gegenüberstellung des Tongehalts der vorhanden Profildaten (X-Achse) und der zugehörigen SoilGrids-Karte (Y-Achse) für die oberste Tiefenstufe. In der rechten Abbildung werden für dieselbe Tiefenstufe die Profildaten den XGBoost-Ergebnissen gegenübergestellt. Ein Vergleich der RMSE zeigt eine Fehlerreduktion von rund 42 %. Auch für den Sand- und Tongehalt werden durch XGBoost ähnlich große Verbesserungen gegenüber SoilGrids erzielt. Beim Vergleich der zwei Grafiken ist außerdem der unter Abschn. 3.1.1 beschriebene Skaleneffekt in der XGBoost-Vorhersage (rechtes Bild) nicht erkennbar. Im Vergleich zum SoilGrids-Produkt wird also die Variabilität der Bodenparameter durch das trainierte XGBoost-Modell deutlich besser vorhergesagt. Die vorherige Grafik (Abb. 3) hat aber bereits gezeigt, dass auch in den XGBoost-Vorhersagen ein gewisser Skaleneffekt zu beobachten ist und es in den Ergebnissen zur Reduktion der Variabilität kommt. Vor allem in tieferen Horizonten geht die natürliche Variabilität der Bodendaten im Regionalisierungsprozess verloren.

Abb. 4
figure 4

Links: Gegenüberstellung des Tongehalts der Profilpunkte (eBOD + BZI) auf der X‑Achse mit der SoilGrids-Vorhersage auf der Y‑Achse, rechts: Gegenüberstellung des Tongehalts der Profilpunkte (eBOD + BZI) auf der X‑Achse mit der XGBoost-Vorhersage auf der Y‑Achse

Basierend auf den besten XGBoost-Ergebnissen wurden die Texturanteile und der Humusgehalt für die Fläche von Österreich für die drei Tiefenstufen 0–20 cm, 20–50 cm und 50–100 cm auf einer Rasterbasis von 1 × 1 km2 abgeleitet. Die Ergebnisraster für die oberste Tiefenstufe sind in Abb. 5 grafisch dargestellt.

Abb. 5
figure 5

Ergebnisse der XGBoost-Regionalisierung der Sand‑, Schluff- und Tonanteile (jeweils in %), sowie des Humusgehalts (%) für die oberste Tiefenstufe und für ganz Österreich mit Ausnahme der Bodenbedeckungsklassen „Gebäude“, „Versiegelte Flächen“, „Eis und Schnee“ und „Wasserflächen“

3.2.2 Ermittlung ks und Validierung

Die Anwendung der EU-PTF (Szabó et al. 2021) erfolgte für jede Tiefenstufe separat, jeweils auf Basis der pro Tiefenstufe abgeleiteten Eingangsgrößen Sand, Schluff, Ton und Humus. Zur Anwendung des R‑Pakets „euptf“ (Szabó et al. 2021; Weber et al. 2020) wurden in einem ersten Schritt für alle Tiefenstufen die Eingangsgrößen Sand, Schluff und Ton ins bodenkundliche US-Klassifikationssystem mit den Korngrößenbereichen Ton (< 2 µm), Schluff (2–50 µm) und Sand (50–2000 µm) transformiert. Im Anschluss wurden für alle Tiefenstufen die mittlere ks sowie das 25-%- und das 75-%-Quantil für eine Auflösung von 1 × 1 km2 ermittelt. Die EU-PTF wurde über ML auf Basis der EU-HYDI entwickelt (Szabó et al. 2021), die Vorhersageunsicherheiten wurden dabei über Quantile Regression (Meinshausen 2006) implementiert.

Wie schon unter Abschn. 3.1.3 beschrieben, entsprechen die Landnutzungsinformationen der Bodenprofile aufgrund von Lageungenauigkeiten oder alter Informationen nicht immer der herangezogenen Bodenbedeckungskarte. Deshalb wurden die Bodenbedeckungsklassen „Gebäude“, „Versiegelte Flächen“, „Eis und Schnee“ und „Wasserflächen“ bei der ks Bestimmung nicht berücksichtigt.

Wie groß die Unsicherheiten der abgeleiteten Zielgröße ks sind, zeigt Abb. 6. Der mittlere, mittels EU-PTF abgeleitete Wert bewegt sich österreichweit zwischen −1,0 und 2,2 log10(cm/d). Das 25-%-Quantil liegt zwischen −2,2 und 1,74 log10(cm/d), und das 75-%-Quantil zwischen −0,4 und 3,1 log10(cm/d). Dieser große Schwankungsbereich zeigt sehr gut, dass bei Arbeiten aufbauend auf der gesättigten hydraulischen Leitfähigkeit kein einzelner Schwellenwert, sondern vielmehr ein Wertebereich berücksichtigt werden sollte. Die mittlere Schwankungsbreite liegt bei rund zwei Größenordnungen (2 log10(cm/d)).

Abb. 6
figure 6

25-%-Quantil (links), mittlere ks (Mitte) und 75-%-Quantil (rechts) der indirekten Ableitung, jeweils in log10(cm/d) und für die Tiefenstufe 0–20 cm

Eine Validierung der österreichweiten ks-Ableitungen ist nur bedingt möglich. Die Ergebnisse wurden der BAW-IKT-Datenbank, den Hydrobod-Rastern und den Beregnungsexperimenten der IKT gegenübergestellt. Im ersten Fall handelt sich um punktuelle, im Labor ausgewertete Probenahmen. Ein Vergleich von Punktmessungen und einer Rasterkarte mit einer Auflösung von 1 km hat aufgrund der natürlichen, kleinskaligen Heterogenität bodenhydraulischer Parameter nur eine bedingte Aussagekraft. Bei der Validierung mit Hydrobod ist eine Gegenüberstellung der abgeleiteten ks-Werte nur für die Fläche von Niederösterreich möglich. Des Weiteren muss beachtet werden, dass die Hydrobod-Produkte selbst Ableitungen darstellen, die ihrerseits mit Unsicherheiten behaftet sind. Eine Validierung der Ergebniskarten mit den Beregnungsexperimenten des BFW wurde unter der Annahme getroffen, dass bei Abflusskonstanz das Produkt aus Regenintensität und Abflussbeiwert der gesättigten hydraulischen Leitfähigkeit angenähert werden kann. Da hier keine tiefendifferenzierten Daten zur Verfügung stehen, wurden die Beregnungsexperimente nur dem obersten Bodenhorizont gegenübergestellt. Abb. 7 zeigt alle drei beschriebenen Validierungsversuche für den obersten Bodenhorizont, wobei jeweils auf der Y‑Achse die abgeleiteten ks-Werte dargestellt sind und auf der X‑Achse die Validierungsdaten.

Abb. 7
figure 7

Validierung der indirekten Ableitung von ks mit der BAW-IKT-Datenbank (links), den BFW-Beregnungsexperimenten (Mitte) und den Hydrobod-Rastern (rechts), jeweils für den obersten Bodenhorizont

In keiner der drei Validierungsversuche ist ein guter Zusammenhang zu den abgeleiteten ks-Werten ersichtlich. Auch zwischen den drei Validierungsversuchen ist kein Muster erkennbar. Alle drei Grafiken in Abb. 7 verbindet die Tatsache, dass die PTF-abgeleiteten ks-Werte tendenziell jeweils niedriger sind als die Werte der drei Validierungsdatensätze. Das mittlere und das rechte Streudiagramm weisen eine ähnliche Form auf, was wohl damit zusammenhängen dürfte, dass die über PTF berechneten ks-Werte aus dem Hydrobod-Projekt über – aus den Beregnungsversuchen gewonnenen – Modifikatoren (Sotier et al. 2017) angepasst wurden. Eine Einschätzung der Regionalisierung von ks auf Basis dieser Validierungsversuche ist nicht möglich.

3.3 Direkte Ableitung ks

Die Hydrobod-Ergebniskarten können über das XGBoost-Modell mit einem Test-RMSE von 1,65 log10(cm/d), wenn man die hohe kleinskalige Variabilität von ks bedenkt (vgl. Abb. 2), gut nachgebildet werden. Hierzu wurden die Hydrobod-NÖ-Produkte vorab von der Original-Auflösung (50 m) auf die Auflösung der Prädiktorvariablen (1 km) aggregiert. Eine Erklärung für die guten Ergebnisse dürfte einerseits darin liegen, dass die gewählten Prädiktorvariablen den Prädiktoren im Hydrobod-Projekt sehr ähnlich sind. Andererseits handelt es sich beim Hydrobod-Produkt um modellierte Schätzwerte, bei denen die Variabilität der Zielgröße durch Aggregierungsschritte und großskalige Prädiktoren bereits reduziert worden sein dürfte. Somit gestaltet sich auch die Vorhersage für die eingesetzten ML-Verfahren einfacher. Die Ergebnisse können aufgrund der österreichweit verfügbaren Prädiktorvariablen sehr einfach von Niederösterreich auf die restlichen Bundesländer übertragen werden. Die Prozessschritte samt österreichweiter ks-Ergebniskarte in mm/d sind für die oberste Tiefenschicht in Abb. 8 ersichtlich.

Abb. 8
figure 8

Schematische Darstellung der direkten ks-Ableitung (mm/d) auf Basis von Hydrobod-NÖ für die oberste Tiefenschicht links: NÖ-Hydrobod-ks-Raster (50 × 50 m2), Mitte: XGBoost-Ableitung (1 × 1 km2), rechts: Transfer auf Österreich (1 × 1 km2)

Wie valide die Ableitungen für Restösterreich sind, lässt sich allerdings nur schwer einschätzen. Analog zur Validierung der indirekten Ableitung wurde das Ergebnis der BAW-IKT-Datenbank und den BFW-Beregnungsexperimenten gegenübergestellt, allerdings kann auch anhand dieser Gegenüberstellungen kein Zusammenhang festgestellt werden oder eine Aussage über die Qualität der Ergebnisse getroffen werden.

In einer parallel zu dieser Arbeit durchgeführten Studie (Brunetti et al. 2022, in diesem Heft) wurden Infiltrationsprozesse unter dynamischen Vorfeuchte-Verhältnissen an Referenzböden der Bodenwassermonitoring-Stationen des Bundesministeriums für Landwirtschaft, Regionen und Tourismus untersucht. Dabei wurde für jede Messtation ein Hydrus-1D-Modell aufgesetzt und die bodenhydraulischen Parameter invers kalibriert. Die resultierenden ks-Werte dieser inversen Kalibrierung repräsentieren ks-Bereiche auf der Plotskala typischer österreichischer Böden. Diese kleinskaligen ks-Werte werden in Abb. 9 mit den großskaligen Ergebnissen der indirekten und direkten Ableitung von ks verglichen. Für die invers kalibrierten ks-Werte (modul_2) und für die indirekte Ableitung sind auch jeweils das 2,5-%- bzw. das 97,5-%-Quantil dargestellt. Die großen Vorhersage-Unsicherheiten der PTF (vgl. Abb. 9 indirekt) zeigen sehr gut, wie schwierig eine Vorhersage dieses hochvariablen Bodenparameters ist. Dementsprechend sollten bei der Nutzung der Ergebnisraster ausreichend große Schwankungsbereiche berücksichtigt werden.

Abb. 9
figure 9

Gegenüberstellung der ks-Ergebnisse aus der direkten und indirekten Ableitung sowie aus der Studie (Brunetti et al. 2022, in diesem Heft) für die oberste Tiefenstufe. Für die indirekte Ableitung und die Ergebnisse der Studie (modul_2) sind jeweils das 2,5-%- bzw. das 97,5-%-Quantil abgebildet

Die Gegenüberstellung der ks-Werte zeigt, dass die Ergebnisse der direkten Ableitung mit einer Ausnahme ausschließlich über den Ergebnissen der indirekten Ableitung liegen. Dies trifft nicht nur an den dargestellten Messstationen zu, sondern auch österreichweit liegen die ks-Werte der direkten Ableitung im Schnitt eine Größenordnung über den Werten der indirekten Ableitung. Die ks-Werte aus der Studie (Brunetti et al. 2022, in diesem Heft) (modul_2) liegen bei 8 von 12 Standorten zwischen den großskaligen Ergebnissen.

4 Diskussion und Ausblick

In der vorliegenden Studie wurden zwei ML-Modelle getestet, um anhand aller verfügbaren Bodendaten und Umweltvariablen bodenhydraulische Eigenschaften flächig für ganz Österreich abzuleiten. Besonderes Augenmerk wurde hier auf die Ableitung der gesättigten hydraulischen Leitfähigkeit (ks) gelegt, da dieser Bodenparameter für die Abschätzung von lokalen Infiltrationsraten von großer Bedeutung ist und somit als Grundlage für die Gefahrenabschätzung von pluvialem Hochwasser herangezogen werden kann.

In einem ersten Schritt wurden alle verfügbaren Bodendatensätze analysiert und aufbereitet. Die umfassende Datenanalyse (vgl. Abschn. 3.1) hat gezeigt, mit wie vielen Unsicherheiten und potenziellen Fehlerquellen bereits die vorhandenen Eingangsdaten behaftet sind. Bodeneigenschaften besitzen charakteristischerweise eine sehr hohe kleinskalige, räumliche und zeitliche Heterogenität. Bei Betrachtung der Bodeneigenschaften auf größeren Skalen wird diese natürliche Heterogenität durch Aggregierung dementsprechend reduziert. Dieser Skaleneffekt wurde auch in den dieser Studie zugrunde liegenden Bodendaten beobachtet und muss beim Zusammenfassen von unterschiedlich hoch aufgelösten Datensätzen bedacht werden. Auch im Rahmen dieser Studie wurden teilweise feiner aufgelöste Datengrundlagen auf die Zielauflösung von 1 × 1 km2 aggregiert. Um den höher aufgelösten Eingangsdaten, wie dem Geländemodell oder dem NDVI Rechnung zu tragen, wurden bei der Aggregierung auf die Zielauflösung nicht nur der jeweilige Mittelwert, sondern auch die Standardabweichung und das 5‑% bzw. 95-%-Quantil berücksichtigt. Nichtsdestotrotz kann bei einer 1 × 1 km2 Zielauflösung eine lokale Bodenheterogenität naturgemäß nicht abgebildet werden. Weitere Unsicherheiten in den Eingangsdaten stehen im Zusammenhang mit dem Alter der Daten, Lageungenauigkeiten oder unterschiedlichen Messmethoden. Zudem sind aus topografischer Sicht tiefer gelegene und vor allem landwirtschaftlich genutzte Bodenflächen deutlich besser erfasst als zum Beispiel Waldflächen oder Almregionen.

Bei der Regionalisierung der gesättigten hydraulischen Leitfähigkeit wurden zwei unterschiedliche Ansätze verfolgt: die indirekte und die direkte Ableitung von ks. Bei der indirekten Ableitung wurden in einem ersten Schritt die Bodenparameter Sand‑, Schluff‑, Ton- und Humusgehalt flächig abgeleitet. Diese Bodenparameter wurden im zweiten Schritt als Eingangsgrößen für die gewählte EU-PTF zur Ermittlung von ks benötigt. Die Bodenparameter wurden für die drei Tiefenstufen 0–20 cm, 20–50 cm und 50–100 cm abgeleitet. Da Bodeneigenschaften auch vertikal gesehen stark variieren können, wird durch eine Aggregierung der Bodendaten auf einheitliche Tiefenstufen folglich auch die vertikale Variabilität reduziert. Für die Ableitung der vier genannten Bodenparameter wurden die vielfach erprobten ML-Modelle XGBoost und FNN getestet. XGBoost liefert für die gegebene Datenlage hinsichtlich des RMSE deutlich bessere Ergebnisse als der FNN-Algorithmus. Zweiterer besticht vorrangig aufgrund seiner schnellen Rechenzeit und stellt somit ein hilfreiches Instrument für schnelle Testläufe dar.

Eines der wichtigsten Ergebnisse dieser Studie ist, dass die XGBoost-Ergebnisse eine relative, im Schnitt 40-prozentige Verbesserung (bezogen auf den Test-RMSE) der derzeit einzig österreichweit flächig verfügbaren Bodeninformation SoilGrids darstellen. Die Variabilität der Bodenparameter Sand, Schluff, Ton und Humus kann vor allem für die oberste Tiefenstufe gut, allerdings nicht im vollen Maße, wiedergegeben werden.

Die tiefendifferenzierten Ergebniskarten für Sand, Schluff, Ton und Humus wurden als Eingangsgrößen für die EU-PTF herangezogen. Auf Basis der EU-PTF02 wurde die gesättigte hydraulische Leitfähigkeit für ganz Österreich für drei verschiedene Tiefenstufen ermittelt. Neben der mittleren gesättigten hydraulischen Leitfähigkeit wurde auch das 25 %- und das 75 %-Quantil ermittelt. Die großen Schwankungsbereiche in den Ergebnissen (vgl. Abb. 6) zeigen gut, dass bei Fragestellungen betreffend die gesättigte hydraulischen Leitfähigkeit nicht von einem absoluten Wert, sondern vielmehr von einer möglichen Wertespanne ausgegangen werden sollte. Die Ergebnisse für ks sind auf Basis der verfügbaren Datensätze nur bedingt validierbar.

Die direkte Ableitung von ks erfolgte auf Basis der Ergebnisraster der Hydrobod-NÖ-Projekte. Auf Basis der ks-Hydrobod-Raster wurde ein XGBoost-Modell für alle drei Tiefenstufen trainiert. Dieser Datensatz ist mit den angewendeten ML-Verfahren gut nachbildbar. Das Modell wurde auf ganz Österreich transferiert. Analog zu den Endergebnissen der indirekten Ableitung war auch bei der direkten Hydrobod-Ableitung eine Validierung nur sehr eingeschränkt möglich.

Insgesamt zeigen die vorliegenden Ergebnisse, dass leicht messbare Bodeneigenschaften, wie die Texturanteile, mit ML-Verfahren gut modellierbar sind, vorausgesetzt, eine ausreichend große Datenbasis ist vorhanden. Die resultierenden RMSE sind im Vergleich zu anderen DSM-Projekten als gut zu bewerten (vgl. Hengl et al. 2017; Pásztor et al. 2020), grundsätzlich sind die Ergebnisse aber trotzdem mit einem großen Fehler behaftet. Dies zeigt einmal mehr, wie schwierig die Modellierung hoch variabler Parameter ist. Um die Ergebnisse weiter verbessern zu können, wäre eine Überprüfung der Aktualität der bestehenden Datensätze sowie eine verdichtete Bodenaufnahme von nicht landwirtschaftlich genutzten Flächen sinnvoll. Hierzu sind derzeit auch Initiativen, wie das FORSITE-Waldtypisierung-Steiermark Projekt, im Gange. Das Einbinden solcher Projektergebnisse in der vorliegenden Studie würde zusätzlich dazu beitragen, die bestehenden Datenlücken zu Österreichs Waldflächen zu füllen.

Die österreichweite Vorhersage der gesättigten hydraulischen Leitfähigkeit war nur limitiert möglich. Die Variabilität der gesättigten hydraulischen Leitfähigkeit beträgt im Extremfall bis zu vier Größenordnungen innerhalb einer Texturklasse (vgl. Abb. 2). Zusätzlich ist die vorhandene Datenlage zu ks aufgrund der aufwendigeren Messungen dünner. Bei der indirekten Ableitung der gesättigten hydraulischen Leitfähigkeit wurden lediglich die Einflussgrößen Sand, Schluff, Ton und Humus berücksichtigt, ks ist aber noch von sehr vielen weiteren lokalen und saisonalen Faktoren abhängig. Zukünftige Weiterentwicklungen dieser Arbeit können somit zum Beispiel das Einbinden von zusätzlichen Einflussfaktoren, wie saisonaler Bewuchs, Makroporen (durch saisonale Bearbeitung oder Regenwurmaktivitäten), Hydrophobie oder Verschlämmung bei Starkregenereignissen, betreffen. Ein weiterer Fokus könnte auf die Ableitung der Zielvariablen für eine höhere Auflösung gelegt werden. Dies würde allerdings mit einem exponentiell wachsenden Rechenaufwand und Speicherbedarf im Modelltraining einhergehen.

Bei weiterführenden Arbeiten auf Grundlage der Ergebnisraster wird empfohlen, die Unsicherheiten der ks-Werte der direkten Ableitung mit einer mittleren Schwankungsbreite von zwei Größenordnungen zu adressieren, und bei den ks-Werten der indirekten Ableitung das 25-%- bzw. das 75-%-Quantil zu berücksichtigen. Für kleinskalige Fragestellungen bleiben lokale Bodenuntersuchungen im Vorfeld unerlässlich.