1 Motivation

Aktuelle und valide Einwohnerzahlen sind für politische Entscheidungsfindungen unerlässlich und bspw. für den Finanzausgleich zwischen Bund und Ländern, für die Einteilung des Bundesgebietes in Wahlkreise und zur Bestimmung der Größe der Wahlbezirke oder für allgemeine Planungsaufgaben von Bedeutung (Statistisches Bundesamt 2021b). Auch bei Fragestellungen zur Verkehrsnutzung oder zur räumlichen Gesundheitsversorgung können diese von hoher Relevanz sein.

Der Bedarf an möglichst kleinräumigen Bevölkerungszahlen wird aktuell vor allem im Rahmen von georeferenzierten Auswertungen im Bereich des Gesundheitssystems, zum Beispiel hinsichtlich des Zugangs zu Gesundheitseinrichtungen, gesehen. Bspw. untersuchte Information und Technik Nordrhein-Westfalen (IT.NRW 2018) die Verteilung von Arztpraxen in Nordrhein-Westfalen anhand von georeferenzierten Einwohnerzahlen aus dem Zensus 2011. Eine weitere Verwendungsmöglichkeit wird in diesem Zusammenhang im Einbezug kleinräumiger Bevölkerungszahlen beim Krankenhaus-AtlasFootnote 1 gesehen, der deutschlandweit die Krankenhäuser unter Angabe ihrer jeweiligen Fachabteilungen, ihrer Erreichbarkeit sowie in Abhängigkeit von der kleinräumigen Bevölkerungsdichte basierend auf dem Zensus 2011 interaktiv darstellt. Hierzu ist anzumerken, dass die zeitliche Diskrepanz in der Bevölkerungsdichte zwischen dem Zensus 2011 sowie den zu einem späteren Zeitpunkt hieran anknüpfenden Forschungsfragen eine mögliche Unsicherheit bei der Interpretation der Ergebnisse darstellt, da keine aktuelleren Ergebnisse der jährlichen Bevölkerungsfortschreibung auf kleinräumiger Ebene vorlagen.

Dieses Problem findet sich auch bei Arbeiten zur Raumforschung und bei der Bewertung von Raumentwicklungen. Bei Fina et al. (2019) werden bspw. anhand kleinräumiger Bevölkerungszahlen aus dem Zensus 2011 Analysen hinsichtlich der innerstädtischen Mobilität durchgeführt, um Zusammenhänge zwischen bspw. Mobilitätsarmut und der soziodemografischen Struktur auf stadtregionaler Ebene herzustellen. Sie betonen, dass eine Fortschreibung differenzierter kleinräumiger Bevölkerungsdaten für derartige Analysen aufgrund abnehmender Aktualität der Zensus-Ergebnisse erforderlich sei.

Die Bevölkerungsfortschreibung ermöglicht die Angabe aktueller Einwohnerzahlen auf geografischer Ebene der administrativen Einheiten. Die Einwohnerzahl wird hierbei auf Basis des Zensus 2011 anhand von Angaben der Statistiken zu Geburten und Sterbefällen sowie der Wanderungsstatistik laufend bzw. jährlich fortgeschrieben. Die kleinste administrative Ebene, auf der hierbei veröffentlicht werden kann, ist die Gemeindeebene. Entsprechend ist es nicht möglich Bevölkerungsdaten für nicht-administrative Einheiten zu ermitteln, die sich nicht aus Gemeinden zusammensetzen (Statistisches Bundesamt 2021b). Hierunter fallen unter anderem georeferenzierte Daten in Form von INSPIREFootnote 2-konformen Gitterzellen.

Gitterzellen sind gleich große Quadrate, die bei einer flächendeckenden, gleichmäßigen Anordnung bzw. Verteilung, ein Raster bilden. Die sogenannten INSPIRE-konformen Gitterzellen stellen ein europaweit einheitliches geographisches Gitter dar und sind dadurch unabhängig von administrativen Einheiten, wodurch sie zugleich unabhängig von Gebietsstandsänderungen sind (BKG 2020b). Demzufolge sind INSPIRE-konforme Gitterzellen zeitlich stabil und bleiben dauerhaft vergleichbar, selbst bei Zusammenfassung der Gitterzellen auf einer höheren Ebene. Sie erlauben somit flexible Auswertungen nicht nur für administrative oder statistische Gebiete, sondern auch für frei definierbare Gebiete wie innerstädtische Strukturen oder Stadt-Umland-Übergänge (Wonka et al. 2009; BBSR 2021; Kirchner et al. 2014). Ein weiterer Vorteil neben der beliebigen räumlichen Zusammenfassung besteht in der vereinfachten Verschneidung mit weiteren Datenquellen auf dieser räumlich neutralen und – in Europa – länderübergreifend standardisierten Struktur. Flächendeckende Bevölkerungsdaten auf Rasterebene ermöglichen demnach eine differenziertere Betrachtung soziodemografischer Entwicklungen in Gemeinden, Ortsteilen etc. Da der Bedarf an kleinräumigeren Bevölkerungszahlen aktuell nicht von der Bevölkerungsfortschreibung gedeckt werden kann, wird ein neuer experimenteller Lösungsansatz verfolgt.

Demzufolge gibt es bereits diverse Herangehensweisen bzw. Ansätze, um kleinräumige und aktuelle Bevölkerungszahlen zu erzeugen. Neben mittlerweile gängigen Methoden wie der sogenannten Small Area Estimation, eine kleinräumige Schätzmethode zur Schätzung von kleinräumigen Bevölkerungszahlen, wie bereits in Simpson et al. (1996) diskutiert, werden zusätzlich insbesondere Fernerkundungsdaten – vorzugsweise Satellitendaten – zur Herleitung kleinräumiger Bevölkerungsverteilungen verwendet. Hierbei werden Bevölkerungszahlen, insbesondere Bevölkerungsdichten, vorrangig durch Kartierungsmethoden oder kleinräumige Schätzverfahren anhand von Fernerkundungsdaten auf Basis der letzten Volkserhebung auf räumlich feine Einheiten prognostiziert (Stevens et al. 2015).Footnote 3 Lloyd et al. (2017) nutzen hierbei im sogenannten WorldPop ProgrammFootnote 4 basierend auf diversen Geodaten einen gewichteten dasymetrischen Ansatz, worunter ein Prozess der räumlichen Umverteilung von interessierenden Größen durch eine flächenhafte Interpolation zu verstehen ist, bei dem anhand eines Random Forest Modells Bevölkerungszahlen kleinräumig geschätzt werden.Footnote 5 Schug et al. (2021) kartieren die Bevölkerung in Deutschland unter Verwendung von Gewichtungsschichten, die bspw. von der Gebäudedichte, Gebäudehöhe und den Gebäudetypen aus Satellitendaten (Copernicus Sentinel‑1 und Sentinel‑2 Daten) hergeleitet werden. Neuere Ansätze wie in Koebe et al. (2022) kombinieren Satellitendaten und das Small Area-Schätzverfahren SPREEFootnote 6, eine Methode der strukturerhaltenden Schätzung, die insbesondere für regional und demografisch differenzierte Bevölkerungsfortschreibungen zwischen den Zensen auf kleinräumiger Ebene verwendet wird. Anhand der Hilfsinformationen aus den Satellitendaten werden folglich kleinräumige Bevölkerungszahlen für den Senegal selbstständig fortgeschrieben.

Um die Qualitätsaspekte der amtlichen Statistik möglichst nicht zu tangieren, werden in dieser Arbeit die amtlich fortgeschriebenen Bevölkerungszahlen anhand neuer digitaler Daten kleinräumig umverteilt. Die Qualität der fortgeschriebenen Bevölkerungszahl ist ab der Gemeindeebene aufwärts unangetastet, da sie den Bevölkerungszahlen der Bevölkerungsfortschreibung entsprechen. Mit diesem Verfahren wird die amtliche Statistik unterstützt – jedoch nicht ersetzt – da keine Bevölkerungszahlen fortgeschrieben werden, sondern diese nur anhand einer zusätzlichen externen Datenquelle – genauer Mobilfunkdaten – kleinräumig unterhalb der Gemeindeebene verteilt werden.

Dass die Verteilung der Bevölkerung mit den vorliegenden Mobilfunkdaten grundsätzlich gut und zeitnah abgebildet werden kann, zeigen Hadam et al. (2020) bereits in den bisherigen Analysen zur Bevölkerungsdarstellung mit Mobilfunkdaten. Der ausschlaggebende Vorteil der Mobilfunkdaten im Vergleich zu anderen Datenquellen oder Hilfsinformationen besteht hierbei in den starken Zusammenhängen der Mobilfunkdaten mit der Bevölkerung sowie in ihrer zeitlich und räumlich hohen Auflösung. Zudem sind Mobilfunkdaten robust gegenüber administrativen Gebietsstrukturänderungen und können für jede gewünschte räumliche Einheit aufbereitet werden und sind dadurch auch im Zeitverlauf vergleichbar. Im Gegensatz zu anderen Datenquellen können Mobilfunkdaten die tatsächlichen Aufenthaltsorte der Bevölkerung somit valide und zeitnah darstellen.Footnote 7

Douglass et al. (2015) haben den Nutzen von Mobiltelefondaten zur Darstellung hochauflösender Bevölkerungsschätzer bereits erkannt und fokussieren sich darauf, die Bevölkerung in Mailand durch ein Random Forest Modell für den Zeitraum zwischen den Zensen zu schätzen, das auf den bekannten Zensusdaten trainiert wird. Sie verwenden hierzu sogenannte individuelle Mobiltelefondaten oder auch Call Detail Records (CDRs). Deville et al. (2014) zeigen ferner, wie Mobiltelefondaten bzw. CDRs die gängigen Ergebnisse der Volkszählung durch kleinräumige Schätzungen oder auch bei der Messung der Bevölkerungsdynamik ergänzen können. Zudem vergleichen sie die geschätzte Bevölkerungsdichte, die auf Basis von CDRs sowie durch Fernerkundungsdaten hergeleitet wird, anhand der amtlichen Bevölkerungszahlen in Portugal und schlussfolgern, dass die Kombination beider Datenquellen und Methoden eine Verbesserung der räumlichen und zeitlichen Auflösung verspricht.Footnote 8

Der Vorteil dieser CDRs liegt mitunter in der sehr individuellen Angabe von Informationen zu Mobiltelefonnutzenden auf einer hohen räumlichen Auflösung, die im Gegensatz zu den Signaldaten – im Folgenden nur noch als Mobilfunkdaten bezeichnet – jedoch ereignisbasiert sind. Bei den Mobilfunkdaten werden alle erzeugten Signale im entsprechenden Mobilfunknetz vom Netzbetreiber erfasst (Hadam 2021). Die CDRs sind daher nur verfügbar, wenn der Telefonnutzende bspw. aktiv einen Anruf tätigt oder eine SMS bzw. mobile Daten sendet. Zudem liegen CDRs nur von Vertragskundinnen und -kunden vor, die im Rechnungssystem des Mobilfunkanbieters hinterlegt sind. Um Aussagen über die Bevölkerungszahlen anhand von Daten mobiler Endgeräte zu tätigen, bieten sich CDRs aufgrund der offensichtlichen Selektivitäten (Vertrag- vs. Prepaid-Kundin/-Kunde) daher nicht an.

Im Projekt Experimentelle georeferenzierte Bevölkerungszahl auf Basis der Bevölkerungsfortschreibung und Mobilfunkdaten wird darauf aufbauend erforscht, ob und inwieweit mit Mobilfunkdaten die vorhandene Bevölkerungsfortschreibung unter Verwendung eines Verteilungsverfahrens kleinräumig, von der Gemeindeebene bundesweit auf INSPIRE-konforme 1 × 1 km Gitterzellen, verteilt und abgebildet werden kann. Bis die erste amtliche georeferenzierte Bevölkerungszahl auf Basis des Zensus 2022 vorliegt, kann die zeitliche Lücke behelfsweise durch die Nutzung von Mobilfunkdaten geschlossen und als experimentelles Ergebnis genutzt werden. Zudem werden die erstellten kleinräumigen Ergebnisse anhand von Geodaten der deutschen Landesvermessung des Bundesamtes für Kartographie und Geodäsie (BKG) validiert und die experimentelle Bevölkerungsverteilung auf Plausibilität geprüft. Fehlzuweisungen, die unplausible Ergebnisse hervorrufen, werden weiterhin durch eine nachfolgende Modifizierung der Mobilfunkdaten bestmöglich korrigiert. Insgesamt stellt der Artikel damit den aktuellen Stand der Arbeit zur experimentellen Georeferenzierung der Bevölkerungszahl mittels Mobilfunkdaten dar.

Dieser Artikel ist wie folgt gegliedert: Im nachfolgenden Abschnitt werden die Datengrundlagen beschrieben, die sich in die amtliche Bevölkerungsfortschreibung sowie die verwendeten Mobilfunkdaten aufteilen. Hierbei wird insbesondere auf die Datenstrategie und -aufbereitung der Mobilfunkdaten eingegangen. In Abschn. 3 wird die Methode – genauer das Verteilungsverfahren – zur Umverteilung der Bevölkerungszahlen anhand der zuvor beschriebenen Daten erläutert. Die resultierenden Ergebnisse werden in Abschn. 4 diskutiert und auf Plausibilität geprüft. Im letzten Abschnitt wird ein Fazit zur hier beschriebenen Erstellung kleinräumiger Bevölkerungszahlen unter Verwendung von Mobilfunkdaten gezogen und es werden weitere Schritte sowie Schlussfolgerungen zur Diskussion gestellt.

2 Datengrundlage: Bevölkerungsfortschreibung und Mobilfunkdaten

Die Bevölkerungsfortschreibung ermöglicht die Angabe aktueller Einwohnerzahlen bis auf Ebene der Gemeinden und gibt die Bevölkerungszahl und die Zusammensetzung der Bevölkerung untergliedert nach Geschlecht, Alter, Familienstand und Staatsangehörigkeit wieder (Statistisches Bundesamt 2021b).

Die Einwohnerzahl wird nach § 5 BevStatG auf Basis der letzten Volkszählung (gegenwärtig Zensus 2011) anhand von Angaben der Statistiken zu Geburten und Sterbefällen, zu Staatsangehörigkeitswechseln und Lösungen von Ehen und Lebenspartnerschaften sowie der Wanderungsstatistik laufend fortgeschrieben (Statistisches Bundesamt 2021b). Die Fortschreibung der Bevölkerungszahlen insgesamt sowie untergliedert nach Alter und Geschlecht resultiert aus den statistischen Ergebnissen der Bevölkerungsbewegungen, worunter Wanderungen, Geburten, Sterbefälle und Eheschließungen zu verstehen sind. Untergliedert werden diese nach den natürlichen Bevölkerungsbewegungen, hierunter fallen Geburten sowie Sterbefälle, und nach den räumlichen Bevölkerungsbewegungen, den Zu- und Abwanderungen über Gemeindegrenzen hinweg, die aus entsprechenden Verwaltungsdaten von Standesämtern und Meldebehörden gezogen werden (Statistisches Bundesamt 2021b).

Die demografischen Merkmale der Zusammensetzung aus der Bevölkerungsfortschreibung liegen zudem in unterschiedlicher regionaler Gliederungstiefe vor, wobei die Merkmale Geschlecht, Alter und Staatsangehörigkeit (deutsch/nicht-deutsch) bis auf Gemeindeebene und der Familienstand nur auf der Kreisebene sowie einzelne Staatsangehörigkeiten auf der Landesebene vorliegen (Statistisches Bundesamt 2021b). Insgesamt werden die Ergebnisse auf Ebene der Gemeinden, Kreise, Bundesländer und das Bundesgebiet nach dem GemeindeverzeichnisFootnote 9 des Statistischen Bundesamtes ausgewiesen.

Neben der Bevölkerungsfortschreibung stellen Mobilfunkdaten die zweite elementare Datengrundlage in diesem Artikel dar. Aufgrund des Potenzials, die Verteilung der Tages- und Wohnbevölkerung gut und zeitnah abzubilden (Hadam et al. 2020), stellen sie – besonders durch die starken Zusammenhänge mit der Wohnbevölkerung – eine geeignete Grundlage dar, um die Ergebnisse der Bevölkerungsfortschreibung kleinräumig zu verteilen.Footnote 10 Seit dem Jahr 2019 besitzen über 97 % der privaten Haushalte in Deutschland ein mobiles Endgerät (Statistisches Bundesamt 2021a), weshalb die gezählten Mobilfunkaktivitäten bundesweit flächendeckend zu einer realitätsnahen Darstellung der Tages- und Wohnbevölkerung in Deutschland beitragen können. Im Vergleich zu anderen Datenquellen, insbesondere traditionellen Erhebungsdaten, liegen Mobilfunkdaten damit zeitnah, hochaktuell und kleinräumig zur Verfügung und sind grundsätzlich nicht von äußeren Einflüssen, wie Wetterbedingungen, beeinflussbar. Zudem ist der Aufwand der Datenerfassung und -aufarbeitung bei Mobilfunkdaten tendenziell geringer, weshalb die zeitliche Aktualität bei anderen Datenquellen, so wie bspw. traditionellen Erhebungsdaten, tendenziell abnimmt.

Ziel der hier aufbereiteten Mobilfunkdaten ist eine möglichst perfekte Abbildung der potenziellen Wohnbevölkerung in den Mobilfunkdaten, um anhand dessen die Bevölkerungszahlen der Bevölkerungsfortschreibung kleinräumig zu verteilen. Zu diesem Zweck werden Mobilfunkdaten aus dem Netz der Telefónica Deutschland verwendet, die vom Datenanbieter Teralytics GmbH aufbereitet und zur Verfügung gestellt werden. Die Mobilfunkdaten liegen aus 8 ausgewählten Wochen aus dem Jahr 2019, exkl. Ferien und Feiertage, auf einem flächendeckenden INSPIRE-konformen 1 × 1 km RasterFootnote 11 vor, um Verzerrungen durch touristische und freizeitliche Aktivitäten zu vermeiden.Footnote 12 Da es sich hierbei um Signaldaten handelt, werden alle Signale im entsprechenden Mobilfunknetz vom Netzbetreiber automatisch erfasst, sofern das mobile Endgerät nicht ausgeschaltet ist oder sich im Flugmodus befindet. Dabei wird lediglich die Ortsangabe des Funkmastes registriert, mit dem das mobile Endgerät zu einem bestimmten Zeitpunkt verbunden ist.

Abb. 1 stellt beifolgend die Pearson-Korrelationskoeffizienten zwischen den Bevölkerungszahlen des Zensus 2011 und den aufbereiteten Mobilfunkdaten aus dem Netz der Telefónica Deutschland basierend auf einem Mischraster, wie in Statistisches Bundesamt (2019), nach Wochentag und Uhrzeit erstmalig für ganz Deutschland in einem Liniendiagramm dar. Eine hohe Korrelation in Abb. 1 lässt schlussfolgern, dass zu den entsprechenden Zeitpunkten die mobilen Aktivitäten am Wohnort getätigt wurden, da der Zusammenhang zwischen den Bevölkerungszahlen des Zensus 2011 und den Mobilfunkdaten entsprechend stark positiv ist.

Abb. 1
figure 1

Pearson-Korrelationskoeffizienten zwischen den Bevölkerungszahlen des Zensus 2011 und den Mobilfunkdaten basierend auf einem bundesweiten Mischraster sowie Darstellung/Hervorhebung der beiden möglichen Mobilfunkdatenstrategien

Ferner stehen zwei Strategien zur Zählung mobiler Aktivitäten zur Abbildung der potenziellen Wohnbevölkerung zur Verfügung. Die beiden möglichen Datenstrategien sind visuell in den rötlich hinterlegten Rechtecken in Abb. 1 hervorgehoben.

Die erste bereits bekannte Option nach Hadam et al. (2020) und dem Statistischen Bundesamt (2019) bildet einen Datensatz für einen statistischen Sonntagabend, wie in Abb. 1 dargestellt, welcher den Durchschnittswert aller Mobilfunkaktivitäten von 20 bis 23 Uhr an den ausgewählten Sonntagen mit einer zweistündigen Verweildauer im Untersuchungsgebiet enthält. Aufgrund der in Abb. 1 sichtbaren höchsten Korrelation zwischen den Mobilfunkdaten am statistischen Sonntagabend und den Bevölkerungszahlen des Zensus 2011 wird angenommen, dass dieser Zeitraum einen guten Indikator für die Darstellung der Bevölkerungsverteilung liefert.

Die zweite und damit alternative Datenstrategie zur Ermittlung der Wohnbevölkerung wird als Heimatort-Strategie bezeichnet und ermittelt den Herkunftsort aller erfassten Mobilfunksignale anhand des ersten und des letzten Signals innerhalb von 24 Stunden. Hierbei gibt es verschiedene Möglichkeiten, die die Erfassungen der Signale betreffen, die in Abb. 1 hypothetisch im Korrelationsdiagramm in den rötlichen Rechtecken (Erstes Signal, Letztes Signal) hervorgehoben sind.Footnote 13

Die eingängigste Definition stellt das räumlich identische erste und letzte Signal dar. Eine räumliche Einheit wird als Herkunftsort bzw. potenzieller Wohnort aus den Mobilfunkdaten bestimmt, wenn das erste und letzte Signal des mobilen Endgerätes innerhalb von 24 Stunden in derselben räumlichen Einheit erfasst wurde. Alternativ hierzu können das erste Signal oder auch das letzte Signal innerhalb von 24 Stunden separat verwendet werden, sofern diese nicht räumlich übereinstimmen. Dabei wird der potenzielle Wohnort auf dem ersten Signal innerhalb von 24 Stunden bestimmt, falls das Signal vor 8 Uhr erfasst wurde und das erste und letzte Event nicht übereinstimmen und vice versa bei der Bestimmung nach dem letzten Signal innerhalb von 24 Stunden.

Weiterhin wird bei der Heimatort-Strategie im Gegensatz zum statistischen Sonntagabend ein Werktagsdurchschnitt gebildet, ohne das Wochenende sowie den Freitag einzubinden, was am veränderten (Bewegungs‑)Verhalten der Bevölkerung bzw. der Mobilfunknutzenden in diesem Zeitraum liegt (siehe auch Hadam 2021). Zudem muss beachtet werden, dass die Angabe des Herkunftsortes nur über das separate erste oder letzte Signal verzerrt ist, wie Abb. 2 veranschaulicht.

Abb. 2
figure 2

Anteil der identischen ersten und letzten Signale an allen verfügbaren Signalen (erstes u./o. letztes) über die Werktage (Mo.–Do.) mit sichtbar höherem Anteil des separaten ersten oder letzten Signals auf dem deutschen Autobahnnetz

Werden die räumlich identischen ersten und letzten Signale ins Verhältnis zu allen verfügbaren (ersten u./o. letzten) Signalen über die Werktage Montag bis Donnerstag gesetzt, sticht das Autobahnnetz in Deutschland insbesondere im östlichen Teil Deutschlands in Abb. 2 sichtbar hervor. Der Anteil des separaten ersten oder letzten Signals in diesen Bereichen erscheint gering im Vergleich zu den anderen Regionen, jedoch bilden sie an den Bundesgrenzen sowie auf dem Autobahnnetz die Hauptaktivitäten in den verfügbaren Mobilfunkdaten. Insgesamt macht das erste Signal nur 2,2 % aller Mobilfunkaktivitäten aus, das letzte Signal nur 3,9 % aller Aktivitäten und damit fallen 93,8 % aller Aktivitäten der ausgewählten Werktage auf die räumlich identischen ersten und letzten Signale, weshalb durch diese Anforderung kein Informationsverlust in den Mobilfunkdaten entsteht. Schlussendlich stellen diese Herkunftsorte nicht die potenzielle Wohnbevölkerung in Deutschland dar und werden schließlich in den nachfolgenden Analysen nicht weiter einbezogen.

Da nur Mobilfunkdaten eines von insgesamt drei Mobilfunkanbieter auf dem deutschen Markt zur Verfügung stehen, wurden die Mobilfunkdaten vom Datenanbieter extrapoliert, wobei ein konstanter Extrapolationsfaktor auf Landkreisebene basierend auf Einwohnerzahlen der Bevölkerungsfortschreibung berechnet wurde. Dabei wurde die Extrapolation nur für Mobilfunkaktivitäten deutscher SIM-Karten durchgeführt, um Verzerrungen durch ausländische oder touristische Aktivitäten zu vermeiden. Dies erfolgte durch eine sogenannte Roamerkorrektur, wobei die Roamer (nicht-deutsche SIM-Karten) bei der Berechnung der Extrapolationsfaktoren herausgerechnet wurden.

Um flächendeckende Mobilfunkdaten für das 1 × 1 km Raster zu erhalten, mussten die Mobilfunkaktivitäten durch den Datenanbieter in einem letzten Schritt – sofern notwendig – anhand von weiteren BevölkerungszahlenFootnote 14 modelliert bzw. räumlich verteilt werden. Das bedeutet, dass die Anzahl der mobilen Aktivitäten nicht in jedem Fall eindeutig einer einzelnen Gitterzelle zugewiesen werden kann.

Abb. 3 visualisiert hierbei vereinfachend das Modellierungsprinzip. Im Idealfall wird jede Gitterzelle von mindestens einer Mobilfunkzelle abgedeckt, auf deren Basis die mobilen Aktivitäten initial erfasst werden (siehe Abb. 3a). Bei einem bundesweiten 1 × 1 km Raster wird diese Bedingung nur in dicht besiedelten Regionen erfüllt. Sofern die Mobilfunkzelle mehr als eine Gitterzelle, wie in Abb. 3b und c, abdeckt, werden die Mobilfunkaktivitäten vom Datenanbieter Teralytics anhand der ihnen zur Verfügung stehenden Bevölkerungszahlen probabilistisch in die Gitterzellen verteilt. Dies ist vor allem in ländlichen oder weniger dicht besiedelten Regionen der Fall. Der Modellierungsgrad des Datenanbieters zeigt auf, dass 5,6 % der Mobilfunkdaten den 1 × 1 km Gitterzellen eindeutig zugewiesen werden konnten (vergleichbar mit Abb. 3a). 37,5 % wurden kleinräumig modelliert (vergleichbar mit Abb. 3b), was bedeutet, dass die Mobilfunkzelle zwischen zwei und neun Gitterzellen abdeckt. Deckt die Mobilfunkzelle mehr als neun Gitterzellen ab, werden die Mobilfunkaktivitäten großräumig modelliert bzw. mit einfachen Annahmen räumlich verteilt und die Genauigkeit der Zuweisungen mobiler Aktivitäten lässt deutlich nach (vergleichbar mit Abb. 3c). Dies ist bei 56,9 % der Gitterzellen der Fall und der größte Treiber möglicher Unsicherheiten in den resultierenden Ergebnissen.

Abb. 3
figure 3

Räumliche Verteilung/Modellierung der Mobilfunkaktivitäten durch den Datenanbieter nach Modellierungsgrad a keine, b kleinräumig und c großflächig modelliert

Zu guter Letzt liegen ebenfalls die soziodemografischen Merkmale Altersgruppe und Geschlecht ausschließlich der Vertragskundinnen und -kunden vor (Datenstand: 2021).

3 Methodik

3.1 Räumliche Zuordnung der Gitterzellen und Mobilfunkaktivitäten

Für eine präzise Umverteilung der Ergebnisse der Bevölkerungsfortschreibung von der Gemeindeebene auf Ebene der 1 × 1 km Gitterzellen bedarf es einer akkuraten Zuordnung der Gitterzellen zu der überdeckenden Gemeinde. Andernfalls besteht die Gefahr einer fehlerhaften kleinräumigen Verteilung von Bevölkerungszahlen innerhalb ihrer Gemeinde durch die aufbereiteten Mobilfunkdaten.

Die einfachste Methode bietet eine geografische Mittelpunktzuordnung, bei der der Mittelpunkt einer Gitterzelle anhand ihrer räumlichen xy-Koordinaten in einer eindeutig überdeckenden Gemeinde verortet und dieser zugeordnet wird. D. h., die Gitterzelle wird derjenigen Gemeinde zugewiesen, deren Mittelpunkt sie überdeckt. Der Vorteil dieser Methode ist die schnelle und einfache Umsetzung in gängigen Geoinformationssystem-Softwareprodukten. Der Nachteil liegt in der teilweise fehlerhaften oder auch nicht möglichen Zuordnung von Gitterzellen zu Gemeinden. Dies ist vorwiegend in Bundesländern mit flächenmäßig kleinen Gemeinden der Fall, bei der eine Zuordnung nicht oder nur stark verzerrt möglich ist. Im vorliegenden Fall resultieren bei einer Mittelpunktzuordnung 46 Gemeinden in Deutschland, die nicht von Gitterzellen überdeckt und zugeordnet werden können (siehe Tab. 1).

Tab. 1 Anzahl fehlender Gemeinden nach Zuordnungsstrategie der Gitterzellen sowie Mobilfunkdatenwahl

Eine zweite und zuverlässigere Möglichkeit bietet die Zuordnung der Gitterzelle zu einer überdeckenden Gemeinde ausschließlich anhand ihrer Fläche, mit der die Gitterzelle die Gemeinde überdeckt. Dies wurde auch in dieser Arbeit umgesetzt. Das Ziel hierbei ist es, die Gitterzelle derjenigen Gemeinde zuzuordnen, die den größten Flächenanteil an einer Gemeinde besitzt, unabhängig von den zugrundeliegenden Bevölkerungsdichten.

In einem ersten Schritt werden die Flächenanteile jeder Gitterzelle zur überdeckenden Gemeinde berechnet. Abb. 4 zeigt beispielhaft eine Gitterzelle, die drei Gemeinden überdeckt. Die Berechnung der Fläche ergibt, dass Gemeinde A den größten Flächenanteil mit 41 % an der Gitterzelle besitzt. In einem zweiten Schritt werden die Mobilfunkaktivitäten aus dieser Gitterzelle anhand der jeweiligen Flächenanteile anteilsmäßig auf die drei Gemeinden A, B und C verteilt und damit nicht zu 100 % einer Gemeinde zugeteilt. Dadurch erfolgt in diesem Beispiel eine implizite Dreiteilung der Gitterzelle bei der Berechnung der gruppenspezifischen Ziehungswahrscheinlichkeit in Abschn. 3.2. Hiermit werden weniger Verzerrungen bzw. Unsicherheiten in den Ergebnissen durch grenzüberlappende Gitterzellen verursacht, weil die Mobilfunkdaten anteilsmäßig den Gemeinden zugeordnet werden, in denen diese flächenmäßig liegen. Im letzten Schritt wird jede Gitterzelle sowie die berechnete experimentelle georeferenzierte Bevölkerungszahl eindeutig der Gemeinde mit dem höchsten Flächenanteil zugeordnet (hier Gemeinde A).

Abb. 4
figure 4

Flächenzuordnung der Gitterzelle zu den überdeckenden Gemeinden anhand der berechneten Flächenanteile

In den hier aufgezeigten Zuordnungsstrategien und im nachfolgend beschriebenen Verteilungsverfahren wird damit implizit eine Strukturgleichheit auf Gemeindeebene sowie dem 1 × 1 km Raster angenommen. Diese wird gleichsam in sowie zwischen den Mobilfunkdaten und den zu verteilenden Bevölkerungszahlen der Bevölkerungsfortschreibung übernommen und geht aus der nachweisbaren Korrelation beider Datenquellen hervor. Letzteres resultiert zudem in der Annahme, dass sich die vorliegende (kleinräumige) Verteilung der Mobilfunkdaten proportional zur Verteilung der amtlichen Bevölkerungszahlen verhält, weshalb diese als Verteilungsgrundlage in dieser Arbeit Bestand haben. Entsprechend ist auch eine triviale Aufteilung der Mobilfunkaktivitäten von der Gitterzelle auf mehrere Gemeinden anhand der Flächenanteile umsetzbar.

In Bezug zu den beiden Mobilfunkdatenstrategien aus Abschn. 2 werden beim letzten Verfahren damit alle Gemeinden – mit Ausnahme von zwei Gemeinden, in denen keine Mobilfunkdaten unter anderem durch fehlende Mobilfunkmasten vorliegen – mit Gitterzellen abgedeckt, wie in Tab. 1 gelistet. Durch die Abhängigkeit der Datenverfügbarkeit aufgrund der ausgewählten Mobilfunkdatenstrategie bzw. Datenwahl kann auch die präferierte Flächenzuordnung zu fehlenden Ergebnissen einzelner Gemeinden führen, wie es im Fall des statistischen Sonntagabends zur Abbildung der potenziellen Wohnbevölkerung vorliegt (vgl. Tab. 1). Wegen fehlender Mobilfunkaktivitäten beim statistischen Sonntagabend können zwei weitere Gemeinden nicht kleinräumig durch Gitterzellen dargestellt werden. Dies trägt maßgeblich zur Wahl der Heimatort-Strategie für die Umsetzung in Abschn. 4.1 bei.

3.2 Verteilungs- und Rundungsverfahren

Im Rahmen eines Verteilungsverfahrens werden die Ergebnisse der Bevölkerungsfortschreibung von der Gemeindeebene auf eine kleinräumigere Ebene umverteilt. Für die kleinräumige Verteilung der Bevölkerungszahlen aus der Bevölkerungsfortschreibung werden die den Gemeinden räumlich zugeordneten Gitterzellen benötigt, um aus den zugrundeliegenden Mobilfunkaktivitäten den Verteilungsvorgang herzuleiten. Hierfür werden gruppenspezifische Ziehungswahrscheinlichkeiten (PID) für jede Gitterzelle aus den Mobilfunkdaten in Abhängigkeit von der zugrundeliegenden Gemeinde errechnet:

$$P_{ID}=\frac{n_{ID}}{n_{i}}{,}$$
(1)

wobei nID die Anzahl der Mobilfunkaktivitäten pro Gitterzelle ID und ni die Summe aller Mobilfunkaktivitäten in der zugeordneten Gemeinde i ist. Vereinfachend ausgedrückt, wird der Anteil der Mobilfunkaktivitäten in Gitterzelle ID im Verhältnis zur Gesamtanzahl aller Aktivitäten in der zugeordneten Gemeinde i berechnet, sodass PID innerhalb der Gemeinde variiert.

Anhand der Ziehungswahrscheinlichkeiten PID wird die amtliche Bevölkerungszahl im nächsten Schritt kleinräumig verteilt. Die experimentelle georeferenzierte Bevölkerungszahl (ExpGeoBFSID) pro Gitterzelle ID ergibt sich dabei aus der Multiplikation der Bevölkerungszahl der Bevölkerungsfortschreibung in Gemeinde i mit der gruppenspezifischen Ziehungswahrscheinlichkeit PID aus Gl. 1:

$$\text{ExpGeoBFS}_{ID}=\mathrm{BFS}_{i}*P_{ID}{,}$$
(2)

wobei BFSi die Einwohnerzahl der Bevölkerungsfortschreibung in Gemeinde i darstellt.

Wie in Abb. 5 dargestellt, ermöglicht Gl. 2 eine kleinräumige Verteilung der Bevölkerungszahl von jeder möglichen administrativen Einheit – wie im vorliegenden Fall die Gemeindeebene – auf jede mögliche kleinräumigere Ebene. Notwendig hierfür sind gleichgroße kleinräumige Strukturen, bei denen die gruppenspezifischen Ziehungswahrscheinlichkeiten errechnet werden können. Burgdorf (2010) und Steinnocher et al. (2005) führen im Vergleich hierzu eine räumliche Disaggregation von Bevölkerungsdaten mittels Bebauungsinformation bzw. Bebauungsdichten aus dem amtlichen Digitalen Basis-Landschaftsmodell (ATKIS-Basis-DLM) durch. Burgdorf (2010) nimmt dabei für bestimmte Objektarten unterschiedliche Bevölkerungsdichten an, die zur Vergabe von Gewichten für die Umverteilung der Bevölkerungszahl verwendet werden. Bei Steinnocher et al. (2005) erfolgt die räumliche Aufteilung über eine gewichtete Summenfunktion. Sie leiten bspw. für die untersuchte Region einen spezifischen Faktor ab, der innerhalb der Region konstant ist und vom Verhältnis der Gesamtbevölkerung zur Summe des Flächenanteils und der Bebauungsdichte der entsprechenden Bebauungsklasse abhängt.

Abb. 5
figure 5

Visuelle Darstellung des Verteilungsverfahrens

Hierbei wird zudem die Relevanz einer bestmöglichen Zuordnung von Gitterzelle zu Gemeinde aus Abschn. 3.1 deutlich. Wird die Gitterzellenzuordnung nicht akkurat durchgeführt, hat dies andere gruppenspezifische Ziehungswahrscheinlichkeiten (PID) aus Gl. 1 zur Folge. Daraus ergeben sich zwangsläufig veränderte experimentelle georeferenzierte Bevölkerungszahlen (ExpGeoBFSID) in Gl. 2.

Um nun die amtliche Bevölkerungszahl je Gemeinde aus der Bevölkerungsfortschreibung zu erhalten, werden die experimentellen kleinräumigen Bevölkerungszahlen in einem entsprechenden Verfahren gerundet. Norman et al. (2008) oder Rees et al. (2003) verwenden dafür die sogenannte iterative proportionale Anpassung (Iterative Proportional Fitting (IPF)), um Bevölkerungsgruppen kleinräumig zu disaggregieren und gleichzeitig die Randwerte zu erhalten, sodass Zeilen- und Spaltensummen immer der Gesamtzahl der Bevölkerungsgruppe entsprechen. Im Vergleich dazu werden hier vereinfacht die aus Gl. 2 resultierenden ExpGeoBFSID auf Gemeinde i aufsummiert und anschließend anhand der jeweiligen Bevölkerungszahl pro Gemeinde (BFSi) gerundet, wobei die Summe der ExpGeoBFSID pro Gemeinde i \((\sum _{i}\text{ExpGeoBFS}_{ID})\) dem Wert der Einwohnerzahl der Bevölkerungsfortschreibung (BFSi) entsprechen muss:

$$\sum _{i}\text{ExpGeoBFS}_{ID}=\mathrm{BFS}_{i}.$$
(3)

Daraus ergeben sich experimentelle georeferenzierte Bevölkerungszahlen, deren Eckwerte denen der amtlichen Bevölkerungsfortschreibung entsprechen.

Gl. 3 wird dabei wie folgt ausgeführt: Im ersten Schritt werden alle kleinräumig verteilten Bevölkerungszahlen anhand der angegebenen Dezimalstellen abgerundet, entgegen der klassischen Rundungsregel. Basierend darauf wird die Differenz zwischen der amtlichen Bevölkerungszahl pro Gemeinde und der aufsummierten kleinräumig verteilten experimentellen Bevölkerungszahl für die zugrundeliegende Gemeinde gebildet.

Als Beispiel sei der folgende Zahlenvektor für die experimentellen georeferenzierten Bevölkerungszahlen (ExpGeoBFSID) aufgeführt: (27,27273; 34,34343; 38,38384). Nach der klassischen Rundungsregel, oder auch Fünferrundung genannt, würde eine Summe von 99 resultieren.Footnote 15 Der wahre Wert beträgt jedoch 100, welcher durch das implizite Rundungsverfahren in Gl. 3 hervorgeht. Weiter ergibt sich nun eine Differenz zwischen dem gerundeten und wahren Wert von 1. Daraufhin werden die zuvor abgerundeten ExpGeoBFSID nach ihren Dezimalstellen geordnet. Dies ist notwendig, um die abgerundeten Dezimalstellen von denjenigen ExpGeoBFSID um den Faktor 1 zu erhöhen, die letztlich die größten Nachkommastellen aufweisen. Die eingangs ermittelte Differenz, hier als Beispiel in Höhe von 1, zwischen BFSi und der aufsummierten kleinräumig verteilten experimentellen Bevölkerungszahl (\(\sum _{i}\text{ExpGeoBFS}_{ID}\)) bestimmt hierbei die Anzahl der ExpGeoBFSID pro Gemeinde i, deren Werte erhöht bzw. aufgerundet werden müssen, um Gl. 3 zu erfüllen. Im angegebenen Beispiel wird von den drei Werten im Zahlenvektor durch die Differenz von 1 nur ein Wert mit der größten Dezimalstelle aufgerundet, hier 38,38384 auf 39. In Summe resultiert nach Gl. 3:

$$27+34+39=100.$$

Das hier beschriebene Verfahren lässt sich grundsätzlich auch auf weitere Angaben zur Bevölkerung, wie bspw. soziodemografische Merkmale umsetzen, sofern geeignete Mobilfunkdaten oder andere räumlich passende Datenquellen vorliegen, die eine kleinräumige Umverteilung anhand gruppenspezifischer Ziehungswahrscheinlichkeiten zulassen.

4 Diskussion der resultierenden experimentellen georeferenzierten Bevölkerungszahlen

4.1 Die experimentelle georeferenzierte Bevölkerungszahl

Wie in Abschn. 2 bereits beschrieben, stehen zwei mögliche Mobilfunkdatenstrategien für die Bestimmung experimenteller georeferenzierter Bevölkerungszahlen nach Abschn. 3.2 zur Verfügung. Die Wahl der Datenstrategie hängt von zwei grundlegenden Aspekten ab: bundesweit flächendeckende Abdeckung bzw. Datenverfügbarkeit sowie bestmögliche Wiedergabe der Bevölkerungsverteilung.

Aus Tab. 1 wurde bereits sichtbar, dass die Mobilfunkdaten nach dem statistischen Sonntagabend nicht flächendeckend vorliegen bzw. die Datenverfügbarkeit durch die restriktive Annahme der ausschließlich gezählten sonntagabendlichen Mobilfunkaktivitäten abnimmt. Daher findet hier die Heimatort-Strategie Verwendung. Wie bereits Abb. 2 veranschaulichte, werden hierbei zudem nur die räumlich identischen ersten und letzten Signale mobiler Aktivitäten einbezogen. Da das hier beschriebene Verfahren für die folgenden Berichtsjahre 2020 und 2021 umgesetzt wird, ist die flächendeckende Datenverfügbarkeit für die Folgejahre der ausschlaggebende Entscheidungsfaktor. Weitere Informationen zur Mobilfunkdatenwahl und die Auswirkungen der gewählten Mobilfunkdatenstrategie auf die Berechnung der experimentellen georeferenzierten Bevölkerungszahlen sind im Anhang A.1 dargestellt.

Die experimentelle georeferenzierte Bevölkerungszahl nach Abschn. 3.2 wird anhand der Heimatort-Strategie, basierend auf dem Werktagsdurchschnitt von Montag bis Donnerstag, und dem räumlich identischen ersten und letzten Mobilfunksignal der Mobilfunknutzenden innerhalb von 24 Stunden berechnet.Footnote 16 Die Ergebnisse sind in Abb. 6 in einer statischen Karte dargestellt.

Abb. 6
figure 6

Bundesweit visualisierte experimentelle georeferenzierte Bevölkerungszahl auf Ebene der 1 × 1 km Gitterzellen

Abb. 6 stellt die räumliche Verteilung der experimentellen georeferenzierten Bevölkerungszahl anhand einer klassierten Skala dar, wobei die Grenzen der Bundesländer für die Einordnung der Werte hervorgehoben sind. Experimentelle georeferenzierte Bevölkerungszahlen zwischen 0 und 3 werden durch die Angabe eines Intervalls geheim gehalten und in der Karte als solches sowie farblich hell hinterlegt. Hohe Werte der experimentellen georeferenzierten Bevölkerungszahl werden dunkel schattiert (farblich rot) hervorgehoben und niedrige Werte hell schattiert (gelb/orange). Auf den ersten Blick erscheinen die berechneten Werte und die Verteilung plausibel, da besonders dicht besiedelte Regionen bzw. Städte wie Berlin, Hamburg, München, Köln, Bonn oder das Ruhrgebiet entsprechend stark in der Karte hervorstechen. Der eher weniger dicht besiedelte oder auch der ländliche Raum sind entsprechend gelb/orange in Abb. 6 hinterlegt. Der weniger dicht besiedelte Raum stellt visuell den Großteil der Fläche in Deutschland dar. Um die Ergebnisse kleinräumiger und individueller betrachten zu können, wurde zusätzlich eine interaktive Rasterkarte erstellt und auf der Seite Statistik visualisiert des Statistischen Bundesamtes veröffentlicht (weitere Informationen siehe hierzu den Anhang A.2).Footnote 17

Die Eckwerte der experimentellen georeferenzierten Bevölkerungszahlen können in einigen Gebietsstrukturen oberhalb der Gemeindeebene (Kreis, Bundesland) leicht von den Ergebnissen der amtlichen BevölkerungsfortschreibungFootnote 18 abweichen. Grund hierfür sind nicht verfügbare Mobilfunkdaten in einigen Gitterzellen, die zu fehlenden experimentellen georeferenzierten Bevölkerungszahlen in den Ergebnissen der zugrundeliegenden Gemeinde führen können. Im vorliegenden Fall können zwei Gemeinden in Schleswig-Holstein (Helgoland, Nieby) wegen nicht vorhandener Mobilfunkaktivitäten unter anderem durch fehlende Mobilfunkmasten mit experimentellen georeferenzierten Bevölkerungszahlen ausgewiesen werden (vgl. auch Tab. 1). Insgesamt handelt es sich hier um rund 0,05 % der Gesamtbevölkerung in Schleswig-Holstein, die folglich nicht mit einer experimentellen georeferenzierten Bevölkerungszahl abgebildet werden können. Eine Aggregation der experimentellen georeferenzierten Bevölkerungszahlen von Gemeinde- auf bspw. Kreisebene kann demnach zu einer geringeren Einwohnerzahl führen als amtlich angegeben.

Weiterhin wurde untersucht, inwieweit sich das in Abschn. 3.2 beschriebene Verteilungsverfahren auf die soziodemografischen Angaben, wie Altersgruppe und Geschlecht, anwenden lässt. Wie durch das Statistische Bundesamt (2021c) bereits ausführlich dargestellt wurde, unterliegen die soziodemografischen Angaben der Mobilfunkanbieter starken Verzerrungen, die sich auch in dem hier beschriebenen Verfahren wiederfinden lassen. Um diesen Verzerrungen entgegenzuwirken, wurden Anpassungsfaktoren auf nationaler Ebene durch den Datenanbieter berechnet und die Verteilungen entsprechend angepasst. Besonders ein Fehlen der Nicht-Vertragsmündigen sowie der Prepaid-Kundinnen und -Kunden verhindert dennoch eine plausible Darstellung der experimentellen georeferenzierten Bevölkerungszahl differenziert nach Altersgruppen sowie Geschlecht.

Ferner ergeben sich Herausforderungen bei der Nutzung der soziodemografischen Merkmale für das hier beschriebene Verfahren in der resultierenden Datenverfügbarkeit durch die Kreuzkombinationen von Mobilfunkaktivität pro Gitterzelle und soziodemografischem Merkmal beim Datenanbieter sowie dem umgesetzten Anonymisierungsverfahren. Durch die Unterteilung der Merkmale in mehrere Untergruppen bzw. Klassen erhöht sich das Risiko, dass viele 1 × 1 km Gitterzellen ohne entsprechenden Wert ausgegeben werden und dadurch keine flächendeckenden Ergebnisse berechnet und dargestellt werden können. Zusätzliche Ausführungen zur Verwendung soziodemografischer Merkmale für die experimentelle georeferenzierte Bevölkerungsfortschreibung sind im Anhang A.3 ausgeführt.

Eine Qualitätseinschätzung der Mobilfunkdaten sowie der Ergebnisse (der experimentellen georeferenzierten Bevölkerungszahl) ist nur anhand weiterer vergleichbarer Datengrundlagen gegeben, welche in den nachfolgenden Abschnitten besprochen werden.Footnote 19

4.2 Validierung der Ergebnisse – Erste Plausibilitätsprüfung anhand des Zensus 2011

In Abschn. 4.1 wurden die ermittelten experimentellen georeferenzierten Bevölkerungszahlen visualisiert und beschrieben. Hierbei wurden erwartbare regionale Differenzen der experimentellen Bevölkerungsdichte sichtbar, die insbesondere urbane Gebiete im Vergleich zum ländlichen Raum stark hervorheben. Aufgrund der räumlich genaueren Aufbereitung der Mobilfunkaktivitäten im urbanen Raum (vgl. Abschn. 2; Abb. 3) war dies zu erwarten und unterstützt die Annahme, dass die Ergebnisse – insbesondere die Verteilung der experimentellen georeferenzierten Bevölkerungszahlen – in urbanen Regionen plausibel sind. Umgekehrt wird angenommen, dass Unsicherheiten insbesondere in ländlichen Gebieten auftreten und die Ergebnisse dort weniger plausibel erscheinen.

Da es sich bei den Ergebnissen um keine Schätzung im eigentlichen Sinne handelt, ist eine gängige Bestimmung von Unsicherheitsmaßen, wie dem Mean Squared Error (MSE) o. ä., nicht gegeben. Auch eine Prüfung der absoluten Werte der experimentellen georeferenzierten Bevölkerungszahl ist aktuell nicht möglich, da es hierfür keine vergleichbare Datengrundlage gibt. Dies wird erst mit den Ergebnissen des Zensus 2022 möglich sein.

Stattdessen wird eine zweistufige Plausibilisierung durchgeführt. Als erster Schritt zur Validierung der Ergebnisse aus Abschn. 4.1 werden diese den georeferenzierten Bevölkerungszahlen des Zensus 2011 gegenübergestellt, um eine erste Einschätzung der Ergebnisse zu erhalten. Im zweiten Plausibilisierungsschritt wird dann in Abschn. 4.3 die räumliche Verteilung der experimentellen georeferenzierten Bevölkerungszahl anhand aktueller amtlicher Geodaten auf Plausibilität geprüft. Grundsätzlich soll anhand dessen im ersten Plausibilisierungsschritt ermittelt werden, inwieweit sich die hier ermittelten experimentellen Bevölkerungszahlen von denen aus dem Zensus 2011 unterscheiden und worin die Unterschiede bzw. mögliche Fehlerquellen bestehen. Aufgrund der zeitlichen Differenz beider Datenquellen stellt dies nur eine grobe Annäherung dar und ermöglicht keine absoluten Aussagen. Entsprechend müssen die Befunde mit Vorsicht interpretiert werden.

Um regionale Unterschiede bei der Gegenüberstellung beider Bevölkerungszahlen feststellen zu können, werden diese anhand des Verstädterungsgrades in Deutschland aufgegliedert. Der Verstädterungsgrad wird nach der Definition von der Europäischen Kommission und Eurostat (2021) in drei Kategorien unterteilt, die anhand des Anteils der regionalen Bevölkerung ermittelt werden. Es wird nach Städten oder dicht besiedelten Gebieten unterschieden, die mindestens 50 % ihrer Bevölkerung in städtischen Zentren nachweisen. Hinzu kommen kleinere Städte und Vororte bzw. Gebiete mit mittlerer Bevölkerungsdichte, die weniger als 50 % ihrer Bevölkerung in städtischen Zentren und nicht mehr als 50 % ihrer Bevölkerung in ländlichen Gebieten vorweisen sowie ländliche Gebiete oder dünn besiedelte Gebiete, die mehr als 50 % ihrer Bevölkerung in ländlichen Gebieten aufweisen. Abb. 7 stellt den Verstädterungsgrad anhand der drei beschriebenen Kategorien kartografisch dar. Hierbei ist weiterhin entscheidend, wie sich der Flächenanteil sowie die deutsche Wohnbevölkerung auf die drei Raumtypen verteilen (siehe Tab. 2).

Abb. 7
figure 7

Verstädterungsgrad in Deutschland

Tab. 2 Flächen- und Bevölkerungsanteile nach Verstädterungsgrad in Deutschland

Aus Abb. 7 wird visuell ersichtlich, dass der urbane Raum den geringsten Flächenanteil in Deutschland ausmacht und der ländliche Raum dagegen den größten. In Deutschland gelten nach Tab. 2 rund ca. 2 % der Fläche als dicht besiedeltes Gebiet, ca. 24,5 % als Gebiet mit mittlerer Besiedlungsdichte und ca. 73,5 % als ländliches und demnach gering besiedeltes Gebiet. Jedoch wird in Tab. 2 gleichzeitig sichtbar, dass knapp 80 % der deutschen Bevölkerung auf nur rund 27 % der Fläche mit dichter sowie mittlerer Besiedlungsdichte angesiedelt sind. D. h. im Umkehrschluss, dass ein Großteil der Fläche in Deutschland gering besiedelt ist oder nicht bewohnt wird. Weiterhin wird beim Vergleich der beiden Abb. 6 und 7 deutlich, dass der Verstädterungsgrad sowie die räumliche Verteilung bzw. Dichte der experimentellen georeferenzierten Bevölkerungszahl im Bundesgebiet deckungsgleich sind.

Für die Feststellung möglicher regionaler Unterschiede bei der Gegenüberstellung beider Bevölkerungszahlen, werden in Abb. 8 nun die Pearson-Korrelationskoeffizienten der Gegenüberstellung bzw. die Zusammenhänge der experimentellen georeferenzierten Bevölkerungszahl 2019 und der georeferenzierten Einwohnerzahl basierend auf dem Zensus 2011 und den 1 × 1 km Gitterzellen differenziert nach dem Verstädterungsgrad betrachtet. Auf der x‑Achse ist die absolute Einwohnerzahl aus dem Zensus 2011 hinterlegt und auf der y‑Achse die experimentelle georeferenzierte Bevölkerungszahl 2019.

Abb. 8
figure 8

Korrelationsdiagramm der experimentellen georeferenzierten Bevölkerungszahl 2019 und der Einwohnerzahl basierend auf dem Zensus 2011 nach Verstädterungsgrad

Zunächst geht aus den Korrelationskoeffizienten je Verstädterungsgrad in Abb. 8 insgesamt hervor, dass die Zusammenhänge beider Bevölkerungszahlen trotz zeitlicher Differenz von 8 Jahren stark positiv sind und mit einem Koeffizienten von maximal 0,94 in dicht besiedelten Gebieten einhergehen. Weiterhin wird ersichtlich, dass die Korrelationen mit abnehmender Bevölkerungszahl – in Form des Verstädterungsgrades und damit der Bevölkerungsdichte – stetig abnehmen. In ländlichen bzw. dünn besiedelten Gebieten fällt die Korrelation am geringsten aus, womit auch der positive Zusammenhang mit dem Zensus 2011 geringer wird. In den Gitterzellen, die den dünn besiedelten Gemeinden zugeordnet werden, wird außerdem dazu tendiert, die experimentelle georeferenzierte Bevölkerungszahl im Vergleich zum Zensus 2011 zu überschätzen, was durch die sichtbare Streuung oberhalb der Diagonalen in Abb. 8 (unterstes Streudiagramm) sichtbar wird. Hier besteht die Möglichkeit, dass durch die Überschätzung im ländlichen Raum eine Unterschätzung im städtischen Raum durch die anzunehmende fehlerhafte Verteilung in einigen Gitterzellen vorliegen könnte.

Tab. 3 schlüsselt weiterhin mögliche Fehlschätzungen in den experimentellen georeferenzierten Bevölkerungszahlen auf, die aus dem Vergleich mit den Bevölkerungszahlen aus dem Zensus 2011 auf Ebene der 1 × 1 km Gitterzellen resultieren. Hierbei fällt besonders auf, dass in 39 % aller Gitterzellen mit dem hier verwendeten Verteilungsverfahren Bevölkerung kleinräumig verteilt wird, in denen laut dem Zensus 2011 keine Einwohner gemeldet waren. Dies ist vorwiegend in dünn besiedelten Gemeinden mit knapp 70 % der betroffenen Gitterzellen der Fall sowie zu einem merklichen Anteil von 27,3 % in kleineren Städten und Vororten. In 0,2 % der Gitterzellen gibt die experimentelle georeferenzierte Bevölkerungszahl keine Bevölkerung oder einen geheim zuhaltenden Wert aus, in denen dies laut dem Zensus 2011 nicht der Fall ist. Offensichtlich wird aus Tab. 3 und Abb. 8, dass Unsicherheiten und Fehlschätzungen bei den kleinräumigen Zuordnungen der Bevölkerungszahl im ländlichen oder weniger dicht besiedelten Raum in den (vorwiegend modellierten) Gitterzellen angenommen werden müssen.

Tab. 3 Mögliche Fehlschätzungen in der experimentellen georeferenzierten Bevölkerungszahl im Vergleich zum Zensus 2011 auf Ebene der 1 × 1 km Gitterzellen

Die Erkenntnisse aus Tab. 2 relativieren hierbei die weniger guten Ergebnisse in ländlichen Gebieten in Abb. 8 sowie Tab. 3. Zwar wird ein flächenmäßig großer Anteil in Deutschland mit dem hier beschriebenen Verfahren mit tendenziell nicht plausiblen experimentellen georeferenzierten Bevölkerungszahlen ausgegeben. Jedoch wird demgegenüber aufgrund der Verteilung der Bevölkerung auf die drei kategorialen Gebiete angenommen, dass der Großteil der Bevölkerung besonders im urbanen Raum nachvollziehbar und plausibel kleinräumig verteilt wird. Diese Annahmen werden im folgenden zweiten Plausibilitätsschritt eingehender geprüft.

4.3 Zweite Plausibilitätsprüfung anhand amtlicher Geodaten

In einem zweiten Plausibilisierungsschritt werden die Erkenntnisse aus der Gegenüberstellung mit dem georeferenzierten Zensus 2011 aus Abschn. 4.2 aufgegriffen und die Ergebnisse anhand weiterer Datenquellen, genauer Geodaten aus amtlichen Vermessungsdaten, untersucht, die Informationen zu räumlichen Gegebenheiten in Bezug auf Landnutzung und Wohnflächen liefern. Sie werden verwendet, um die räumliche Verteilung der Ergebnisse in den Gitterzellen auf Plausibilität zu prüfen.

Der Vorteil bei der Nutzung von Vermessungsdaten bzw. Geodaten im Vergleich zu originären Fernerkundungsdaten liegt in den dort bereits aufbereiteten Geometrien. Sie enthalten belastbare Informationen zur Landnutzung und sind vergleichsweise einfach zu verarbeiten, können jedoch aufgrund der aufwändigen Datenaufbereitung seitens des BKG und der Vermessungsämter der Länder meist nur in einem Turnus von mehreren Jahren aktualisiert werden. Somit ist eine gewisse zeitliche Differenz zwischen den zugrundeliegenden Daten vorhanden.

Wie von Deville et al. (2014) bereits vorgeschlagen, wird eine Kombination aus Mobilfunkdaten sowie Geodaten, welche teilweise aus Fernerkundungs- oder genauer Satellitendaten hergeleitet oder mit diesen aktualisiert werden, umgesetzt. Jedoch wird anhand dessen keine zusätzliche Schätzung der experimentellen georeferenzierten Bevölkerungszahl wie in Schug et al. (2021) erfolgen, stattdessen wird anhand dieser Geodaten eine zusätzliche Plausibilitätsprüfung durchgeführt und bei Bedarf werden Verbesserungsmaßnahmen in der Aufbereitung der Mobilfunkdaten definiert.

Zu diesem Zweck werden aktuelle Geodaten der deutschen Landesvermessung des BKG verwendet, um die Verteilung der experimentellen georeferenzierten Bevölkerungszahl auf Plausibilität zu prüfen. Hierfür werden die amtlichen Hausumringe Deutschland (HU-DE) sowie die Geodaten aus dem Datensatz Haushalte Einwohner Bund (HH-EW-Bund) verwendet. Dabei wird analysiert, welche Gitterzellen Wohnflächen bzw. eine Wohnnutzung aufweisen und ob folglich eine Wohnbevölkerung in dieser zu erwarten ist oder ausgeschlossen werden kann.

Allein die Fläche zu betrachten, ist für die Plausibilisierung der Ergebnisse nicht ausreichend, da bspw. in ländlichen Gebieten Einfamilienhäuser eine relativ große Fläche für vergleichsweise wenige Einwohnerinnen und Einwohner beanspruchen können. Durch die Kombination der HU-DE mit den Daten des HH-EW-Bund lassen sich genauere Aussagen zur absoluten Verteilung der experimentellen georeferenzierten Bevölkerungszahl treffen. Hierzu werden die georeferenzierten Umringpolygone der Gebäudegrundrisse in Deutschland nach Wohngebäuden anhand der Gebäudefunktionskennung gefiltert und die Anzahl der Hausumrisse in der entsprechenden Gitterzelle bestimmt (BKG 2021b). Anhand dessen wird primär die räumliche Verteilung der experimentellen georeferenzierten Bevölkerungszahl auf Plausibilität geprüft. Zusätzlich werden die georeferenzierten Daten des HH-EW-Bund verwendet, um die Wohngebiete des HU-DE mit georeferenzierten Adressdaten (GA)Footnote 20 sowie die Anzahl der Haushalte pro Adresse und Gitterzelle zu ergänzen. Letztere werden dabei von der infas 360 GmbH anhand diverser Quellen sowie einer stichprobenhaften Erhebung hergeleitet (BKG 2021a). Der Stand des HH-EW-Bund Datensatzes ist auf Januar 2019 datiert und der des HU-DE auf das Jahr 2021, weshalb die Kombination beider Geodatenquellen aufgrund der zeitlichen Differenz in einigen Fällen zu nicht konsistenten Angaben führen kann.Footnote 21

Eine grundlegende Annahme, die bei der Plausibilitätsprüfung mit diesen Geodaten getroffen wird, ist, dass die Höhe der experimentellen georeferenzierten Bevölkerungszahl mit der Wohnfläche bzw. der Wohnbebauung, den Adresspunkten sowie der damit verbundenen Anzahl an Haushalten einhergeht. Konkret bedeutet dies, dass je mehr Adressdaten pro Gitterzelle vorliegen und je höher der Anteil der Wohnfläche bzw. der Hausumringe sowie der Anzahl der Haushalte pro Gitterzelle ist, desto höher sollte die experimentelle georeferenzierte Bevölkerungszahl tendenziell liegen. Im gleichen Maße geht damit einher, dass keine experimentelle georeferenzierte Bevölkerungszahl in einer Gitterzelle vorliegen darf, in der keine Wohnbebauung bzw. -fläche, Adressdaten etc. vorliegen.

Daraus ergeben sich folgende Kennzahlen im Sinne eines hier definierten Ampel-Konzepts, das die experimentelle georeferenzierte Bevölkerungszahl in drei Plausibilisierungskategorien einteilt: plausibel (grün), teils plausibel (gelb) und unplausibel (rot).

Als unplausibel gelten hierbei alle Gitterzellen mit experimentellen georeferenzierten Bevölkerungszahlen, die einem unbewohnten Gebiet bzw. den dazugehörigen Gitterzellen (keine Wohnfläche bzw. Wohngebäude, Adressen oder Haushalte) zugeordnet wurden oder keine in einer bewohnten Gitterzelle. Als plausibel gelten alle Bevölkerungszahlen, die in Gitterzellen verteilt wurden, die mit einem entsprechend hohen Wohnflächenanteil, einer hohen Anzahl an Adresspunkten und an Haushalten einhergehen sowie Gitterzellen, die eine experimentelle Bevölkerungszahl von Null angeben, in der auch keine Wohnflächen etc. ausgewiesen werden. Als teils plausibel werden Gitterzellen bewertet, deren zugeordnete experimentelle georeferenzierte Bevölkerungszahl zu hoch oder zu niedrig in Zusammenhang mit der vorhandenen Wohnfläche bzw. der Anzahl an Hausumringen, den Adresspunkten und den geführten Haushalten erscheinen. Hierbei wird zudem als Schwellenwert zur Bewertung der Höhe der experimentellen georeferenzierten Bevölkerungszahl die Anzahl der Haushalte pro Gitterzelle sowie ihre durchschnittliche Anzahl an Personen in Höhe von zwei angeführt (Statistisches Bundesamt 2020).Footnote 22

Die in Abb. 9a visualisierten Ergebnisse dieser zweiten Plausibilitätsprüfung unterstützen die ersten Annahmen aus Abschn. 4.2, dass insbesondere in urbanen Räumen plausible experimentelle georeferenzierte Bevölkerungszahlen ermittelt bzw. zugewiesen werden. Umgekehrt bestätigt sich, dass ländliche Räume tendenziell häufiger mit unplausiblen Ergebnissen, aufgrund der hier verwendeten Mobilfunkdaten und des verwendeten Verteilungsverfahrens, einhergehen. Insgesamt geben die Kennzahlen rund 27,5 % der Gitterzellen und die ihnen zugeordneten experimentellen Bevölkerungszahlen als plausibel, 37,2 % als teils plausibel und rund 35,3 % als unplausibel an (vgl. Tab. 5). Hierbei wird erneut in Abb. 9a visuell deutlich, dass die weniger dicht besiedelten bzw. ländlichen Gebiete (vgl. mit Abb. 7) mit überdurchschnittlich vielen unplausiblen Werten einhergehen. Der Unterschied wird bspw. im Raum Berlin-Brandenburg ersichtlich.

Abb. 9
figure 9

Kartografische Visualisierung der Kennzahlen (Ampel-Konzept) der Plausibilitätsprüfung anhand der regionalen Ergebnisse für die Berichtsjahre 2019 (a) und 2020 (b) (mit räumlicher Korrektur der Mobilfunkdaten)

Um weitere Rückschlüsse der Plausibilität der Ergebnisse durch regionale Unterschiede herzuleiten, werden die Ergebnisse aus Abb. 9a zusätzlich nach dem Verstädterungsgrad (vgl. Abschn. 4.2; Abb. 7) aufgeschlüsselt. Tab. 4 listet den gerundeten prozentualen Anteil der Kennzahlen nach Plausibilität – sowie farblich nach Abb. 9a – und nach dem Grad der Verstädterung auf.

Tab. 4 Auflistung der Ergebnisse der berechneten Kennzahlen (Ampel-Konzept) nach dem Verstädterungsgrad

Offensichtliche Unsicherheiten ergeben sich bei Zuordnungen der Bevölkerungszahlen in ländlichen, weniger dicht besiedelten Gebieten vorrangig durch die kleinräumige Aufbereitung der mobilen Aktivitäten beim Datenanbieter.Footnote 23 53,0 % der Werte je Gitterzelle werden in dicht besiedelten Regionen als plausibel gekennzeichnet, während es in gering besiedelten Gebieten nur 23,2 % sind (vgl. Tab. 4). Dagegen sind nur 15,6 % der Gitterzellen in Städten mit nicht plausiblen experimentellen Bevölkerungszahlen versehen, während es 39,9 % der Gitterzellen im ländlichen Gebiet sind. Die teils plausiblen Ergebnisse verteilen sich zu relativ gleichen Teilen auf alle Raumeinheiten bzw. etwas verstärkter in Gebieten mit mittlerer Besiedlungsdichte. Die teils plausiblen Werte sollten zudem mit Vorsicht interpretiert werden. Da es sich hierbei – aufgrund der grundsätzlich nachvollziehbaren räumlichen Verteilung aber der gleichzeitig nicht validierbaren Höhe der zugewiesenen Bevölkerung – um schwer einzuschätzende experimentelle georeferenzierte Bevölkerungszahlen handelt, wird von einer weiteren Analyse der absoluten Werte abgesehen. Insgesamt muss hierbei daher beachtet werden, dass die absoluten Werte der einzelnen experimentellen georeferenzierten Bevölkerungszahlen mit den Geodaten nicht hinreichend bzw. nicht absolut verglichen werden können. Eine Einschätzung hinsichtlich der Plausibilität der Verteilung und der Werte kann mit dem hier beschriebenen Verfahren aber grundsätzlich abgegeben werden.

4.4 Schlussfolgerungen der Plausibilitätsprüfung – Räumliche Korrektur der Mobilfunkdaten

Insgesamt bleibt damit die Schlussfolgerung bestehen, dass das hier durchgeführte Verfahren insbesondere im urbanen Raum zu nachvollziehbaren, plausiblen experimentellen georeferenzierten Bevölkerungszahlen führt. Ungefähr ein Drittel der Gitterzellen in gering besiedelten Gebieten und Gebieten mit mittlerer Besiedlungsdichte werden dagegen mit unplausiblen experimentellen georeferenzierten Bevölkerungszahlen ausgewiesen. Hierbei handelt es sich um unbewohnte Gitterzellen, denen durch die hier verwendeten Mobilfunkdaten und dem Verteilungsverfahren fälschlicherweise Bevölkerungszahlen zugewiesen werden, was auch in Abschn. 4.2 durch den Vergleich mit dem Zensus 2011 bereits angedeutet wurde. Diese offensichtlichen Fehlzuweisungen können allerdings nicht im Nachgang korrigiert werden. Hierfür müssen die Mobilfunkdaten, also die Datengrundlage anhand derer die Bevölkerungszahlen der Bevölkerungsfortschreibung kleinräumig verteilt werden, entsprechend modifiziert werden.

Gründe für die unplausible Verteilung speziell in gering besiedelten Gebieten sind vor allem in der Aufbereitung der Mobilfunkaktivitäten zu finden, die aus der Modellierung der Gitterzellen herrühren. Durch die probabilistische Verteilung der Aktivitäten durch den Datenanbieter ohne Einbezug weiterer Datenquellen als Hilfsinformationen (siehe Abschn. 2; Abb. 3) werden nicht bewohnte Regionen wie Naturschutzgebiete, Waldgebiete oder Industriegebiete bei der Verteilung der Aktivitäten stets zu gleichen Anteilen mitberücksichtigt.

Liegt nun wie in Deutschland der Fall vor, dass sich die Dichte des Mobilfunknetzes an der regionalen Bevölkerungsdichte orientiert, wird die Netzabdeckung in urbanen Räumen flächendeckender und engmaschiger und in ländlichen Räumen grobmaschiger und möglicherweise lückenhafter.Footnote 24 Dadurch sind Stadtzentren bzw. Innenstädte entsprechend mit kleinen Mobilfunkzellen und städtische Randbezirke und generell weniger dicht besiedelte Gebiete mit größeren ausgelegt. Daraus resultieren in urbanen Räumen kleinräumige und räumlich genauere Verortungen von gezählten Mobilfunkaktivitäten als im weniger dicht besiedelten Raum.

Im Rahmen der Mobilfunkdatenaufbereitung konnte diese Netzabdeckung bei der Verteilung der Mobilfunkaktivitäten auf das hier verwendete 1 × 1 km Raster nicht einbezogen werden. Stattdessen wurden die Aktivitäten in weniger dicht besiedelten Gebieten mit einfachen Annahmen räumlich modelliert bzw. gleichmäßig verteilt. Folglich resultieren unplausible Werte aus den räumlich ungenauen Verteilungen und damit ergibt sich eine Unsicherheit in den Ausgangsdaten sowie den resultierenden Ergebnissen.

Die hieraus resultierende Konsequenz besteht in einer Verbesserung der Mobilfunkdatenaufbereitung beim Datenanbieter für das Berichtsjahr 2020, um anhand einer Modifizierung die Bevölkerungszahlen der Bevölkerungsfortschreibung auf kleinräumiger Ebene genauer zu verteilen. Dies wurde in Form einer Optimierung der Modellierung, genauer einer Steigerung der räumlichen Genauigkeit, von Mobilfunkaktivitäten auf das 1 × 1 km Raster anhand zusätzlicher realitätsbasierter Annahmen erzielt und durch Verwendung der Geodaten des Landbedeckungsmodells für Deutschland (LBM-DE) umgesetzt.Footnote 25

Eine präferierte Lösung, um die unbebaute Fläche strikt aus dem Modellierungsprozess der Mobilfunkdaten zu entfernen, gleichzeitig jedoch nicht Wohnflächen herauszufiltern bzw. auszuschließen, bietet eine Filterung der Gesamtfläche des Bundesgebietes. Hierfür wurden räumliche Gebiete nach Landbedeckungs- bzw. Landnutzungskategorien gefiltert, die nicht bebaut sind oder der Landnutzung WohnenFootnote 26 nicht zugehörig sind, wie bspw. Industrieanlagen oder bebaute Flächen für den Verkehr, und wo prinzipiell keine Wohnbevölkerung verortet werden darf (siehe hierzu BKG 2020a). Somit werden alle nicht bebauten Flächen sowie Flächen ohne Siedlungsfunktion exkludiert, was in Deutschland ca. 90 % der Gesamtfläche ausmacht, die daraufhin für Verteilungsmaßnahmen nicht mehr beachtet werden.Footnote 27

Die Auswirkungen dieser räumlichen Korrektur auf die Ergebnisse werden in Abb. 9 präsentiert. Sie stellt die resultierenden Plausibilitätsprüfungen für das Berichtsjahr 2019 dem Berichtsjahr 2020 gegenüber.Footnote 28 Letzteres basiert dabei auf den experimentellen georeferenzierten Bevölkerungszahlen unter Verwendung der räumlich korrigierten Mobilfunkdaten. Hierbei wird bereits visuell deutlich, dass im Ergebnis deutlich plausiblere Ergebnisse durch die Verwendung von Landnutzungsinformationen im Rahmen der Mobilfunkdatenaufbereitung erzeugt werden (vgl. Abb. 9b). Insgesamt nehmen damit die als plausibel eingestuften zugeordneten experimentellen Bevölkerungszahlen in Tab. 5 um über 40 Prozentpunkte zu, 22,1 % gelten als teils plausibel und nur noch 10,1 % als unplausibel.

Tab. 5 Ergebnisse der räumlichen Anpassung für die experimentelle georeferenzierte Bevölkerungszahl

Ferner werden nun 69,5 % der Werte je Gitterzelle in dicht besiedelten Regionen als plausibel gekennzeichnet sowie 69,4 % in gering besiedelten Gebieten. Dagegen sind nur noch 10,3 % der Gitterzellen im ländlichen Gebiet mit nicht plausiblen experimentellen Bevölkerungszahlen versehen. Die teils plausiblen Ergebnisse verteilen sich weiterhin verstärkter in Gebieten mit mittlerer Besiedlungsdichte.Footnote 29

Die zusätzliche Einbindung von Landnutzungsdaten bzw. Bebauungsinformation bei der Datenaufbereitung des Mobilfunkdatenanbieters bewirkt eine plausiblere Umverteilung der Mobilfunkdaten mit deutlich weniger Unsicherheit und eine höhere Qualität der Daten sowie der resultierenden Ergebnisse. Dadurch werden insgesamt nicht die Intensitäten der Mobilfunkaktivitäten beeinflusst, aber die Verteilungen deutlich verbessert, weshalb auch bereits plausibel geschätzte experimentelle georeferenzierte Gitterzellen Änderungen an ihren absoluten Werten erfahren haben. Ein weiterer positiver Nebeneffekt dieses Vorgehens liegt in einer leicht umsetzbaren und nachvollziehbaren Änderung der Methodik zur Datenaufbereitung beim Datenanbieter sowie dem damit einhergehenden Einfluss und der Mitgestaltung bei der Mobilfunkdatenaufbereitung.

5 Fazit und Schlussfolgerungen

Im Projekt Experimentelle georeferenzierte Bevölkerungszahl auf Basis der Bevölkerungsfortschreibung und Mobilfunkdaten werden im Rahmen eines Verteilungsverfahrens die Ergebnisse der Bevölkerungsfortschreibung von der Gemeindeebene anhand von Mobilfunkdaten bundesweit auf INSPIRE-konforme 1 × 1 km Gitterzellen kleinräumig umverteilt. Durch den starken nachweisbaren Zusammenhang zwischen Mobilfunkdaten und amtlichen Bevölkerungszahlen bieten Mobilfunkdaten eine geeignete Datenquelle, um die Wohnbevölkerung in Deutschland kleinräumig zu verteilen. Mit diesem Vorgehen wird die vorhandene amtliche Bevölkerungsfortschreibung um ein experimentelles kleinräumiges Ergebnis ergänzt und kann damit zur Schließung der Lücke einer fehlenden aktuellen und georeferenzierten Bevölkerungszahl beitragen, bis die ersten georeferenzierten Bevölkerungszahlen auf Basis des Zensus 2022 vorliegen. Durch die Erstellung und Veröffentlichung eines frei zugänglichen experimentellen Produktes stehen die Ergebnisse zudem uneingeschränkt zur Verfügung. Weiterhin ist das Verfahren zur Erstellung experimenteller kleinräumiger Bevölkerungszahlen grundsätzlich bei allen weiteren statistischen Ämtern umsetzbar, die eine laufende Bevölkerungsfortschreibung erstellen sowie Zugang zu anonymisierten und aggregierten Mobilfunkdaten haben.

Neben den üblichen Nutzungszwecken der amtlichen Bevölkerungsfortschreibung für politische Entscheidungsfindungen können weitere Anwendungsfälle wie bei Fina et al. (2019) oder im Zusammenhang mit dem Krankenhaus-Atlas der Statistischen Ämter des Bundes und der Länder aufgegriffen werden. Grundsätzlich werden die experimentellen georeferenzierten Bevölkerungszahlen sämtlichen Forschungsvorhaben zugutekommen, die aktuelle und kleinräumige Bevölkerungszahlen benötigen und für die bislang nur die georeferenzierten Bevölkerungszahlen des Zensus 2011 zur Verfügung standen. Zwar erfüllen die Ergebnisse nicht den Qualitätsanspruch der amtlichen Statistik, jedoch wird deren Qualität mit den Erkenntnissen aus der Plausibilitätsprüfung verbessert.

Durch das hier verwendete Verteilungsverfahren resultiert ein regional differenziertes Bild der Bevölkerung, das im Schnitt ein plausibles Ergebnis insbesondere im urbanen Raum darstellt. Fehlzuweisungen kleinräumiger Bevölkerungszahlen werden durch die Unsicherheiten im ländlichen Raum durch die Modellierung der dort befindlichen Gitterzellen und ihrer Mobilfunkaktivitäten hervorgerufen, die aufgrund der probabilistischen Zuordnung beim Datenanbieter zu unplausiblen Ergebnissen führen kann. Dies ist verstärkt in den Ergebnissen des Berichtsjahres 2019 der Fall. Die Verwendung von amtlichen Geodaten des HU-DE und des HH-EW-Bund ermöglichen in der Plausibilisierungsprüfung, diese Bereiche zu identifizieren und anhand des Verstädterungsgrades zu kategorisieren. Bei diesem Verfahren ist eine genaue, uneingeschränkte Prüfung der absoluten Zahlen der experimentellen georeferenzierten Bevölkerungszahl allerdings nicht gegeben. Jedoch können anhand der verwendeten Geodaten Tendenzen zur Höhe der Werte angegeben werden. Die ultimative Validierungsgrundlage stellen daher die georeferenzierten Ergebnisse des Zensus 2022 dar, welche voraussichtlich im Jahr 2023 zur Verfügung stehen.

Aufgrund der Resultate der hier durchgeführten Plausibilitätsprüfung in den zu ermittelnden experimentellen georeferenzierten Bevölkerungszahlen für das Berichtsjahr 2019 kam es folglich zu einer Modifizierung der Mobilfunkdatenaufbereitung anhand des LBM-DE, indem die unbewohnten Flächen in der kleinräumigen Verteilung der mobilen Aktivitäten vom Datenanbieter nicht wieder einbezogen wurden und damit zu einer sichtlichen Verbesserung der Ergebnisse für das Berichtsjahr 2020 führte. Wie Deville et al. (2014) bereits vorgeschlagen haben oder auch Schug et al. (2021) in anderer Form umsetzen, kommt es dadurch für die nachfolgenden Berichtsjahre von einer indirekten (in Form der Plausibilitätsprüfung) zu einer direkten Kombination (in Form der Modifizierung der Mobilfunkdatenaufbereitung) aus Geodaten aus dem LBM-DE sowie Mobilfunkdaten, was zur Qualitätssteigerung der Ergebnisse führt.

Dennoch wird durch die weiterhin bestehende Abhängigkeit vom Datenanbieter hinsichtlich der Mobilfunkdatenaufbereitung die Qualität der Ergebnisse tangiert bzw. eine Aussage hierzu deutlich erschwert, so dass diese nicht die Qualität der amtlichen Statistik vorweisen können. Durch die Verwendung von Mobilfunkaktivitäten nur eines Netzanbieters in Deutschland werden dadurch entstehende Abweichungen und Unsicherheiten in den Ergebnissen sowie in den soziodemografischen Merkmalen durch die jeweiligen regionalen Marktanteile und die verwendete und nicht im Detail offengelegte Methodik des Datenanbieters bei der Datenaufbereitung bedingt (siehe hierzu auch Hadam 2021). Verzerrungen in unterschiedlichen Regionen können durch ein besseres Extrapolationsverfahren bzw. Gewichtungsverfahren entgegengewirkt werden. Hierzu müssen Stärke und Lage der Verzerrung im Raum bekannt sein, wie es ansatzweise in Statistisches Bundesamt (2019, 2021c) aufgeführt wird. Für ein zielorientierteres Gewichtungsverfahren sind weitere Informationen zur Mobilfunknutzung in der Bevölkerung erforderlich. Diese könnten bei zukünftigen Haushaltserhebungen, wie dem Mikrozensus, durch zusätzliche Fragen, zum genutzten Mobilfunkanbieter sowie zur Anzahl und Nutzung von Mobilfunkgeräten ermittelt werden, ohne die Auskunftsgebenden hierbei zu stark zu belasten.

Neben der schwierigen Ableitung weiterer Merkmale bleibt grundsätzlich auch die Positionsschätzung der mobilen Aktivitäten, genauer der aktiven SIM-Karten, unterschiedlich präzise, wie in Saidani et al. (2022) aufgeführt. Sie zeigen auf, dass die Ableitung von Positionen der SIM-Karten aufgrund des ungleichförmigen Mobilfunknetzes bspw. anhand von Voronoi-Polygonen keine genaue Schätzung der mobilen Aktivitäten ermöglicht. Fehlzuweisungen in dem hier beschriebenen Verteilungsverfahren resultieren daher aus Beeinträchtigungen in der Datenverfügbarkeit durch das Mobilfunknetz des Anbieters, sofern Regionen nicht durch das entsprechende Mobilfunknetz abgedeckt werden oder eine genaue Verortung der Mobilfunkaktivitäten aufgrund zu großer Mobilfunkzellen nicht gegeben ist. Ausfälle von Mobilfunkmasten spielen hierbei keine ausschlaggebende Rolle, da für die Erstellung der experimentellen georeferenzierten Bevölkerungszahl ein Jahresdurchschnitt der mobilen Aktivitäten gebildet wird. Auch mögliche Doppelzählungen von SIM-Karten in den Mobilfunkdaten, wie bspw. durch Zweitverträge oder SIM-Karten aus anderen nicht personenbezogenen Geräten provoziert, die nicht durch eine Deduplizierung ausgeschlossen werden konnten, können ebenfalls Einschränkungen in den Ergebnissen hervorrufen. Da weiterhin keine modellbasierte Schätzung vorliegt, ist die Umsetzung einer klassischen Varianzschätzung nicht gegeben, die besonders vor dem Hintergrund der Qualitätsstandards der amtlichen Statistik notwendig ist. Hierbei eignen sich insbesondere Small-Area-Methoden, um die Genauigkeit von kleinräumig geschätzten Bevölkerungsschätzungen zu evaluieren oder auch eine Varianzreduzierung zu bewirken (Simpson et al. 1996; Rao und Molina 2015). Insgesamt bleiben daher Einschränkungen in der Qualitätseinschätzung der Ergebnisse bestehen.

Die grundsätzlich angestrebte Nutzung von Mobilfunkdaten für die Produktion amtlicher Statistiken kann letztlich nur anhand von Daten aller Mobilfunkanbieter in Deutschland erfolgen, um die bundesweite Repräsentativität und Qualität der Daten einschätzen und verbessern zu können. Hierfür bedarf es der Schaffung einer Rechtsgrundlage, um den Zugang zu privat gehaltenen Daten zu ermöglichen und dauerhaft zu sichern und diese langfristig in die amtliche Statistikproduktion integrieren zu können. Erst wenn diese Datenquelle für die amtliche Statistik dauerhaft und vollständig zugänglich ist, kann diese dem Qualitätsanspruch der amtlichen Statistik entsprechend aufbereitet und dauerhaft genutzt werden.