1 Einleitung

TrägerbefragungenFootnote 1 spielen eine wichtige Rolle bei der Entwicklung, Umsetzung und Bewertung von Politik und Praxis im Bereich der frühkindlichen Bildung, Betreuung und Erziehung (FBBE). Sie dienen häufig der Beschreibung von Rahmenbedingungen und der Steuerung der FBBE, um etwa Entwicklungen im Zeitverlauf zu untersuchen, Fortschritte bei der Erreichung nationaler Betreuungsziele zu bewerten und Informationen über die Zuweisung von Ressourcen für den Bereich FBBE zu erhalten. Dabei reicht das Spektrum an Trägerbefragungen von kleinen regionalen Befragungen zu spezifischen Themen (z. B. Finanzierung der Kindertagesbetreuung in Brandenburg, Hesse et al. 2021) bis hin zu bundesweiten Befragungen, die das gesamte Aufgabenspektrum der Träger im FBBE-Bereich abdecken (Klinkhammer et al. 2022). Dem Großteil dieser Befragungen ist gemein, dass die Ergebnisse auf die Trägerlandschaft in Deutschland generalisiert werden sollen (Kalicki et al. 2004; Klinkhammer et al. 2022; Schreyer et al. 2014). Allerdings sind Schlussfolgerungen aus Trägerbefragungen nur dann gültig, wenn etwa Antwortausfälle oder Abdeckungsfehler des Stichprobenrahmens keine Verzerrungen hervorrufen (Biemer et al. 2017).

Weder national noch international sind uns Studien bekannt, die das Ausmaß derartiger Verzerrungen von Trägerbefragungen untersuchen. Ein direkter Vergleich ist nur in Ländern möglich, die nationale Register führen (z. B. in Australien). In Deutschland enthält die amtliche Kinder- und Jugendhilfestatistik (KJH-Statistik, Statistisches Bundesamt 2013) jedoch nur Informationen auf Ebene der Kindertageseinrichtungen (kurz: Kita). Neben Registerdaten auf Trägerebene existieren in Deutschland auch keine Stichprobenrahmen für Träger und es ist beispielsweise unklar, wie viele Träger von Kindertageseinrichtungen es gibt (Fuchs-Rechlin und Riedel 2021). Insofern ist ein alternativer Ansatz erforderlich, um Vergleiche zwischen befragten und nicht-befragten Trägern anzustellen. Ziel dieser Studie war es, das Ausmaß der Verzerrungen in einer Trägerbefragung in Deutschland zu bewerten. Eine Möglichkeit zur Bewertung von Verzerrungen aufgrund von Abdeckungsfehlern und Antwortausfällen besteht darin, die Merkmale und Ergebnisse der Befragten mit denen der Grundgesamtheit zu vergleichen, auf die wir zu verallgemeinern versuchen. Dazu nutzten wir Trägererhebungsdaten, die auf Kita-Ebene transformiert wurden, um die Trägerart bei den befragten Trägern mit KJH-Daten auf Kita-Ebene zu vergleichen. Dies ermöglicht es uns, drei Ziele zu verfolgen: Erstens die Unterschiede in einem ausgewählten Merkmal zwischen den befragten Trägern und Trägern im Allgemeinen in Deutschland zu quantifizieren, zweitens zu untersuchen, ob diese Unterschiede regional nach Bundesländern variieren und drittens zu beurteilen, ob sich das Ausmaß dieser Unterschiede durch eine entsprechende Gewichtung reduzieren lässt.

2 Träger und Trägerbefragungen in Deutschland

Als Ausgangspunkt wird in die Rolle von Trägern von Kindertageseinrichtungen im System der FBBE in Deutschland eingeführt (2.1). Anschließend werden einschlägige Datenquellen, die Informationen über Träger in Deutschland enthalten, kurz zusammenfassend beschrieben (2.2). Im letzten Abschnitt wird aufgezeigt, wie befragte Träger und Träger im Allgemeinen in Deutschland verglichen und etwaige Verzerrungen korrigiert werden können (2.3).

2.1 Träger im deutschen System der FBBE

Rechtlich gesehen ist die FBBE in Deutschland Teil des Systems der öffentlichen Fürsorge, für die sich der Bund, die 16 Bundesländer und die Gemeinden die Verantwortung teilen. Auf Bundesebene wird für das Agieren von Rechtsträgern von Kitas der gesetzliche Rahmen mit dem Sozialgesetzbuch – Achtes Buch (SGB VIII) geschaffen. Dort sind Grundprinzipien wie Trägervielfalt (§ 3 Absatz 1 SGB VIII) und Trägerautonomie (§ 4 Absatz 1 SGB VIII) festgelegt (Blatter 2021, S. 8). Die Trägerlandschaft der frühen Bildung ist sehr vielfältig (Kalicki et al. 2004) und kann etwa nach Art der Trägerschaft (öffentliche und freie Träger, § 3 Absatz 2 SGB VIII), Rechtsform (natürliche oder juristische Personen sowie deren Zusammenschlüsse) und Organisation in Spitzenverbänden (kommunal und in der Freien Wohlfahrtspflege) differenziert werden (Blatter 2021). Andere Merkmale wie etwa die Trägergröße (Anzahl an Kitas), der Organisations- (hauptamtlich oder ehrenamtlich) und der Professionalisierungsgrad der Trägervertretungen können ebenfalls unterschieden werden (Hanssen und Oberhuemer 2003).

Auf Länderebene werden die Zuständigkeiten aus den Bundesgesetzen zur Kinder- und Jugendhilfe in den Ausführungsgesetzen konkretisiert (§ 26 SGB VIII). Neben den 16 Landesgesetzen werden die Standards der FBBE im jeweiligen Bundesland über Verordnungen, Vereinbarungen mit Spitzenverbänden, Modellprojekte oder Programme geregelt (Blatter 2021). Die Umsetzung von Standards wird vom Landesjugendamt überwacht und bezieht sich in der Regel auf die Anzahl der Plätze, Öffnungszeiten, Elternbeiträge, bauliche Voraussetzungen und Betreuungsrelationen (Linberg et al. 2013). Unter anderem aufgrund der Vielfalt der Ausführungsgesetze werden regionale Variationen in Bezug auf Trägerspezifika zwischen den Bundesländern angenommen (Böwing-Schmalenbrock und Tiedemann 2019).

Auf Gemeinde- und Kreisebene – als örtlicher Träger der öffentlichen Jugendhilfe (Jugendamt) – liegt die Zuständigkeit für das gesamte Spektrum der Leistungen für Kinder und Jugendliche, also etwa Planung, Durchführung und größtenteils auch Finanzierung der Kindertagesbetreuung (§ 85 Abs. 1 SGB VIII). Die Möglichkeiten nachfrageorientierter Steuerungs- und Finanzierungsinstrumente der Kinderbetreuungspolitik sind daher in erster Linie eine kommunale Angelegenheit und als diese von der Prioritätensetzung und der Solvenz von Kommunen abhängig (Kreyenfeld et al. 2002).

Die Träger von Kitas sind für Betrieb, Betriebsführung und Einhaltung der gesetzlichen Vorschriften verantwortlich (BAGLJÄ 2020). Sie stellen die Ressourcen zur Verfügung, die eine Kita benötigt. Sie sind z. B. Vertragspartner der Eltern, beantragen die Betriebserlaubnis, kümmern sich um Finanzen, räumliche Ausstattung, Personal und bei Bedarf um die Vermittlung von Fachberatung. Sie sind auch für die Sicherung und Entwicklung der pädagogischen Qualität der Kita zuständig (Blatter 2021).

2.2 Informationen über Träger in Deutschland

Das nationale Monitoring und die Berichtslegung für das System der FBBE erfolgt größtenteils auf Basis der Daten der amtlichen Kinder- und Jugendhilfestatistik. Die dazugehörige Vollerhebung in Kindertageseinrichtungen enthält unter anderem strukturelle Informationen über Kindertageseinrichtungen (z. B. Art und Rechtsform des Trägers) und Leitungen von Kitas nach § 102 SGB VIII (Statistisches Bundesamt 2013). Seit 2006 dokumentieren die Daten die Entwicklungen bei der Erreichung nationaler Betreuungsziele und ermöglichen eine kontinuierliche Beschreibung der Rahmenbedingungen des FBBE-Bereichs. Beispielsweise kann dargestellt werden, wie viele der Kitas in Deutschland in welcher Trägerschaft sind, wie sich diese Zuordnung seit 2006 verändert hat und inwiefern Variationen in den Trägerprofilen zwischen den Ländern existieren (Böwing-Schmalenbrock und Tiedemann 2019; Rauschenbach und Schilling 2012). Demnach waren im Jahr 2022 etwa 68 % der Kitas in Deutschland in freier Trägerschaft. Zudem gehen erste Schätzungen zur Anzahl und Größe der Träger davon aus, dass es im Jahr 2021 etwa 21.300 Träger in Deutschland gab, wobei etwa 4550 in Bayern, 3450 in Nordrhein-Westfalen, 3200 in Baden-Württemberg und 1900 Träger in Niedersachsen ansässig waren. In den weiteren Bundesländern lag die Anzahl der Träger zwischen 100 und 1500 Trägern. Die durchschnittliche Anzahl von Kitas pro Träger variierte zwischen 2,0 in Bayern und 4,8 im Saarland (Meiner-Teubner et al. 2023a).

Die Daten der KJH-Statistik erlauben jedoch keine detaillierten Analysen der Trägerstrukturen, Trägeraufgaben und Trägerprofile in Deutschland, die etwa im Rahmen der Forderungen zu Qualitätsstandards im FBBE in den 1990er-Jahren laut wurden (Kalicki et al. 2004). Unter anderem als Antwort auf diese Qualitätsdebatten wurde 2000 die erste bundesweite Trägererhebung in der „Nationalen Qualitätsinitiative im System der Tageseinrichtungen für Kinder“ (NQI) durchgeführt (Kalicki et al. 2004). Seitdem hatten bundesweite und trägerübergreifende Befragungen unterschiedliche thematische Schwerpunkte (z. B. den Arbeitsplatz im Projekt „Arbeitsplatz und Qualität in Kitas (AQUA)“ oder die Kita-Qualität in der NQI), aber meist ähnliche Strukturmerkmale (z. B. die Anzahl an Einrichtungen pro Träger) erhoben. In den Trägererhebungen wurden zwischen 710 in den „Befragungen zu Ausbau und Qualität in der Kindertagesbetreuung 2016“ (Ramboll Management Consulting GmbH 2016) und 2300 Trägern in NQI befragt sowie differente Stichprobendesigns angewandt, die unterschiedlich mit dem Problem fehlender Stichprobenrahmen umgingen. Die Stichprobenrahmen wurden meist selbst generiert und geschichtete Stichproben gezogen, um Variationen zwischen den Bundesländern aufzugreifen. Gleichzeitig sollten die Ergebnisse auf Grundlage dieser Erhebungen auf die Trägerlandschaft in Deutschland generalisiert werden (NQI, Kalicki et al. 2004; AQUA, Schreyer et al. 2014; ERiK, Klinkhammer et al. 2022; TrEiKo, Meiner-Teubner et al. 2023b). Tab. 1 gibt einen entsprechenden Überblick der bundesweiten und trägerübergreifenden Trägerbefragungen in Deutschland.

Tab. 1 Überblick bundesweiter und trägerübergreifender Trägerbefragungen in Deutschland

Neben diesen bundesweiten und trägerübergreifenden Befragungen existieren auch zahlreiche bundeslandspezifische Trägererhebungen mit breiten Themenschwerpunkten (GEN‑T 2020, Riedel et al. 2022) sowie spezifischen Erhebungsprogrammen, wie beispielsweise zu Finanzierungen in Brandenburg (Hesse et al. 2021). Darüber hinaus werden insbesondere in den Trägerspitzenverbänden, wie dem Deutschen Paritätischen Wohlfahrtsverband (2020), oder auch dem Deutschen Kitaverband (2020), trägerspezifische Erhebungen durchgeführt. Zusätzlich liefern zahlreiche qualitative Studien wichtige Erkenntnisse zur Beschreibung der Trägerlandschaft (z. B. Segregation und Trägerschaft (SET), Hogrebe et al. 2023).

Erhebungen oder Teile ihrer Durchführung sind jedoch fehleranfällig (Biemer et al. 2017; Faulbaum 2022; Groves et al. 2009) und können schlimmstenfalls zu Verzerrungen der Studienergebnisse führen. Mögliche Ursachen für diese Verzerrungen sind Abdeckungsfehler der Stichprobenrahmen oder Antwortausfälle (Biemer et al. 2017). Studien zu Verzerrungen und deren Ursachen von FBBE-Erhebungen sind selten (Ausnahmen auf Kita-Ebene: Aßmann et al. 2011; Heim et al. 2016). In den entsprechenden Methodenberichten oder Studiendokumentationen der bundesweiten Trägerbefragungen werden Verzerrungen nur sporadisch angedeutet (siehe Tab. 1, Spalte 6). Insbesondere existieren keine bundeslandspezifischen Auswertungen etwaiger Verzerrungen, obwohl die Trägerlandschaft regional stark variiert (Böwing-Schmalenbrock und Tiedemann 2019) und somit Gründe für Antwortausfälle zwischen den Bundesländern unterschiedlich sein können.

2.3 Erkennen und Korrigieren von Verzerrungen in deutschen Trägerbefragungen

Wie die obige Tabelle zeigt, existieren bereits einige Studien, die Träger in der FBBE untersuchen. Bisher gibt es jedoch keine Studien über mögliche Verzerrungen in Trägerbefragungen. Das liegt unter anderem daran, dass die unterschiedlichen Möglichkeiten zur Bewertung und Korrektur von Verzerrungen aufgrund von Abdeckungsfehlern und Antwortausfällen den Vergleich mit einer aussagekräftigen Datenquelle, wie z. B. Registerdaten auf Trägerebene (Rauschenbach et al. 2022), vollständige Stichprobenrahmen oder verlässliche andere Trägerbefragungen, voraussetzen. Hier setzt die zentrale Idee dieses Beitrages an: Eine Transformation der Trägerbefragungsdaten von der Trägerebene auf die Kita-Ebene ermöglicht es, Vergleiche zwischen den Trägerbefragungsdaten mit den Registerdaten der KJH-Statistik anzustellen. Anhand dieses Verfahrens kann untersucht werden, ob und wie stark eine deutsche Trägerbefragung in Bezug auf bestimmte Merkmale der FBBE verzerrt ist und ob regionale Unterschiede zwischen den Bundesländern existieren.

Zudem ermöglicht die Transformation es, zu testen, inwiefern etwaige Verzerrungen über eine entsprechende Gewichtung reduziert werden können. Die Gewichtung ist eines der Standard-Verfahren, um verallgemeinernde Schlussfolgerungen aus Ergebnissen einer Stichprobe auf die Grundgesamtheit zu ziehen (Kroh et al. 2015). Das grundlegende Ziel einer Gewichtung von Befragungsdaten besteht im Ausgleich von Stichprobenselektivität (Kroh et al. 2015). Ursächlich für selektive Stichproben und damit Verzerrungen können Nonresponse-Fehler und Abdeckungsfehler der Stichprobenrahmen sein (Biemer et al. 2017):

  • Nonresponse-Fehler (Totalausfall, Komplettausfall) entstehen, wenn in die Stichprobe gezogene Personen nicht an einer Befragung teilnehmen (Engel und Schmidt 2022). In der Praxis wird der theoretische Ausfallprozess meist durch Modellierung individueller Response-Wahrscheinlichkeiten anhand der wenigen Informationen, die für Nichtteilnehmende vorliegen, geschätzt (Kiesl 2022). Die daraus abgeleiteten Gewichte können bei der Schätzung bspw. von Populationsmittelwerten berücksichtigt werden und – so die Annahme – Verzerrungen zwischen nichtbefragten und befragten Trägern korrigieren.

  • Weitere Verzerrungen in bestimmten Merkmalen zwischen der Stichprobe und einer Randverteilung können auf Abdeckungsfehler hinweisen. Abdeckungsfehler entstehen, wenn eine Liste von Elementen, die zur Grundgesamtheit gehören, Elemente nicht enthält, doppelt enthält oder Elemente aufführt, die nicht zur angestrebten Grundgesamtheit gehören (Faulbaum 2022). Der Abdeckungsfehler ist dabei einerseits vom Abdeckungsgrad, also dem Anteil der Zielpopulation, der von der Stichprobe abgedeckt wird, und andererseits dem abdeckungsbezogenen Fehler, also der Größe der Unterschiede in den Forschungsvariablen, die zwischen Personen in der Stichprobenpopulation und anderen Mitgliedern der Zielpopulation bestehen, abhängig (Groves et al. 2009). Mit Techniken der Kalibrierung bzw. Poststratifikation kann u. a. der Abdeckungsfehler für die untersuchten Merkmale und deren Korrelate reduziert werden (Groves et al. 2009).

Diese Studie ist ein Versuch, Verzerrungen in deutschen Trägerbefragungen zu erkennen und zu korrigieren. Dies wird im Folgenden anhand der Daten der Trägerbefragung der ERiK-Surveys 2020 und den Registerdaten der KJH-Statistik getestet.

3 Daten und Methode

Im Folgenden werden die Datengrundlage des vorliegenden Beitrags, die Daten der amtlichen Kinder- und Jugendhilfestatistik aus dem Jahr 2020 (Statistisches Bundesamt 2020), der Trägerbefragung der ERiK-Surveys 2020 und einer zusätzlichen Nonresponse-Befragung (Gedon et al. 2022), vorgestellt (3.1). Anschließend wird das methodische Vorgehen zur Identifikation sowie zur Korrektur von Verzerrungen in Trägerbefragungen dargelegt (3.2).

3.1 Datengrundlage

In 1994 wurde die KJH-Statistik als ein eigenständiges empirisches Instrument zur Beobachtung der institutionellen Struktur des deutschen Kinder- und Jugendhilfesystems eingeführt (Pothmann 2019). Sie umfasst unter anderem den Teil „Kinder und tätige Personen in Tageseinrichtungen für Kinder“ (Teil III.1, §§ 98 ff. SGB VIII), der zum Stichtag 01.03.2020 als Vollerhebung aller 53.700 Kitas (ohne Horteinrichtungen) in Deutschland durchgeführt wurde (Schacht et al. 2022b). Die Durchführung der Erhebung, die Datenaufbereitung und die Veröffentlichung der Länderergebnisse erfolgt dezentral seitens der statistischen Landesämter (Statistisches Bundesamt 2013). Es werden postalisch oder per elektronischer Datenlieferung Informationen zu der jeweiligen Kita (z. B. zur Art und Rechtsform des Trägers), dem Personal (z. B. Anzahl, Beschäftigungsumfang) sowie den betreuten Kindern (z. B. Anzahl, Betreuungsumfang) erhoben (Pothmann 2019). Letztmalig für 2013 berichtete das statistische Bundesamt, dass u. a. aufgrund der Konzeption der KJH-Statistik als Vollerhebung und der bestehenden Auskunftspflicht, stichproben- und nichtstichprobenbedingte Verzerrungen weitestgehend ausgeschlossen werden können (Statistisches Bundesamt 2013).

Die Trägerbefragung der ERiK-Surveys 2020 wurde im Rahmen der Studie „Entwicklung von Rahmenbedingungen in der Kindertagesbetreuung“ (ERiK) durchgeführt und bildet die Grundlage des Monitorings des KiTa-Qualitäts- und -Teilhabeverbesserungsgesetzes (KiQuTG) vom Bundesministerium für Familie, Senioren, Frauen und Jugend (BMFSFJ). Die Befragungspopulation sind öffentliche und freie Träger von Kitas in Deutschland mit einer Betriebserlaubnis nach § 45 SGB VIII, in deren Kitas Kinder im Vorschulalter betreut werden (Schacht et al. 2022a). Der Stichprobenrahmen mit den entsprechenden Adressinformationen wurde auf kommerzieller Basis erworben. In Ermangelung vergleichbarer Statistiken konnte seine Qualität nicht überprüft werden. Zwischen Mai und September 2020 wurden alle 14.900 Träger postalisch gebeten einen beiliegenden schriftlichen oder Onlinefragebogen auszufüllen. Bei Nichtteilnahme wurde postalisch an die Befragungsteilnahme erinnert. Der Trägerfragebogen umfasst Informationen zum Träger und den Kitas (z. B. zur Art und Rechtsform des Trägers, Anzahl der Kitas), dem Personal (z. B. Anzahl, Vergütung) sowie den betreuten Kindern (z. B. Anzahl). Insgesamt haben 1902 Träger den Fragebogen vollständig ausgefüllt (Schacht et al. 2022a).

Aus denjenigen Trägern, die nicht an der Trägerbefragung der ERiK-Surveys 2020 teilgenommen hatten, wurde eine Zufallsstichprobe von etwa 840 Trägern für eine Nonresponse-Befragung gezogen. Die gezogenen Träger wurden bis zu zehnmal telefonisch an unterschiedlichen Wochentagen und zu unterschiedlichen Tageszeiten kontaktiert. Etwa 330 Träger haben sich an der Nonresponse-Befragung im Zeitraum vom 01.09. bis 30.09.2020 beteiligt. Während der durchschnittlich fünfminütigen Befragung wurden die Träger z. B. zur Trägerart, der Anzahl ihrer Kitas und betreuten Kinder sowie zu den Gründen für die Nichtteilnahme befragt (Schacht et al. 2022b).

3.2 Instrument und Auswertungsverfahren

Um Daten von Trägerbefragungen und der KJH-Statistik zu vergleichen, wird in diesem Beitrag eine Transformation der Trägerbefragungsdaten von der Ebene der Träger auf die Kita-Ebene durchgeführt. Derartige Transformationen der Datenstruktur erlauben einen Wechsel der Analyseebene und können beispielsweise in der Schulforschung (z. B. Schüler und Schülerinnen in Klassen oder Nachbarschaften, Pötschke 2022) oder in Organisationsbefragungen (z. B. Mitarbeitende in Abteilung oder Organisation, Meyermann et al. 2022) relevant sein. In der vorliegenden Studie werden die Daten der Trägerbefragung auf die Ebene von Kitas anhand einer offenen Nennung zur Anzahl der trägereigenen Kitas in der Trägerbefragung transformiert. Diese Information bezieht sich ebenfalls auf den Stichtag der KJH-Statistik, den 01.03.2020. In Abb. 1 ist eine derartige Transformation beispielhaft für drei Träger, die eine bis drei Kitas betreiben, dargestellt. Während im ursprünglichen Trägerdatensatz jede Zeile des Datensatzes einen der drei Träger repräsentierte, steht in den transformierten Datensätzen jede Zeile für eine der von diesen Trägern betriebenen sechs Kitas. Anhand der derart transformierten 1900 Trägerbefragungsdaten liegen Informationen für etwa 12.300 Kitas in Deutschland vor. Auch in der Nonresponse-Befragung wurde die Anzahl der trägereigenen Kitas erhoben, die insgesamt etwa 2500 Kitas umfasst.

Abb. 1
figure 1

Transformation der Trägerbefragungsdaten von der Trägerebene auf die Kita-Ebene

Inhaltlich konzentrieren wir uns auf die Auswertung der Trägerart von Kitas, die identisch anhand von 16 Kategorien in der KJH-Statistik, der Trägerbefragung und der Nonresponse-Befragung erhoben wurde. Für die Analysen werden die Informationen in Bezug auf den Anteil der Kitas in freier Trägerschaft ausgewertet. Als freie Träger von Kitas gelten privat-gemeinnützige (z. B. Arbeiterwohlfahrt, paritätischer Wohlfahrtsverband, Rote Kreuz, Diakonische Werk, Caritasverband und andere gemeinnützige juristische Personen) und privat-nicht-gemeinnützige Träger (Unternehmens‑/Betriebsteil, selbständig privat-gewerbliche Träger). Die öffentlichen Träger umfassen (Landes‑)Jugendämter, oberste Landesjugendbehörden, Gemeinden und Gemeindeverbände. Zudem werden die 16 Bundesländer in der Auswertung differenziert, um etwaige regionale Variationen untersuchen zu können.

Zur Identifikation etwaiger Verzerrungen wird im Folgenden der Anteil der Kitas in freier Trägerschaft zwischen den transformierten Trägerdaten der ERiK-Surveys 2020 und der KJH-Statistik pro Bundesland verglichen. Die Verzerrung eines Schätzers bzw. der (statistische) „Bias“ gibt an, wie genau ein Populationsparameter im Durchschnitt aller möglichen Stichproben des gleichen Umfangs aus der Zielpopulation von einem Schätzer geschätzt wird (Faulbaum 2022). Eine geringe Verzerrung von Trägerdaten liegt vor, wenn die Punktschätzer auf Basis der Trägerbefragung und der KJH-Statistik möglichst nah aneinander liegen. Hingegen verweisen Abweichungen auf potenzielle Verzerrungen der Trägerdaten und können eine eingeschränkte Generalisierbarkeit der erhobenen Trägerbefragungsdaten indizieren.

Anschließend wird untersucht, ob durch eine Gewichtung etwaige Verzerrungen in Trägerbefragungen reduziert werden können. Für die aktuelle Trägerbefragung der ERiK-Surveys 2020 wurden zunächst Propensity-Score-Gewichte berechnet (Rosenbaum und Rubin 1983). Beobachtete Fälle werden mit dem Kehrwert ihrer geschätzten Teilnahmewahrscheinlichkeit (Propensity Score) gewichtet, um die Selektivität durch Selbstselektion zu kompensieren (Rosenbaum und Rubin 1983). Für unsere Studie bedeutet das, dass Träger höher gewichtet werden, wenn sie Merkmale aufweisen, die mit einer geringeren Teilnahmewahrscheinlichkeit verbunden sind – und umgekehrt. Zur Abschätzung von Teilnahmewahrscheinlichkeiten wurde der Ausfallprozess anhand der wenigen Informationen, die für Nicht-Befragte und Befragte vorliegen, modelliert (Schacht et al. 2022b): anhand von zwei Merkmalen im Stichprobenrahmen (Bundesländer, Trägerart) und einem Feldmerkmal (Zeitpunkt der Erstkontaktierung). Um weitere Informationen zu möglichen Ausfallursachen zu erhalten, wurden die Daten der Nonresponse-Befragung in einem Exkurs deskriptiv ausgewertet.

Neben der Berechnung der inversen Teilnahmewahrscheinlichkeiten wurde eine ex-post Kalibrierungsgewichtung verwendet, um u. a. etwaige Abdeckungsfehler zu korrigieren (Groves et al. 2009). Differenzen in den Randverteilungen der Trägerart je Bundesland wurden dafür zwischen der KJH-Statistik und den transformierten Trägerdaten der ERiK-Surveys 2020 auf Kita-Ebene ausgeglichen (Schacht et al. 2022b).Footnote 2

4 Ergebnisse

Im Ergebnisteil wird zunächst dargestellt, in welchen Bundesländern die Voraussetzungen zur Beantwortung unserer Fragen mit den Trägerbefragungsdaten erfüllt werden (4.1). Daraufhin werden die zentralen Ergebnisse unserer Studie dargestellt. Dies umfasst einen Abschnitt zur Identifikation potenzieller Verzerrungen zwischen der Trägerbefragung und der KJH-Statistik auf Bundes- und Länderebene (4.2) sowie die Beurteilung einer möglichen Korrektur der Verzerrung durch Gewichtung (4.3). Abschließend folgt ein kurzer Exkurs zu möglichen Ursachen für die Verzerrungen, die auf einer Auswertung der Nonresponse-Befragung beruhen (4.4).

4.1 Ausschöpfungsquoten und Stichprobengrößen

Die Nettostichprobe der Trägerbefragung der ERiK-Surveys 2020 besteht aus 1902 Fällen von etwa 14.900 kontaktierten Trägern (Vollerhebung). 11.416 Fälle haben nicht an der Befragung teilgenommen, 386 der angeschriebenen Träger haben nur einen partiellen Fragebogen abgegeben, 213 Fälle wurden als nicht zur Zielpopulation gehörend eingestuft und 1025 Fragebögen konnten nicht zugestellt werden. Die bereinigte Bruttostichprobe umfasst daher 13.704 potenzielle Befragungsteilnehmer, womit sich eine Ausschöpfungsquote von 14 % bei der Trägerbefragung der ERiK-Surveys 2020 ergibt. Diese liegt deutlich unter dem Durchschnitt der Ausschöpfungsquoten vorheriger Trägerbefragungen in Deutschland (ca. 33 %, Schacht et al. 2022b). Die Ausschöpfungsquoten variierten von 10 % in Mecklenburg-Vorpommern bis hin zu 21 % in Berlin.

In der Trägerbefragung liegen bei 21 Fällen keine Informationen zur Trägerart oder zur Anzahl der Kitas vor, woraus sich für die Analyse eine Stichprobengröße von 1881 Trägern ergibt. Laut Trägerbefragung sind zwischen 39 % der Träger im Saarland und 96 % der Träger in Hamburg als freie Träger tätig. Jedoch ist die Stichprobengröße zur Untersuchung der Trägerart in einzelnen Bundesländern als eher gering einzustufen (bei einem z‑Wert von 1,96, einer Fehlermarge von 5 % sowie den entsprechenden Analysestichprobengrößen und Merkmalsverteilungen je Bundesland; Berechnung nach Häder und Häder 2022). Aus diesem Grund werden die Bundesländer Berlin, Bremen, Hamburg, Mecklenburg-Vorpommern, Saarland, Schleswig-Holstein und Thüringen in den folgenden bundeslandspezifischen Analysen ausgeschlossen, so dass für diese Bundesländer keine Analysen zu etwaigen Verzerrungen vorgenommen werden können. Bei Analysen auf Bundesebene sowie für West- und Ostdeutschland sind hingegen keine Bundesländer ausgeschlossen.

4.2 Verzerrung der Trägerbefragung

Um das Ausmaß der Verzerrungen der untersuchten Trägerbefragung sowie etwaige regionale Variationen beurteilen zu können, wurden die Anteilswerte der KJH-Statistik den ungewichteten, transformierten Daten der Trägerbefragung der ERiK-Surveys 2020 auf Kita-Ebene gegenübergestellt. Abb. 2 zeigt die Anteile der Kitas in freier Trägerschaft in der KJH-Statistik und der Trägerbefragung sowie jeweils deren 95 %-Konfidenzintervalle (KI) (Schnell und Kreuter 2000). Die Symbole in der Abbildung informieren über die jeweiligen Datengrundlagen und Gewichtungsschritte. Abweichungen zwischen den dargestellten Werten können auf potenzielle Verzerrungen der Trägerdaten und eine eingeschränkte Generalisierbarkeit der erhobenen Trägerbefragungsdaten hinweisen.

Abb. 2
figure 2

Kindertageseinrichtungen in freier Trägerschaft nach Bundesländern (un-)gewichtet: Anteile (in %) und 95 %-Konfidenzintervalle. (Quelle: KJH Statistik 2020, ERiK-Surveys 2020: Trägerbefragung. Eigene Abbildung. Details im Anhang 1. BW Baden-Württemberg, BY Bayern, BB Brandenburg, HE Hessen, NI Niedersachsen, NW Nordrhein-Westfalen, RP Rheinland-Pfalz, SN Sachsen, ST Sachsen-Anhalt, West Westdeutschland, Ost Ostdeutschland inklusive Berlin, BRD Deutschland)

Auf Bundesebene zeigen sich leichte Unterschiede zwischen den beiden Datengrundlagen. Während in der KJH-Statistik der Anteil der Kitas in freier Trägerschaft bei 68 % liegt, beträgt dieser in der Trägerbefragung 61 % (KI: 50–70 %). Mit anderen Worten ist die Schätzung auf Basis der transformierten Daten der Trägerbefragung durchschnittlich etwa um 7 Prozentpunkte verzerrt. Jedoch sind diese Unterschiede statistisch nicht signifikant, da der Anteilswert der KJH-Statistik über alle Bundesländer hinweg innerhalb des 95 %-Konfidenzintervalls der Anteilswerte der Trägerbefragung liegt.

Die Abweichungen zwischen den beiden Datenquellen für die einzelnen Bundesländer sind teilweise stärker ausgeprägt als im Bundesdurchschnitt (Abb. 2). So sind in Baden-Württemberg und in der Region Westdeutschland Abweichungen von 23 bzw. 12 Prozentpunkten festzustellen, während für Bayern, Brandenburg und Nordrhein-Westfalen geringere Unterschiede bestehen (etwa 3 Prozentpunkte). Die Ergebnisse sind jedoch größtenteils statistisch nicht signifikant und liegen innerhalb des 95 %-Konfidenzintervalls. Lediglich auf Ebene der Region Westdeutschland liegt der Anteilswert der KJH-Statistik außerhalb des 95 %-Konfidenzintervalls der Trägerbefragung.

Zusammenfassend lässt sich sagen, dass auf Basis einer Transformation der Trägerbefragung der ERiK-Surveys 2020 auf Kita-Ebene und deren Vergleich mit der KJH-Statistik eine Verzerrung des Anteils der Kitas in freier Trägerschaft von bis zu 23 Prozentpunkten festgestellt werden kann. Es zeigt sich zudem, dass die Verzerrungen regional sehr unterschiedlich sind.

4.3 Korrektur etwaiger Verzerrungen durch Gewichtung

In diesem Abschnitt wird untersucht, ob das Ausmaß der Unterschiede durch eine Gewichtung reduziert werden kann. Etwaige Verzerrungen können aus Unterschieden zwischen befragten und nicht-befragten Trägern resultieren sowie daraus, dass der Auswahlrahmen die Grundgesamtheit nicht vollständig abdeckt. Beide Arten von Verzerrungen können durch Gewichtung korrigiert werden. In Abb. 2 sind neben den Anteilen der Kitas in freier Trägerschaft in der KJH-Statistik und den ungewichteten Anteilen in der Trägerbefragung auch die Anteilswerte gewichtet für unterschiedliche Teilnahmewahrscheinlichkeiten (Nonresponse) und kalibriert an die KJH-Statistik dargestellt. Auch die entsprechenden 95 %-Konfidenzintervalle sind abgetragen. Je näher die Anteilswerte durch einen der Gewichtungsschritte an den Anteil in der KJH-Statistik herankommen, desto stärker wurde eine Verzerrung durch diesen Gewichtungsschritt korrigiert. Die entsprechenden Werte sind zudem im Anhang 1 ausgegeben.

Auf Bundesebene weichen die gewichteten Anteile der transformierten Trägerdaten einen Prozentpunkt von der KJH-Statistik ab (67 %, KI 55–76 %) bzw. entsprechen diesen exakt (68 %, KI 66–70 %). Die bisherige Verzerrung von etwa 7 Prozentpunkten ist insofern größtenteils (6 Prozentpunkte) darauf zurückzuführen, dass die Teilnahmewahrscheinlichkeiten zwischen Nicht-Befragten und Befragten in Bezug auf Bundesländer, Trägerart und den Zeitpunkt der Erstkontaktierung variierten. Die Kalibrierung korrigiert einen weiteren Prozentpunkt, der auf einen Abdeckungsfehler zurückzuführen sein dürfte.

Auf regionaler Ebene führt die Anwendung eines Nonresponse-Gewichtes in sieben von neun Bundesländern zu einer stärkeren Annäherung der Anteilswerte an die KJH-Statistik, nämlich in den Ländern Baden-Württemberg, Bayern, Brandenburg, Hessen, Niedersachsen, Nordrhein-Westfalen, Sachsen-Anhalt und in der Region Westdeutschland. In den Bundesländern Rheinland-Pfalz und Sachsen sowie in der Region Ostdeutschland führt die Nonresponse-Gewichtung nicht zu einer stärkeren Annäherung der Anteilswerte an die KJH-Statistik, sondern zu größeren Unterschieden. Die Muster in den Teilnahmewahrscheinlichkeiten variieren also zwischen den genannten Bundesländern und zwischen den Regionen West- und Ostdeutschland.

Die Kalibrierung führt zu einer weiteren Annäherung der Anteile an die KJH-Statistik. Für Bayern, Hessen, Niedersachsen, Nordrhein-Westfalen, Rheinland-Pfalz, Sachsen und Sachsen-Anhalt weichen die Anteilswerte nach der Kalibrierung nicht von der KJH-Statistik ab und auch die Differenzen der weiteren Bundesländer (Baden-Württemberg, Brandenburg) liegen bei nur einem Prozentpunkt. In den Regionen Ost- und Westdeutschland liegen die kalibrierten Anteile ebenfalls jeweils einen Prozentpunkt neben der KJH-Statistik.

Zusammenfassend kann festgestellt werden, dass die Modellierung von Teilnahmewahrscheinlichkeiten Abweichungen in der Trägerbefragung sowohl auf Bundes- als auch auf Länderebene korrigiert hat. Auf Bundesebene ist ein Großteil der Abweichungen auf unterschiedliche Teilnahmewahrscheinlichkeiten zurückzuführen. Auf Landesebene führte die Gewichtung der unterschiedlichen Teilnahmemuster in den untersuchten Ländern zu einer wünschenswerten Korrektur.

4.4 Exkurs: Etwaige Verzerrungsursachen durch Nichtteilnahme

Abschließend werden mögliche Ursachen für die Verzerrungen untersucht. In Tab. 2 ist der Vergleich des Stichprobenrahmens, der Trägerbefragung und der Nonresponse-Befragung der ERiK-Surveys 2020 dargestellt. In Bezug auf die Trägerart besteht ein Nonresponse-Bias von 10 Prozentpunkten bei der Trägerbefragung und von 22 Prozentpunkten bei der Nonresponse-Befragung im Vergleich zum Stichprobenrahmen (siehe Formel und Berechnungsweg im Anhang 2). Im Stichprobenrahmen waren etwa 72 % der Träger als freie Träger kategorisiert, in der Trägerbefragung haben sich 62 % der Träger und in der Nonresponse-Befragung 50 % der Träger als freie Träger eingeordnet. Insgesamt legen die Auswertungen nahe, dass öffentliche Träger im Vergleich zu den freien Trägern eine höhere Teilnahmewahrscheinlichkeit sowohl an der Trägerbefragung als auch an der Nonresponse-Befragung haben. Bezüglich der Trägergröße zeigt sich, dass die Träger in der Trägerbefragung durchschnittlich etwa 7 trägereigene Kitas und in der Nonresponse-Befragung etwa 8 Kitas betrieben haben. Im Stichprobenrahmen lagen hingegen keinerlei Informationen zur Anzahl der trägereigenen Kitas vor, sodass der Nonresponse-Bias nicht berechnet werden konnte.

Tab. 2 Träger und deren Kindertageseinrichtungen im Stichprobenrahmen, der Trägerbefragung sowie der Träger-Nonresponse-Befragung der ERiK-Surveys 2020: Anteil (in %), Standardabweichung (S.D.) und Fallzahlen (N)

Als Gründe für die Nichtteilnahme wurden seitens der Befragten das Nichtankommen des Fragebogens (37 %), fehlende Zeit (33 %), ein ungünstiger Zeitpunkt (31 %) und die aktuelle Arbeitsbelastung (28 %) genannt. Ein Vergleich der Gründe nach Trägerart zeigt, dass freie Träger in der Stichprobe häufiger sonstige Gründe (43 % im Vgl. zu 22 %) oder auch die Teilnahme an anderen Befragungen (5 % im Vgl. zu 1 %) angaben. Öffentliche Träger nannten hingegen häufig das Nichtankommen des Fragebogens (43 % im Vgl. zu 32 %) für die Nicht-Teilnahme (Abb. 3).

Abb. 3
figure 3

Gründe für die Nicht-Teilnahme an der Trägerbefragung laut Träger-Nonresponse-Befragung der ERiK-Surveys 2020: Anteile (in %) und 95 %-Konfidenzintervalle. (Quelle: ERiK-Surveys 2020: Träger-Nonresponse-Befragung)

5 Diskussion

Befragungsdaten von Trägern von Kindertageseinrichtungen werden als Basis für Informationen zur Steuerung und Qualitätsentwicklung für das deutsche FBBE-System genutzt. Es ist jedoch fraglich, ob diese Informationen auf Trägerebene in Deutschland generalisiert werden können, da verlässliche Stichprobenrahmen und Registerdaten fehlen.

Die hier vorgestellte Methode verdeutlicht, dass Informationen aus Trägerbefragungen mit KJH-Statistiken verglichen werden können, wenn diese von der Trägerebene auf die Kindertageseinrichtungsebene transformiert werden. Allerdings legt ein derartiger Vergleich für die Trägerbefragung der ERiK-Surveys 2020 nahe, dass mit substanziellen Verzerrungen bei deutschen Trägerbefragungen zu rechnen ist. Vor allem sind erhebliche Variationen zwischen befragten und nicht-befragten Trägern zu beobachten. Diese Verzerrungen können durch eine Nonresponse-Gewichtung deutlich reduziert werden. Dabei empfiehlt es sich Bundesländerunterschiede detailliert zu betrachten, da die Teilnahmewahrscheinlichkeiten und damit die Ausfallprozesse systematisch zwischen Trägern in verschiedenen Bundesländern variieren. Auch wurde deutlich, dass sich nach einer Nonresponse-Gewichtung noch Unterschiede in den Ergebnissen zwischen der KJH-Statistik und der Trägerbefragung ergeben können. Diese Unterschiede können vermutlich u. a. auf Abdeckungsfehler in der Stichprobenliste zurückgeführt werden. Eine entsprechende Kalibrierung kann diese Verzerrungen für die untersuchten Bundesländer größtenteils ausgleichen.

Die Ergebnisse bestätigen die Vermutungen aus Methodenberichten und Studiendokumentationen zu Trägerbefragungen in Deutschland, dass Informationen auf Grundlage ihrer Daten verzerrt sein könnten (NQI, Kalicki et al. 2004; AQUA, Schreyer et al. 2014; ERiK, Klinkhammer et al. 2022). Insbesondere die starken regionalen Varianzen der Trägerlandschaft in Deutschland (Böwing-Schmalenbrock und Tiedemann 2019) könnten die hier präsentierten unterschiedlichen Teilnahmewahrscheinlichkeiten bedingen. Beispielsweise nahmen öffentliche Träger in Baden-Württemberg (23 Prozentpunkte Differenz zur KJH-Statistik) und freie Träger in Sachsen und Sachsen-Anhalt (jeweils 9 Prozentpunkte Differenz zur KJH-Statistik) wesentlich häufiger an der Befragung teil, als es bei einer einfachen Zufallsauswahl zu erwarten gewesen wäre. Im Durchschnitt waren die Träger, die nicht an der Befragung teilgenommen haben, häufiger freie Träger und hatten mehr trägereigene Kitas. Als Gründe für die Nicht-Teilnahme wurden häufig fehlende Zeit, ungünstige Zeitpunkte und aktuelle Arbeitsbelastungen genannt. Zudem deutet die hohe Anzahl nicht angekommener Fragebögen auf mögliche Fehler in der Stichprobenliste hin oder darauf, dass die Liste möglichst konkrete Ansprechpersonen oder zuständige Fachabteilungen enthalten sollte.

Vor diesem Hintergrund scheinen Trägerbefragungen, die alle Adressen anschreiben, die ihnen zur Verfügung stehen, kein Garant dafür zu sein, dass eine verlässliche Datenbasis für Träger in Deutschland geschaffen wird. Dieser Befund konnte nur durch die Untersuchung der Selektivität der Stichprobe gewonnen und – wie in dieser Studie geschehen – durch Gewichtung korrigiert werden. Es ist daher von entscheidender Bedeutung, dass zukünftige Trägerbefragungen Informationen erheben, die für eine Transformation auf die Kita-Ebene und einen Vergleich mit der KJH-Statistik notwendig sind. Geeignete Transformationsvariablen, wie die Anzahl der Kitas, Plätze und Mitarbeitenden, sind größtenteils bereits in den bundes- und trägerübergreifenden Trägerbefragungen erhoben worden (Tab. 1). Für Informationen, die nicht in der KJH-Statistik enthalten sind oder die zwischen den Kitas der Träger variieren, ist das vorgestellte Verfahren jedoch nicht geeignet. Daher sollten potenzielle Transformationsmerkmale in zukünftigen Trägerbefragungen berücksichtigt werden.

Gleichzeitig sollte die Teilnahme an einer Trägerbefragung auch für Träger möglich sein, die aktuell eine hohe Arbeitsbelastung angeben, beispielsweise indem sehr kurze Fragebögen eingesetzt werden, der Zugang zur Befragung über Mobiltelefone ermöglicht wird und die Feldphase so gestaltet wird, dass auch Krankheits- und Urlaubsphasen überdauert werden. Dabei könnte auch beachtet werden, dass freie und öffentliche Träger in ihren Gründen der Nichtteilnahme variieren. Insbesondere bei Befragungen öffentlicher Träger sollten möglichst konkrete Ansprechpersonen oder zuständige Fachabteilungen vor der Kontaktierung recherchiert werden. Eine höhere Teilnahmewahrscheinlichkeit sollte auch gefördert werden, damit die Schätzwerte präziser werden. Derzeit sind die 95 %-Konfidenzintervalle sehr groß, und es ist kaum möglich, eine statistische Signifikanz zu erreichen.

Die Ergebnisse der Studie liefern eine erste Grundlage für eine verlässlichere Verwendung von Trägerbefragungen. Allerdings weisen sie auch auf weitere Forschungsfragen hin, die in dieser Untersuchung nicht behandelt werden konnten. Zu klären ist, ob auch andere Merkmale der befragten Träger Verzerrungen im Vergleich zur KJH-Statistik aufweisen und welche surveymethodologischen Vorgehensweisen (Schupp und Wolf 2015) die selektive Teilnahme von Trägern bestmöglich verhindern können. Gleichzeitig würde mehr Forschung zur selektiven Teilnahmewahrscheinlichkeit von Trägern auch zur Identifikation der Faktoren beitragen, die die Teilnahmeentscheidung beeinflussen, und damit in eine Gewichtung zur vollständigen Korrektur der damit verbundenen Verzerrungen einfließen sollten (Kiesl 2022). Auch wenn derartige Forschung bisher fehlt, schließen wir uns den Empfehlungen der generellen surveymethodologischen Literatur an, wonach die Anwendung von Gewichten bei deskriptiven Auswertungen unumstritten ist (Kiesl 2022; Schupp und Wolf 2015). Eine Gewichtung innerhalb von Analysen zu Merkmalszusammenhängen und multivariaten Methoden sollte hingegen kritisch am individuellen Anwendungsbeispiel geprüft werden (Kiesl 2022; Solon et al. 2015). Gleichzeitig wäre es interessant für die hier nicht-untersuchten Bundesländer Analysen durchzuführen und herauszuarbeiten, ob ähnliche Verzerrungen für diese Bundesländer festzustellen sind. So zeigt sich bereits für die untersuchten Bundesländer, dass die Verzerrungen regional sehr unterschiedlich sind. Die unterschiedlichen Teilnahmewahrscheinlichkeiten könnten insbesondere mit den starken regionalen Varianzen der Trägerlandschaft in Deutschland einhergehen (Böwing-Schmalenbrock und Tiedemann 2019) oder auch anderen Gründen wie den Adressdaten, der Arbeitsbelastung, der Zusammensetzung des Personals.

Zukünftige Methodenforschung kann das in dieser Studie vorgestellte Verfahren auf weitere Trägerbefragungen oder Befragungen anderer Populationen anwenden, auch wenn kein direkter Vergleich mit amtlichen Statistiken möglich ist. Die Evaluierung der Erhebungsqualität und der Generalisierbarkeit der Analysen ist von entscheidender Bedeutung, bevor Schlüsse für Politik und Praxis gezogen werden. Ohne Gewichtung würden verzerrte Beschreibungen der FBBE-Entwicklungen auf Grundlage der untersuchten Trägerbefragung vorliegen, die eine falsche Bewertung der Fortschritte bei der Erreichung nationaler Betreuungsziele und eine ineffiziente Ressourcenzuweisung für den Bereich FBBE zur Folge haben könnten. Eine verlässliche Datengrundlage ist unerlässlich, um den FBBE-Bereich effektiv zu steuern, sei es in Bezug auf die Planung und Bereitstellung bedarfsgerechter Kinderbetreuungsangebote, die Gewährleistung ausreichender Fachberatungsmöglichkeiten für pädagogisches Personal oder auch die Sicherstellung hochwertiger Verpflegungsangebote in der Kindertagesbetreuung. Wenn die Stimmen der Akteure aus der Bildungspraxis in Forschungsstudien etwa in Trägerbefragungen gehört werden, kann dies zu fundierteren Erkenntnissen und einer verbesserten Umsetzung der Bildungspolitik führen.

Positiv anzumerken ist, dass zukünftig die Frage nach der Anzahl an Trägern von Kindertageseinrichtungen in Deutschland mithilfe des bundesweiten Trägerregisters beantwortet wird, welches Ende 2023 in Deutschland eingeführt werden soll (Mühlmann 2022). Dadurch könnten die Stichprobenrahmen von Trägerbefragungen häufiger auf ihre Datenqualität geprüft werden, durch Gewichtung die Daten korrigiert und so letztlich eher sichergestellt werden, dass die erhobenen Informationen aussagekräftig sind. Durch diese Entwicklung wird die Qualität der Trägerbefragungen gesteigert und somit auch die Steuerung und Qualitätsentwicklung des deutschen FBBE-Systems weiter vorangetrieben.