1 Begriff und Geschichte

In der deutschsprachigen Diskussion werden Schulinspektionen oft als wesentlicher Teil einer ‚Modernisierung‘ verstanden, die die Schulsysteme in den letzten zwanzig Jahren erfahren haben. Tatsächlich ist Schulinspektion aber kein vollkommen neues Konzept. Einige europäische Schulinspektorate (z. B. England, Niederlande, Schweden oder Österreich) existieren seit der Mitte des 19. Jahrhunderts (vgl. Ehren et al. 2013). Im Zuge veränderter Steuerungsphilosophien und eines internationalen Trends zur evidenzbasierten Steuerung haben sich auch Inspektionsmethoden gewandelt. Im Folgenden soll das Verständnis des Konzepts „Inspektion“ durch einen Blick auf die Entwicklung ihrer Funktionen, auf ihre Gemeinsamkeiten und Abgrenzungen zur Schulaufsicht sowie auf neuere Entwicklungen der Fassung von Inspektionsaufgaben differenziert werden.

1.1 Inspektion

Inspektion findet nicht nur in den Schulen statt; so gibt es beispielsweise in vielen Ländern Inspektorate für Arbeitsplatzsicherheit, das Bauwesen, die Umwelt usw. Das Entstehen von Inspektoraten ist ein Merkmal der Entwicklung des Rechts- und Verwaltungsstaates im Europa des 19. Jahrhunderts. Als Antwort auf die „wirtschaftliche und gesellschaftliche Dynamik von Industrialisierung und Verstädterung“ (Raphael 2000, S. 89) wurden neben der Modernisierung der allgemeinen Verwaltungen auch Fachverwaltungen in Sonderbehörden aufgebaut, die (potentiell) problematische Standorte und Praktiken überwachen und kontrollieren sollten. Diese Sonderbehörden waren u. a. dadurch gekennzeichnet, dass sie oft „außerhalb des normalen Instanzenzugs“ standen und ihre Durchsetzungsfähigkeit auf „neuartigem, zumeist wissenschaftsgestütztem Expertenwissen“ beruhte (Raphael 2000, S. 90). Als Charakteristika dieses Typus staatlicher Tätigkeit gelten (vgl. Clarke 2011, S. 1 ff.):

  • Durchsetzung spezifischer staatlicher Regulierung: Inspektionssysteme werden in (potentiell) problematischen sozialen Feldern etabliert und sollen dort die rechtlichen Regulierungen des Staates durchsetzen.

  • Spezifische persönliche/professionelle Expertise: Da diese Felder „sehr spezifisch“ sind, kann dies nicht durch die üblichen staatlichen Durchsetzungsorgane, durch die Polizei, geleistet werden. Stattdessen erfordert es Akteure, die über eine spezifische, in dem Feld anerkannte Expertise verfügen.

  • Arbeit auch in direkter Interaktion vor Ort: Inspektoren, von Lipsky (1980) als „street level bureaucrats“ bezeichnet, müssen ihre Arbeit im direkten Kontakt mit jenen Akteuren, deren Tätigkeit reguliert werden soll, (oft an deren Arbeitsort) ausführen. In diesen inhaltlich und sozial komplexen Situationen ist bürokratische Autorität allein nicht ausreichend; vielmehr muss Expertise, die durch Ausbildung und frühere Erfahrung erworben wurde, persönlich in direkten Interaktionen „verkörpert“ (Clarke 2011, S. 1) und glaubhaft gemacht werden.

  • Grenzüberschreitungen: Inspektoren sind beauftragt, die Rechtmäßigkeit und Qualität an „sites of public concern“ (Clarke 2011, S. 1), die von staatlichen (z. B. Schulen, Gefängnisse) oder privaten Einrichtungen (z. B. Arbeitsplatzsicherheit, Gesundheit, Bauinspektorat) verantwortet werden, zu überwachen. Sie arbeiten an der Grenze zwischen der üblicherweise eher geschlossenen Arbeitsweise dieser speziellen Dienstleistungen und einem öffentlichen Blick darauf. Um diesen Auftrag zu erfüllen, werden Inspektorate mit besonderen Zutrittsrechten zu ansonsten relativ geschlossenen Orten oder Tätigkeiten ausgestattet.

  • Relative Unabhängigkeit und öffentliche Verantwortlichkeit: Inspektorate sind auch ein staatliches Instrument, um der Öffentlichkeit zu demonstrieren, dass Rechtmäßigkeit und Qualität in wichtigen sozialen Feldern ernst genommen werden. Als Konsequenz haben Inspektorate oft auch den Auftrag, über ihre Beobachtungen öffentlich zu berichten. Zur Wahrung ihrer öffentlichen Glaubwürdigkeit müssen sie (trotz ihrer staatlichen Aufgaben und beruflichen Absicherung) ein gewisses Maß an Distanz zu den Interessen von Politik und Zentralverwaltung halten.

Aus Governance-Perspektive (Altrichter und Maag Merki 2016) sind Inspektorate eine kulturelle Erfindung, die zur Koordination und Steuerung komplexer – und wissensmäßig spezialisierter – Mehrebenen-Systeme beitragen soll, indem sie „Distanzen“ zwischen verschiedenen Akteuren überbrücken (Clarke 2011, S. 12) und die „Re-Kontextualisierung“ von Qualitätsvorstellungen zwischen den Ebenen unterstützen (Fend 2006, S. 174). Die Beiträge der Inspektorate zur Systemtätigkeit sind dabei indirekter Natur („intermediäre Akteure“); sie tragen zur Systemkoordination bei, indem sie zwischen den Akteuren verschiedener Ebenen vermitteln, insbesondere zwischen den regulativen Vorgaben der Bildungspolitik und -administration einerseits und den Schulen und Klassenzimmern als den Orten der Erstellung der Systemleistung andererseits.

1.2 Schulaufsicht und Schulinspektion

Beobachtung, Kontrolle und Durchsetzung der Qualität einer Dienstleistung sowie ihrer rechtlichen und administrativen Angemessenheit sind ein klarer und üblicher Teil der Aufgaben von Vorgesetzten in einer Hierarchie, also des Linienmanagements. Warum – so kann man für die deutschen Schulsysteme fragen – wird diese Qualitätskontrolle nicht von den direkten Linienvorgesetzten, der Schulaufsicht, gemacht? Warum braucht es zusätzliche Schulinspektionen?

Für viele „Vorbildländer“ der neuen Schulinspektion liegt die Antwort nahe. Ihre Schulen wurden nicht direkt zentralstaatlich verwaltet, sondern durch Administrationen auf mittlerer Ebene: In England waren Regionalverwaltungen, die Local Education Authorities, für die Administration der Schulen, die Anstellung von Personal und für Unterstützungsleistungen verantwortlich (Jopling und Hadfield 2015, S. 50); in den skandinavischen Ländern sind Gemeinden die administrative Träger der Schulsysteme und in den Niederlanden die ‚school boards‘ der lokalen Regierungen oder der verschiedenen nicht-staatlichen Schulsysteme. Schulinspektionen kontrollieren in diesen Fällen, ob diese Akteure mittlerer Ebene und ihre Schulen gesamtstaatliche Qualitätsansprüche erfüllen.

Warum aber braucht es Schulinspektionen in den zentralstaatlich administrierten Schulsystemen der deutschen Bundesländer und Österreichs? In einer traditionell zentralistisch-etatistischen Perspektive ist die Schule das unterste Glied eines bürokratisch-hierarchischen Organisationsmodells, bei dem „für alles staatliche Handeln eine durchgehende Legitimationskette von einer parlamentarisch verantwortlichen Instanz bis zu der unmittelbar ausführenden Ebene“ (Lange 2003, S. 139) besteht. In einem solchen System hätte die staatliche Schulaufsicht alle Möglichkeiten, Qualitätskontrolle und -entwicklung selbst durchzuführen.

Tatsächlich ist die Aufgabe der ‚externen Evaluation‘ von Schulen schulrechtlich ein traditioneller und im Übrigen auch durch neue Regelungen nicht entscheidend veränderter „Bestandteil von Schulaufsicht“ (Füssel 2008, S. 156; vgl. Maritzen 2008, S. 87). Dennoch haben (nach einem ersten Vorläufer 1996 in Bremen) alle deutschen Bundesländer überraschend schnell seit der Mitte der 2000er-Jahre neue Institutionen neben der Schulaufsicht eingeführt, die unter verschiedenen Bezeichnungen wie Schulinspektion, externe Evaluation, Schulvisitation, Qualitätsanalyse und Fremdevaluation firmieren. „Weder gab es einen förmlichen Beschluss (etwa auf der Ebene der Kultusministerkonferenz) noch anderweitige Länderabsprachen, sondern einzig haben parallel laufende Entwicklungen in einzelnen Bundesländern sich fast virenähnlich über die ganze Republik ausgedehnt“ (Füssel 2008, S. 153). In den Länderkonzepten spiegeln sich „ein ähnlicher Reformanlass, eine weitgehend gleiche Grundidee sowie ähnliche Wirkungserwartungen und Zielsetzungen“ (Döbert et al. 2008, S. 137) wider; in der Umsetzung ist jedoch „eine erhebliche Vielfalt“ (Döbert et al. 2008, S. 145) organisatorischer und prozessualer Merkmale zu finden (Bos et al. 2006, 2007; Rürup 2008 sowie Abschn. 2.1). Den neuen Qualitätskontrolleuren wurde zwar eine Vielfalt von Funktionen zugewiesen, doch konstatierten Kritiker eine „Unterbestimmtheit“ (Maritzen 2008, S. 86) in den Begründungen: Vage Verweise auf Erfahrungen im Ausland mussten genügen (Füssel 2008, S. 154).

Maritzen (2008, S. 85 ff.) interpretiert die Einführung von Schulinspektionen in den Schulsystemen der deutschen Bundesländer einesteils „als Element eines übergreifenden Umbaus von Steuerungsstrukturen im Schulwesen“, anderenteils „auch als Antwort auf eine Krise der Schulaufsicht“, der er „durchschlagende Wirkungslosigkeit“ (Maritzen 2008, S. 88; vgl. auch Lange 2003, S. 141) in entscheidenden Qualitätsfragen attestiert. Im Zuge neuer Entwicklungen im Schulwesen (schulische Eigenverantwortlichkeit, neue Rechenschaftsbedürfnisse, Verfügbarkeit besserer Daten, Anspruch auf Evidenzbasierung) gerieten „tradierte Formen der Generierung von Systemwissen (z. B. über Schulaufsicht) tendenziell in einen Modernitätsrückstand“ (Maritzen 2008, S. 94). ‚Neue Schulinspektionen‘ erschienen als „Alternative zum bisherigen schulaufsichtlichen Agieren“ (Füssel 2008, S. 153), wenn sie nicht gar mit dem Anspruch versehen wurden, „herkömmliches Aufsichtshandeln zur Qualitätssicherung professionell zu überbieten“ (Maritzen 2008, S. 93 f.). Auf der anderen Seite wurden sie „weitgehend unter den Bedingungen unveränderter rechtlicher Rahmenbedingungen institutionalisiert […], ohne dass zugleich die vorhandenen rechtlichen Vorgaben für die Aufgabenstellung der Schulaufsicht verändert wurden“ (Füssel 2008, abstract; ähnlich Maritzen 2008, S. 91).

1.3 Merkmale „neuer Schulinspektionen“

Seit den 1990er-Jahren ist (durchaus mit zeitlichen Differenzen) eine Modernisierung der Funktion der Qualitätskontrolle in vielen europäischen Schulsystemen zu beobachten. Diese hat in den Schulsystemen der deutschen Bundesländer zur schon dargestellten Einführung von Schulinspektionen geführt, während in anderen europäischen Ländern bestehende Inspektionen ihre Arbeitsweise z. T. sehr weitgehend verändert haben (z. B. Baxter und Clarke 2013; Jones und Tymms 2014). Sucht man nach Gründen und Begründungen für diese Reformen, so findet man einesteils jeweils landesspezifische politische Konstellationen (wie die ‚Krise der Schulaufsicht‘ oder den PISA-Schock in Deutschland), auf der anderen Seite aber auch vergleichbare Argumentationslinien in verschiedenen europäischen Ländern: Globalisierungsdiagnosen (und ihre Verkörperung durch PISA, TIMSS und ‚Education at a glance‘) haben in den europäischen Staaten Bewusstsein und Rhetorik von der Bedeutung eines qualitätsvollen Bildungswesens für Wohlstand und Wettbewerbsfähigkeit der Nation wieder steigen lassen. Ideen des New Public Management (Rhodes 1991) wurden vielfach zur Verstärkung der Effizienz und Bürgerzugänglichkeit der Verwaltung aufgegriffen. ‚Outputorientierung‘ sollte die Leistungen öffentlicher Institutionen an ihren angestrebten Wirkungen messen. Evidenzbasierte Steuerungskonzepte sollten verbindliche Ziele deutlich machen, Instrumente für Produktion von „Steuerungswissen“ bereitstellen und Bewusstsein für dessen Nutzung für zielgerichtete Qualitätsentwicklung bilden (Altrichter und Maag Merki 2016, S. 21 ff.).

In diesem Szenario des Aufbaus einer evidenzbasierten Schulsteuerung hat auch Schulinspektion ihren Platz. Jenseits von Differenzen in Institutionalisierung und Arbeitsweise in verschiedenen Ländern sind diese „neuen Inspektionen“ durch einige wiederkehrende Merkmale charakterisierbar (vgl. Rürup 2008, S. 469 f.): Auf der Basis öffentlich bekannter (1) Qualitätskriterien („Qualitätstableaus“) führt ein (2) kleines Team von Inspektorinnen und Inspektoren einen (3) Schulbesuch durch, bei dem gemäß einer weitgehend standardisierten Vorgehensweise durch (4) Begehung, (5) Unterrichtsbeobachtungen und (6) Interviews mit Schulleitung, Lehrpersonen, Schüler/innen, Eltern, Gemeindevertreter/innen und ev. anderen Stakeholdern der Schule zusätzliche Informationen gesammelt werden. Diese Informationen sowie zusätzliche Daten, die (7) durch die Schule zur Verfügung gestellt werden und die (8) aus verschiedenen Erhebungen (z. B. vergleichende Lernstandserhebungen) zugänglich sind, dienen als informationelle Basis eines (9) Inspektionsberichts, der die Qualität der schulischen Arbeit angesichts der Qualitätskriterien einschätzt. (10) Von diesem Bericht, aber auch von der gesamten Vorgangsweise sollen Impulse für die Qualitätsentwicklung der Einzelschule und des gesamten Schulsystems ausgehen.

In diesen Merkmalen spiegeln sich einige Konstruktionsprinzipen, die den meisten „neuen Inspektionssystemen“ gemeinsam sind:

Explizite Kriterien und Prozeduralisierung: Während die Kriterien „alter Inspektion“ oft nicht explizit fixiert waren, sondern durch die Autorität des erfahrenen und hierarchisch übergeordneten Professionellen persönlich verkörpert wurden, ist die Arbeit „neuer Inspektorate“ durch explizite Qualitätskriterien, die in Form von „Qualitätsrahmen“ öffentlich zugänglich sind, und durch standardisierte Vorgangsweisen und Materialien (Formulare, Checklisten) gekennzeichnet.

Expertisierung durch Wissenschaftsnähe: „Neue Inspektorate“ versuchen ihre evaluativen Aufgaben zu professionalisieren, indem sie ihre Arbeitsweise „verwissenschaftlichen“: durch wissenschaftliches Wissen (das in die ‚Qualitätsrahmen‘ eingegangen ist), durch die Berücksichtigung von extern erhobenen Daten (z. B. Statistiken und Leistungsdaten), und durch Benutzung von Instrumenten, die aus den Sozialwissenschaften entnommen oder ihnen nachempfunden sind (z. B. Interviews, standardisierte Unterrichtsbeobachtungen). Transparenz und ‚Verwissenschaftlichung‘ sollen die Akzeptanz von Schulen und Öffentlichkeit befördern.

Einbezug von Stakeholder: „Neue Inspektorate“ beziehen oft die Stakeholder der Schule (z. B. Eltern, Gemeinde, lokale Wirtschaft) in Datensammlung und Ergebnispräsentation mit ein. Dies soll die Urteile valider machen, aber auch Entwicklung unterstützen, weil erwartet wird, dass Stakeholder „Ergebnisdruck“ aufbauen und auf Entwicklung von Schulqualität dringen (vgl. Thiel et al. 2013, S. 12).

Konzentration auf evaluative Funktionen: Für die „neuen“ deutschsprachigen Inspektionssysteme gilt, dass sie sich auf die evaluativen Funktionen konzentrieren wollen, ohne durch andere administrative Funktionen kontaminiert zu werden. Daher wird bei der Institutionalisierung der neuen Inspektion auch auf Unabhängigkeit von der Schulverwaltung Wert gelegt.

Durch diese Akzente passen „neue Schulinspektionen“ gut zu dem Bild rationalisierter Kontrolle und Entwicklung, das durch evidenzbasierte Reformen propagiert wird. Sie ergänzen das Steuerungsinstrument „Bildungsstandards und standardbezogene Leistungsmessungen“ um einige wichtige Akzente. Sie fokussieren nicht primär Outputmaße, sondern können auch den Prozess- und Kontextfaktoren größere Aufmerksamkeit schenken (Maritzen 2008, S. 93). Auch ist die Erhebung und Kommunikation der Daten und Einschätzungen näher am Ort der erhofften Veränderung angesiedelt.

Wir haben eben die Gemeinsamkeiten „neuer Inspektionen“ betont. Gleichzeitig muss man darauf hinweisen, dass viele Merkmale der Gestaltung von Inspektionen zwischen den Ländern stark variieren. Unterschiede findet man bereits zwischen den deutschen Bundesländern (Döbert et al. 2008; Rürup 2008), in noch größerem Ausmaß auf internationaler Ebene (Janssens und van Amelsvoort 2008), wie Tab. 1 an einigen Beispielen aufweist.

Tab. 1 Inspektionsmerkmale in europäischen Ländern. (Übersetzt nach Altrichter und Kemethofer 2015, S. 38)

„Neue Schulinspektion“ ist offenbar eine ‚travelling policy‘; auch gibt es laufenden Austausch zwischen den europäischen Inspektoraten (Grek et al. 2013). Die Einbettung dieser Politik in verschiedene nationale Kontexte wird – wenn wir die Warnung von Ozga und Jones (2006) ernst nehmen – allerdings zu durchaus unterschiedlichen Konstellationen führen, von denen nicht zu erwarten ist, dass sie in der gleichen Weise funktionieren und vergleichbare Wirkungen erzielen (vgl. Abschn. 2).

1.4 Kritik

Die Einführung von ‚neuen Schulinspektionen‘ ist nicht ohne Kritik geblieben: Auch auf sie treffen Argumente zu, die gegen andere Instrumente evidenzbasierter Steuerung vorgebracht wurden: Die Neuerung wurde „trotz der nicht überzeugenden Ergebnisse aus der Forschung über deren Wirksamkeit“ (Dubs 2014, S. 8) eingeführt. Die verstärkte externe Kontrolle widerspräche der zuvor propagierten Erweiterung schulischer Gestaltungsspielräume (vgl. dagegen Lange 2003), führe zur Geringschätzung von Praktikerwissen und Deprofessionalisierung (Fitzgerald 2008; Crouch 2015); die Beobachtung weniger Maßzahlen korrumpiere Schulen (Nichols und Berliner 2008), die mit strategischem Verhalten reagieren würden.

Die Kriterien der Qualitätsrahmen würden „häufig wirklichkeitsfremden Idealbildern entsprechen“, die „empirisch nicht überprüft“ wären. Kurze Unterrichtsbesuche erlaubten kein verlässliches Urteil. Die Idee der Stimulierung von Qualitätsentwicklung durch Inspektions-Feedback wäre unrealistisch, weil Schulen Unterstützung bei der Weiterentwicklung benötigten (Dubs 2014, S. 9 f.).

1.5 Aktuelle Entwicklungen

In jüngster Zeit sind Veränderungen dieser ‚neuen Inspektionsmodelle‘ zu beobachten. Niedersachsen hat beispielsweise sein Inspektionsmodell 2013 revidiert; Hauptmerkmale des neuen Vorgehens sind ein dialogischer Ansatz zwischen Schulen und Inspektion sowie eine Konzentration der Inspektion auf eine geringere Zahl von Qualitätsbereichen und eine stärkere Berücksichtigung von schulischen ProzessenFootnote 1.

Eine wichtige Entwicklungstendenz besteht darin, dass manche Länder differenzierte Inspektionssysteme (auch „proportionate“ oder „risk-based inspections“ genannt) einführen, in denen für ‚starke‘ und ‚schwache‘ Schulen unterschiedliche Inspektionsansätze gelten (vgl. Ehren und Honingh 2011 für die Niederlande; Baxter 2014 für England). Während diese Entwicklung eine Konzentration der Ressourcen und Aufmerksamkeit des Inspektorats umfasst, die dann zu einer intensivierten Beschäftigung mit gefährdeten Schulen führt, haben andere Länder ihre „neuen Inspektionssysteme“ wieder abgeschafft. Nach Schleswig-Holstein 2010 gilt dies z. B. auch für Rheinland-Pfalz, wo dieser 2016 durchgeführte Schritt mit „der weiter notwendigen Konsolidierung des Landeshaushalts“ motiviert wird. Die Qualitätsarbeit solle nach dem Modell „der Zielvereinbarungen zwischen der jeweiligen Schule und der Schulaufsicht“Footnote 2 fortgesetzt werden.

2 Forschung zur Schulinspektion

2.1 Stand der Theorieentwicklung

Einesteils ist das Begründungsmodell von Schulinspektion einfach und plausibel: Wichtige staatliche Leistungen, bei denen aufgrund ihrer Komplexität, aber auch aufgrund des Principal-Agent-Problems Variationen in der Umsetzung eintreten können, werden laufend kontrolliert, sodass eine Mindestqualität und Weiterentwicklung sichergestellt werden kann. Auf der anderen Seite ist Schulinspektion ein komplexes Instrument, das sich auf viele Einzelmerkmale stützt, deren Kombination, Zusammenwirken und Wirkungsweise in spezifischen Kontexten in einer Theorie der Schulinspektion thematisiert werden müsste. Eine solche ‚umfassende Theorie‘ liegt nicht vor, wohl aber einige Theoretisierungsansätze.

Funktionsmodelle. In Beschreibungen von Inspektionen wird häufig zwischen unterschiedlichen Funktionen, die sie potentiell erfüllen können, unterschieden. Am häufigsten werden zwei Funktionen der Rechenschaftslegung/Kontrolle einerseits und der schulischen Qualitätsentwicklung andererseits (z. B. Faubert 2009) gleichsam gegenübergestellt. In anderen Konzepten werden mehrere Funktionen genannt (z. B. Böttger-Beer und Koch 2008; Maritzen 2008) und ein „Funktionenmix“ als Normalfall angenommen (z. B. Heinrich et al. 2014, S. 23). Nach dem Funktionsmodell von Landwehr (2011) muss Schulinspektion vier Hauptfunktionen erfüllen, damit ihr Einsatz gerechtfertigt und als Erfolg wahrgenommen werden kann, u. zw. Wissensgewinnung, Schulentwicklung, Rechenschaftslegung/Kontrolle und Normendurchsetzung. Diese sind nicht voneinander isoliert, sondern stehen in wechselseitiger Abhängigkeit. So stellt die Funktion der Wissensgewinnung die Basis für gezielte Entwicklungsaktivitäten dar, doch kann auch die Pflicht zur Rechenschaftslegung Anstoß für Qualitätsentwicklung und -sicherung sein. Innerhalb der vier Hauptfunktionen existiert eine Reihe von Interaktionseffekten (vgl. Abb. 1).

Abb. 1
figure 1

Hauptfunktionen von Schulinspektionen. (Landwehr 2011, S. 41)

Kategorialmodelle. Einige Kategorisierungen von Inspektionsmodellen versuchen mehr als die ihnen zugeschriebenen Funktionen in den Blick zu nehmen (z. B. Maritzen 2008, S. 89). Rürup (2008, S. 467) unterscheidet zwei Strategien der Umsetzung bzw. Typen deutscher Inspektionsmodelle: Dem Konzept „Schulentwicklung durch die Konfrontation der Schule mit möglichst objektiven und validen Daten“ stellt er das Modell „Schulentwicklung durch ein kollegiales, auf Abwägung und Argumentation setzendes Peer Review“ (Rürup 2008, S. 475 f.) gegenüber. An diese Unterscheidung koppelt er Wirksamkeitsannahmen, wobei quantitative Ergebnisberichte vor allem der Administration nutzen, qualitative, argumentativ-abwägende Diagnosen eher der Praxis dienen sollen.

Bedingungsmodell von Ehren und Visscher ( 2006 ). Dieses Modell (Abb. 2), das auch in deutschsprachigen Studien für empirische Konzeptualisierung genutzt wurde (z. B. Dedering und Müller 2011; Böhm-Kasper und Selders 2013; Pietsch et al. 2014a), thematisiert verschiedene Bedingungen, die die Reaktion der Schule auf Inspektionen beeinflussen und zu erwünschten bzw. unerwünschten Effekten führen können. Die schulischen Reaktionsweisen werden jedoch nur klassifiziert (z. B. Akzeptanz, Ablehnung) und bieten keine Informationen zu innerschulischen Verarbeitungsprozessen; damit klammert das Modell „letztlich die konkreten Wirkmechanismen aus, die zur Zielerreichung führen“ (Husfeldt 2011, S. 10; vgl. auch Rürup und Lambrecht 2012).

Abb. 2
figure 2

Wirkungsmodell externer Schulevaluation. (Ehren und Visscher 2006)

Prozessmodell von Ehren et al. ( 2013 ). Schulinterne Verarbeitungsprozesse können nach dem Angebots-Nutzungs-Konzept für Unterrichtsentwicklung von Helmke und Hosenfeld (2005) modelliert werden, das allerdings nicht für die Bedingungen der Schulinspektion formuliert wurde (dazu Sommer 2011; Wurster et al. 2013). Böttcher und Keune (2011) konzipieren den Wandlungsprozess, den Schulen im Anschluss an eine Inspektion durchlaufen könnten, anhand von fünf Phasen in der Tradition von Schulentwicklungsmodellen. Ein neuer Vorschlag von Ehren et al. (2013) nimmt die Kritik an Ehren und Visscher (2006) auf und formuliert Annahmen über innerschulische Verarbeitungsprozesse durch folgende Vorgangsweise: Durch die Analyse offizieller Dokumente und Interviews mit Repräsentant/innen der Inspektorate von sechs europäischen Ländern (nämlich der Niederlande, Englands, Schwedens, Irlands, der Tschechischen Republik sowie des österreichischen Bundeslandes Steiermark) wurden die – programmatisch erwünschten – Charakteristika, Prozesse, Wirkungsmechanismen und Effekterwartungen von Schulinspektionen rekonstruiert. Obwohl es sich dabei um ein zwar empirisch gefundenes, aber normatives Wirkungsmodell handelt, hat es – wahrscheinlich weil es ganz zentrale Annahmen einer evidenzbasierten Schulsteuerung thematisiert – Potential für die Forschung (vgl. Abschn. 2.2).

Das Modell (vgl. Ehren et al. 2013, S. 16 ff.) beschreibt einerseits unterschiedliche Merkmale von Inspektionssystemen (linke Spalte in Abb. 3), andererseits ihre intendierten Effekte – sowie aus der Forschung bekannte unerwünschte Effekte (rechte Spalte in Abb. 3). Das Kernstück sind drei – theoretisch explizierbare (Ehren et al. 2015a, S. 9 ff.) – vermittelnde Mechanismen, durch die Inspektionen schulische Entwicklungsaktivitäten stimulieren sollen: Schulinspektionen sollen (z. B. durch Qualitätsrahmen und Ergebnisberichte) Erwartungen aufbauen, was eine gute Schule ausmacht. Der zweite ‚vermittelnde Mechanismus‘ bindet die Wirksamkeit von Schulinspektion daran, dass das Inspektionsfeedback von den inspizierten Schulen wahrgenommen, akzeptiert und weiterverarbeitet wird (Akzeptanz von Feedback). Schließlich hängt die Wirksamkeit von Schulinspektion auch davon ab, dass die Bezugsgruppen von Schulen (z. B. Eltern, Gemeinde) über den Inspektionsvorgang und seine Ergebnisse wissen und Handlungen setzen, die die Schule – durch Druck oder Unterstützung – zur Weiterentwicklung stimulieren (Kenntnisse und Handlungen der Stakeholder).

Abb. 3
figure 3

Konzeptionelles Modell der Schulinspektion. (Ehren et al. 2013, S. 14; eigene Übersetzung)

Diese Mechanismen sind Voraussetzung dafür, dass Schulen Entwicklungs- und Evaluationsaktivitäten setzen (Spalte 3 in Abb. 3), wodurch – gleichsam als schulinterne Zwischenergebnisse von Inspektionen (Spalte 4) – die Entwicklungskompetenzen und -kapazitäten der Schule sowie die Effektivität der Schul- und Unterrichtsbedingungen verbessert werden. Schließlich stellen Kontextbedingungen einen wesentlichen Faktor für das Gelingen von Schulinspektion dar, wofür (in Rückgriff auf die „Bedingungen“ bei Ehren und Visscher 2006) die Kontextmerkmale „Externe Impulse“ und „Schulmerkmale“ stehen.

Entwicklungsmodi. Böttger-Beer und Koch (2008, S. 254 ff.) gehen davon aus, dass Schulinspektionen Entwicklung auf unterschiedliche Art und Weise stimulieren können, je nachdem mit welchen weiteren Zielen sich die Entwicklungsaufgabe verbindet. Dadurch entstehen drei unterscheidbare Entwicklungsmodi: Entwicklung über Wettbewerb, Entwicklung über Konsequenzen (in den beiden Varianten Entwicklung über Unterstützung und über Sanktionen) sowie Entwicklung über Einsicht. Während international alle drei Entwicklungsmodi beobachtbar sind, bezeichnet Rürup (2008) ‚Einsicht‘ als charakteristischen Modus aller Inspektionsverfahren in Deutschland.

Die Entwicklungsmodi können auch als dynamisierende Faktoren in Inspektionsarrangements interpretiert werden (Kemethofer und Altrichter 2014; Altrichter und Kemethofer 2015). Damit sind sie geeignet, den ‚evaluativen Kontext‘, in den Inspektion eingebettet ist (Ozga und Jones 2006) und den sie selbst wiederum ans Schulsystem kommuniziert, zu charakterisieren. In sog. high stakes-Systemen, die in der Regel die Inspektionsergebnisse veröffentlichen und die Leistung von Schulen an Konsequenzen (Sanktionen oder Gratifikationen) knüpfen, ist die Entwicklungsumgebung eher durch ‚Druck‘ und ‚Wettbewerb‘ charakterisierbar, während in low stakes-Systemen auf Entwicklung durch ‚Einsicht‘ und ‚Unterstützung‘ gesetzt wird. Während letztere Entwicklung vornehmlich als informationelles Problem ansehen und damit ‚rationalisieren‘, konzipieren auf Druck basierende Systeme Entwicklung eher als ein motivationales Problem und gehen von einem Bild des Menschen aus, der externe Motivatoren zur Weiterentwicklung seiner Arbeitsumgebung benötigt (Altrichter und Kemethofer 2015).

2.2 Stand der empirischen Forschung

Die wissenschaftliche Beschäftigung mit dem Steuerungsinstrument „Schulinspektion“ hat in jüngster Zeit einen Aufschwung genommen, sodass nicht nur aus England, den Niederlanden und den skandinavischen Ländern, sondern auch aus dem deutschsprachigen Raum relevante Studien vorliegen. Dieses steigende Interesse hat sich auch in Literaturreviews (Husfeldt 2011; Klerks 2012; Ehren et al. 2013; Nelson und Ehren 2014; Scheerens und Ehren 2015; Kotthoff et al. 2016) niedergeschlagen, auf die wir uns im Folgenden stützen und die wir durch aktuelle Veröffentlichungen ergänzen. Wir gruppieren die Aussagen entsprechend der hauptsächlich thematisierten Aspekte von Inspektionen und versuchen – aufgrund der Annahme, dass Schulinspektionen in unterschiedlichen Kontexten unterschiedlich wirken – die Herkunft der Studien jeweils deutlich zu machen.

Einstellungen zu und Akzeptanz von Schulinspektion: Nach der Einführung eines neuen Steuerungsinstruments interessiert, ob dieses von den betroffenen Akteuren akzeptiert wird, weil die Akzeptanz des Verfahrens eine Bedingung der Möglichkeit seiner Wirksamkeit ist. Oft basieren solche Studien auf quantitativen Befragungen (häufig von Schulleitungen). Obwohl es auch in den deutschsprachigen Schulsystemen Reserven gegen die Einführung von Schulinspektionen gab, wurde das Verfahren offenbar nach kurzer Zeit von den befragten Schulleitungen in unterschiedlichen deutschen Bundesländern und in Österreich akzeptiert (Gärtner et al. 2009; Müller 2010; Pietsch 2011; Böhm-Kasper und Selders 2013; Altrichter et al. 2013). Bei einem Vergleich unterschiedlicher Evaluationsinstrumente bezeichneten Berliner und Brandenburger Schulleitungen Interne Evaluationen als nützlicher als Schulinspektionen und Vergleichsarbeiten, wobei Inspektionen eine größere Diagnosegüte als Vergleichsarbeiten zugeschrieben wurde (Wurster et al. 2013, S. 33 ff.; vgl. auch Demski et al. 2012). Qualitative Interviews von Preuß et al. (2012) legen nahe, dass die Schulinspektion als Anlass zur Selbstreflexion verstanden wurde und dass der mit Inspektion verbundene Mehraufwand aus der Sicht von Schulleitungen gerechtfertigt ist, wenn die Inspektion fair abläuft und die Rückmeldung nicht nur Schwächen, sondern auch Stärken objektiv aufzeigt.

Akzeptanz fanden Schwank und Sommer (2012) auch bei Lehrkräften. Schulexterne (z. B. Schulverwaltung, Eltern) erwarten mehr positive Auswirkungen von Schulinspektion als die Berufstätigen (Husfeldt 2011, S. 14). In Studien aus England finden sich mehr Berichte über Belastungen durch den Rechenschaftsdruck durch Schulinspektionen (Brimblecombe et al. 1996; Cuckle und Broadhead 1999), aber auch Aussagen über positive und respektvolle Beziehungen zwischen Evaluierten und Evaluator/innen (McCrone et al. 2007; Dedering und Müller 2011).

Entscheidungsfindung in Inspektionsteams. Ein weiterer Typ von Studien beschäftigt sich mit der Frage, welche Informationsquellen Inspektionsteams heranziehen und wie sie zu ihrem Inspektionsurteil kommen. Lankes et al. (2013; vgl. auch Vaccaro und Lankes 2014) zeigten anhand bayerischer Daten, dass Inspektionsteams Informationsquellen unterschiedlich nutzen. In der Regel werden selbst generierte Daten (Unterrichtsbeobachtung) in Evaluationsberichten stärker gewichtet als schriftliche Befragungen von Lehrkräften, Schüler/innen und Eltern. Die Schulinspektorinnen und -inspektoren sind sich dabei der ihnen zur Verfügung stehenden Ermessensspielräume durchaus bewusst. Basierend auf Interviewaussagen fanden Sowada und Dedering (2014) Hinweise, dass Faktoren, wie etwa das emotionale Befinden oder Insiderwissen, aber auch persönliche Werte in die Begutachtung der Schule einfließen können. Wenn in Inspektionsteams unterschiedliche Bewertungen bestehen, wird in Aushandlungsprozessen versucht, zu einer einvernehmlichen Beurteilung der Schule zu kommen.

Schulische Reaktionen auf Schulinspektion. Qualitative oder quantitative Studien untersuchen meist deskriptiv und durch Selbstberichte von Schulleitungen und Lehrpersonen, welche Handlungen und Maßnahmen Schulen und ihre Bezugsgruppen anlässlich von Inspektionen setzen (wollen). In diesen Arbeiten finden sich variierende Prozentsätze von schulischen Akteuren, die behaupten, Entwicklungshandlungen als Konsequenz von Schulinspektion gesetzt zu haben. Beispielsweise gaben 40 % der von Böttcher und Keune (2011, S. 136) befragten hessischen Lehrpersonen an, nach Inspektionen neue Maßnahmen eingeführt bzw. bestehende verändert zu haben (ähnlich für Hamburg in Diedrich und Pietsch 2013, S. 22). Gärtner et al. (2009) berichteten über Auswirkungen von Schulinspektion auf die interne Evaluation (65 % Zustimmung), die Schulprogrammarbeit (74 %) und den Umgang mit Vergleichsarbeiten (25 %). In belgischen Primarschulen löste Inspektionsfeedback Reflexion im Kollegium aus, enthielt aber keine grundlegend neuen Einsichten über Stärken und Schwächen der Schule (Penninckx et al. 2014).

Ähnliche Ergebnisse liegen auch aus der internationalen Forschung vor (vgl. auch Ehren und Visscher 2008): Bei Chapman (2001) gaben 20 % der befragten englischen Lehrpersonen an, das Inspektionsfeedback als Anlass zur Veränderung ihrer Unterrichtspraxis nehmen zu wollen. Bei Brimblecombe et al. (1996) wollten 40 % der Lehrpersonen den eigenen Unterrichtsstil als Reaktion auf die Schulinspektion ändern, während Änderungen der Inhalte (15 %) oder der Vorbereitung (14 %) deutlich seltener erwogen wurden. Die Bereitschaft zur Veränderungen bestand am ehesten bei Lehrpersonen mit sehr wenig (weniger als ein Jahr) oder sehr viel (über 20 Jahre) Berufserfahrung.

Einen methodisch differenzierteren Zugang bietet die Studie von Matthews und Sammons (2005). Sie fanden in Schulen, die aufgrund unbefriedigender Inspektionsergebnisse der Kategorie „special measures“ zugewiesen worden waren, eine starke Verminderung des Anteils schlechter Unterrichtsstunden (durch Inspektionsbeobachtungen festgestellt); die Reaktionen in anderen Schulen waren dagegen deutlich inkonsistenter.

Bei diesen Studien ist zu fragen, wie weit die Selbstberichte betroffener Akteure über ihre Tätigkeit als valide Indikatoren für den Erfolg von Schulinspektion gelten können. Beispielsweise zeichnen die Aussagen von Schulleitungen (z. B. Müller 2010; Diedrich und Pietsch 2013) regelmäßig ein positiveres Bild als die Aussagen von Lehrkräften (z. B. Böttcher und Keune 2011; vgl. allgemein Kotthoff et al. 2016), wofür Husfeldt (2011, S. 275) höhere soziale Erwünschtheit hinter den Antworten der Schulleiter/innen als Grund vermutet. Darüber hinaus argumentieren viele dieser Studien mit der Quantität der Maßnahmen, ohne deren Qualität zu spezifizieren (was angesichts der Beobachtung von Gärtner et al. 2009, dass eher einfach umzusetzende Maßnahmen realisiert werden, schwer wiegt). Auch kann der Fokus auf ‚Reaktionen auf Inspektionen‘ zu eng zum Verständnis deren Wirkungsweise sein, wenn relevante Entwicklungsschritte als Vorbereitung vor der eigentlichen Inspektion gesetzt werden (vgl. Gärtner et al. 2009).

Effekte von Schulinspektionen. Quantitative Studien benutzen oft umfangreiches Datenmaterial (einschließlich Schülerleistungsdaten) und komplexere Analysestrategien (z. B. regressionsanalytische Verfahren, multiple Fallanalysen, quasi-experimentelle Forschungsdesigns oder Sekundäranalysen von Inspektionsdaten unter Berücksichtigung zusätzlicher Informationen; vgl. Klerks 2012), um Effekte (v. a. bei Schülerleistungen) aufzuzeigen. Studien dieses Typs stammten zunächst vornehmlich aus dem angloamerikanischen Raum und wurden erst in jüngster Zeit auch für deutschsprachige Länder vorgenommen (vgl. Kritik von Pietsch et al. 2014b). Untersuchungen von Cullingford und Daniels (1999), Shaw et al. (2003) und Rosenthal (2004) fanden keine durchgehend positiven Auswirkungen von Inspektionen auf Schülerleistung, während die Ergebnisse von Hanushek und Raymond (2005) sowie Luginbuhl et al. (2009) darauf hindeuten, dass Schulinspektionen Schülerleistungen verbessern können.

In den Untersuchungen von Shaw et al. (2003) sowie Matthews und Sammons (2004) zeigten sich differentielle Effekte (vgl. auch Dedering 2015): Bei über- und unterdurchschnittlich leistungsfähigen Schulen traten nach OFSTED-Inspektionen leichte Verbesserungen der Schülerleistungen ein. Eine systematische Metaanalyse von Klerks (2012) resümierte, dass von Schulinspektionen sowohl positive als auch negative Effekte auf Schülerleistungen ausgingen, die jedoch in jedem Fall eher klein waren.

Mittels zwei Befragungen von Schulleitungen und Lehrpersonen im Abstand von einem Jahr verglichen Gärtner et al. (2014) inspizierte mit nicht inspizierten Schulen in Berlin und Brandenburg. Durch dieses Kontrollgruppen-Designs konnten sie keinen Effekt der Schulinspektion auf die Schulqualität nachweisen (ähnlich bei Gärtner 2011; Böhm-Kasper und Selders 2013).

Pietsch et al. (2013, S. 15) führen das häufige Fehlen belastbarer Effekte von Schulinspektionen auf Mängel früherer Arbeiten zurück. In zwei Studien zeigen sie, dass „bei Einsatz maßgeschneiderter kausalanalytischer Verfahren sowohl Effekte auf Lernzuwächse also auch Leistungstrends von Schülerinnen und Schülern in Hamburg“ aufgrund von Schulinspektionen nachgewiesen werden können (Pietsch et al. 2014a, S. 466). Sie selbst greifen auf einen difference-in-difference-Ansatz zurück und vergleichen Schülerleistungsdaten zu mehreren Messzeitpunkten. Da in beiden Fällen „der Einfluss der Inspektion auf die Leistung von Schülerinnen und Schülern im Fach Deutsch resp. im Leseverständnis höher ausfiel als auf die Leistungen im Fach Mathematik“ (Pietsch et al. 2014a), schlagen sie vor, die innerschulische Informationsverarbeitung und die Kontextbedingungen für Schulentwicklung genauer zu untersuchen.

Effekte unterschiedlicher Merkmale von Inspektionen. Eine Erklärung für die mehrdeutigen Wirkungsdaten könnte darin liegen, dass Schulinspektionen in verschiedenen Ländern aus unterschiedlichen Elementen zusammengesetzt sind. Dafür wäre es interessant, wirkungsvolle von nicht wirkungsvollen Bausteinen unterscheiden zu können. Ehren et al. (2015a) nutzten die Unterschiedlichkeit der von ihnen in sechs europäischen Ländern untersuchten Inspektionssysteme, um die Auswirkung vier verschiedener Inspektionselemente zu vergleichen (u. zw. differenzierte Inspektionen für versagende Schulen; Einbezug von Outcome-Maßen; Anwendung von strafenden Sanktionen; Veröffentlichung von Inspektionsergebnissen). Dabei zeigten sich gleichsinnige Ergebnisse für diese vier Dimensionen, die damit zusammenfassend als high stakes-Inspektionen charakterisierbar sind: Solche Inspektorate waren am effektivsten bei der Stimulierung von Entwicklungsaktivitäten. Allerdings führten diese differenzierten und sanktionierenden Inspektionen auch zu mehr unerwünschten Nebenwirkungen (ähnliche Ergebnisse bei einem Ländervergleich bei Altrichter und Kemethofer 2015). Ein interessanter Punkt ergibt sich, wenn man die „vermittelnden Mechanismen“, durch die Inspektionssysteme ihre Effekte produzieren wollen, analysiert. High stakes-Ansätze beeinflussten den Aufbau von Erwartungen über schulische Qualität und Prozesse, reduzierten aber gleichzeitig die Wahrscheinlichkeit, dass Schulleitungen der Rückmeldung der Inspektionsberichte Aufmerksamkeit widmen und aus dem Inspektionsfeedback Handlungsstrategien für die Weiterentwicklung ihrer Schule ableiten.

High stakes- und low-stakes-Systeme zeigen zwar offenbar ein unterschiedliches Ausmaß an Wirkung, doch basieren sie möglicherweise auf ähnlichen Wirkungsmechanismen. Darauf deutet hin, dass Gustafsson et al. (2015, S. 53) bei ihrer Pfadmodellierung mittels Strukturgleichungsmodell mit Daten sechs verschiedener Inspektionssysteme einen sehr guten Modellfit erzielten. Auch Altrichter und Kemethofer (2015, S. 49), die in einer Mehrgruppen-Analyse englische, schwedische und österreichische Daten verglichen, fanden zwar einige unterschiedliche Wirkungspfade, nicht jedoch grundsätzlich unterschiedliche Wirkungsmodelle. Beide Studien verwendeten Selbstberichte von Schulleitungen aus dem gleichen Forschungsprojekt und orientierten sich bei ihrer Modellierung an Ehren et al. (2013).

Unerwünschte Nebeneffekte von Schulinspektionen. Inspektionen können negative Begleiterscheinungen (z. B. Belastung von Lehrpersonen; Arbeitszeit wird für die Vorbereitung auf die Inspektion statt für Unterricht verwendet) mit sich bringen. Schulen können auch auf Inspektionen mit strategischem Verhalten (z. B. teaching to the test, Verlagerung von Ressourcen, Vernachlässigung von nicht-geprüften Inhalten; vgl. de Wolf und Jansens 2007; Bellmann und Weiß 2009) anstelle von Entwicklungsanstrengungen reagieren, wobei nicht jedes strategisches Verhalten unerwünschte Auswirkungen haben muss.

In Fallstudien von Perryman (2007, S. 186) führten englische Schulinspektionen zu Kontrollverlust auf Lehrerseite und beeinträchtigten ihr Wohlbefinden. Ehren und Swanborn (2012) analysierten die nicht-intendierten Konsequenzen des niederländischen Rechenschaftssystems: In 6 % der Schulen manipulierte zumindest eine Lehrperson die Testergebnisse der Schüler/innen. In etwa 30 % der Schulen wurden Schüler/innen, von denen schlechte Leistungen zu erwarten waren, von der Teilnahme an Leistungstests befreit. Unerwünschte Nebenwirkungen scheinen mit Kontextbedingungen zu variieren. In high stakes-Systemen mit hohem Rechenschaftsdruck berichten Schulleitungen häufiger über strategisches Verhalten als in low stakes-Systemen (Altrichter und Kemethofer 2015; Ehren et al. 2015a): ‚Legitime‘ Modelle werden übernommen (z. B. Einschränkung des Curriculums auf geprüfte Inhalte), die Innovations- und Risikobereitschaft nimmt ab.

Prozesse und vermittelnde Mechanismen von Schulinspektionen. Das oben vorgestellte Wirkungsmodell von Ehren et al. (2013) wurde durch Schulleiterbefragungen in sechs europäischen Ländern (Niederlande, England, Irland, Schweden, Tschechische Republik, Österreich) untersucht. Die Ergebnisse einer Strukturgleichungsmodellierung von Gustafsson et al. (2015) zeigten, dass der „Aufbau von Erwartungen“ durch Inspektion eine wichtige Determinante von Entwicklungs- und Selbstevaluationsaktivitäten sein kann (ähnlich Ehren et al. 2015b für die Niederlande; Kemethofer et al. 2015 für Österreich und die Schweiz). „Wissen und Handlungen von Bezugsgruppen“, der zweite postulierte Mechanismus, hängt ebenfalls deutlich mit der Erwartungsbildung in Schulen zusammen. Entgegen der Annahmen des Rahmenmodells scheinen Bezugsgruppen ihren Einfluss auf Entwicklungsaktivitäten aber früher auszuüben: sie motivieren Schulen eher, Inspektionsstandards und Feedback zu akzeptieren, statt nach der Veröffentlichung der Inspektionsberichte Aktivitäten zu stimulieren. Abweichend von den normativen Vorstellungen der Proponenten von Schulinspektion (z. B. van Bruggen 2010) beeinflusst der dritte vermittelnde Mechanismus, die „Akzeptanz und Verarbeitung von Inspektions-Feedback“, in dieser Studie keine weiteren Entwicklungsaktivitäten.

Ehren et al. (2015a, S. 20 ff.) erklären die Bedeutung der Mechanismen „Aufbau von Erwartungen“ und „Wissen und Handlungen von Bezugsgruppen“ durch Theorien des Neo-Institutionalismus und der sozialen Koordination. Die Suche der Schulen nach Legitimität und der normative Druck, der durch Inspektionsstandards und -prozeduren erzeugt wird, sind demnach wichtige Triebkräfte für die Reaktion von Schulen auf Inspektionen. Inspektionen dürften einen wichtigen Effekt daher vor dem Inspektionsbesuch haben (vgl. auch Cullingford und Daniels 1999; Gärtner et al. 2014, S. 16), wenn sich Schulen durch Selbstevaluationen und Entwicklungshandlungen für die Beurteilung vorbereiten und sich damit auf eine Linie mit den Inspektionsstandards bringen. Der Mehrwert, der durch die „Verarbeitung von Inspektions-Feedback“ für Schulentwicklung erwartet wird, ist dagegen voraussetzungsvoll und nicht einfach zu lukrieren. Die normativen Botschaften, die im Feedback stecken, sind nach dem Inspektionsprozess keine Neuigkeit für die betroffenen Schulen; der Informationsgehalt des Inspektionsberichts ist schwierig zu verarbeiten und in Entwicklungshandlungen umzusetzen, zumal für jene Schulen, die aufgrund schlechter Ergebnisse unter besonderem Handlungsdruck stehen.

Dennoch scheint die produktive „Verarbeitung von Inspektions-Feedback“ nicht unmöglich zu sein, worauf eine Arbeit von Kemethofer et al. (2016) hindeutet, die das Modell von Ehren et al. (2013) in einer Längsschnittbetrachtung mit schwedischen und österreichischen Daten überprüft: Dabei zeigt sich, dass Inspektionen in beiden Ländern sehr wohl Prozesse der „Akzeptanz und Verarbeitung von Inspektions-Feedback“ in dem Jahr, das auf den Inspektionsvorgang an der jeweiligen Schule folgt, stimulieren. Eine Erklärung für die unterschiedlichen Ergebnisse bietet die methodische Anlage der jeweiligen Studien: Theoretisch und empirisch macht es Sinn anzunehmen, dass der „Aufbau von Erwartungen“ vor und während der Inspektionen stattfindet, was durch Querschnittsanalysen erfasst werden kann. Die „Verarbeitung von Inspektions-Feedback“ benötigt jedoch Zeit und entfaltet sich nach der Inspektion, was Längsschnittanalysen erfordert. Eine mögliche Konsequenz ist also, dass Inspektionen sowohl vor als auch nach dem Inspektionsvorgang Entwicklungsprozesse stimulieren könnten, allerdings durch unterschiedliche Mechanismen, deren relatives Gewicht bisher allerdings nicht klar ist.

2.3 Offene Fragen und Forschungsdesiderate

Die Zahl empirischer Studien hat stark zugenommen, und sie haben auch einige konvergierende Ergebnisse erbracht: Rechenschaftsdruck stimuliert Entwicklungsaktivitäten, gleichzeitig aber auch unerwünschte Nebeneffekte. Die entwicklungsförderliche Wirkung von Inspektions-Feedback ist (wie auch aus der Forschung zur Unterrichtsentwicklung durch Datenfeedback bekannt; vgl. Visscher und Coe 2003; Altrichter et al. 2016) offenbar nicht so einfach zu realisieren, wie ursprünglich gedacht, was auf die Bedeutung von Unterstützungssystemen verweist: Viele Schulen, v. a. aber solche, bei denen ernste Qualitätsprobleme konstatiert werden, benötigen für produktive Entwicklung mehr als Inspektions-Feedback, also beispielsweise handlungsorientierende Hinweise und Prozessbegleitung.

Zentrale Fragen, insbesondere die Kernfrage nach den Effekten auf Schülerleistungen, sind aber weiter ungeklärt (vgl. Kotthoff et al. 2016, S. 354). Für die Träger von Inspektionssystemen, die sich aktuell mit Kosten-Nutzen-Fragen der relativ aufwendigen ‚Inspektionen‘ konfrontiert sehen, ist offen, ob sie Konstellationen forcieren sollen, in denen Schulentwicklung „durch die Konfrontation der Schule mit möglichst objektiven und validen Daten“ stimuliert wird, oder eher solche, in denen dies „durch ein kollegiales, auf Abwägung und Argumentation setzendes Peer Review“ geschehen soll (Rürup 2008, S. 475 f.).

Forschungsdesiderate liegen unserer Meinung in folgenden Bereichen: Inspektionen sind komplexe Konstellationen von Einzelmerkmalen in unterschiedlichen Kontexten; zusätzlich finden laufend Veränderungen der Inspektionskonzepte statt, bevor die Forschung aktuelle Konstellationen erfasst hat. Auch aus diesen Gründen ist die Weiterentwicklung der theoretischen Modelle, mit denen Schulinspektion, ihre Merkmale und die durch sie stimulierten Prozesse und Effekte differenzierter untersucht werden können, ergiebiger, als immer wieder die black boxes unterschiedlicher Inspektionsmodelle zu vergleichen. Lohnend erscheint dabei die „Zusammenführung der bislang vorliegenden theoretischen Annahmen zur Wirkungsweise von Schulinspektion mit weiteren theoretischen Annahmen, wie sie z. B. aus der Schul- und Unterrichtsentwicklung aber auch aus der Forschung zur Rezeption und Verarbeitung von Rückmeldungen aus Evaluationen vorliegen“ (Pietsch et al. 2013, S. 15). Solche Modelle sollten (i) (als differentiell wirksam angenommene) Elemente von Inspektionssystemen, (ii) schulische Verarbeitungsprozesse des gesamten Inspektionsvorgangs (also auch der Vorbereitung auf Inspektion, nicht nur der Verarbeitung von externem Feedback) sowie (iii) die systemischen Kontextbedingungen beschreiben und auch erlauben, differenzielle Wirkungsweisen für unterschiedliche Zielgruppen zu untersuchen. Aus unserer Sicht bietet das Modell von Ehren et al. (2013) eine brauchbare Basis für die theoretische Weiterentwicklung.

Bisher hat man sich dem Phänomen Schulinspektion häufig über die Befragung von Schulleitungen und Lehrpersonen angenähert, deren Potential ausgeschöpft scheint. Diese Selbstberichte müssen häufiger mit Daten aus anderen (unabhängigen) Quellen (z. B. Leistungs-, Beobachtungs- und Daten von anderen Bezugsgruppen) verknüpft werden. Qualitative Studien, die die Vorbereitung, Durchführung und Nachbereitung von Inspektionsprozessen an Schulstandorten längerfristig beobachten und begleiten, könnten vertiefte Einblicke in die (kognitiven und sozialen) Reflexions- und Entwicklungsprozesse anlässlich von Schulinspektion sowie in die Qualität der erwogenen und realisierten Entwicklungsmaßnahmen erlauben (vgl. Thiel et al. 2013, S. 14) und dadurch die Theoriebildung unterstützen.