1 Einleitung und Arbeitsdefinitionen

Die nationale und internationale Diskussion über das Verhältnis von Bildungsforschung und Bildungspolitik einerseits und Bildungsforschung und Bildungspraxis andererseits ist kontrovers und insbesondere in Deutschland nicht einfach zu ordnen (vgl. Schrader 2014 und den Beitrag von Tillmann in diesem Band). Die Diskussion wird mit wissenschaftstheoretischen, methodischen, normativ-bildungstheoretischen, politischen, wissenschafts- und disziplinpolitischen und gelegentlich auch mit moralischen Argumenten geführt. Sie unterscheidet sich strukturell vom üblichen innerwissenschaftlichen Diskurs forschender Disziplinen, auch wenn es zurückhaltende und auf Konsens angelegte Versuche der Rückbindung gibt (z. B. Shavelson und Towne 2002 für das National Research Council [NRC]). Wenn man angesichts dieser Situation etwas über die Leistungen und die Leistungsgrenzen der empirischen Bildungsforschung – und zwar am Beispiel der Large-Scale-Assessment-Studien (LSA) – sagen und sich auf diese Weise auch mit Kritiken, die in diesem Band vorgetragen wurden, auseinandersetzen will , ist man gut beraten, zunächst eine Verständigung über die Sache, die verhandelt werden soll, herbeizuführen. Dies soll im Folgenden im ersten Schritt geschehen. Im zweiten Schritt soll versucht werden, im Rekurs auf die unterschiedlichen Handlungslogiken von Politik und Wissenschaft einen metatheoretischen Rahmen zu skizzieren, in dem die Leistungsfähigkeit, vor allem aber auch die Leistungsgrenzen empirischer Bildungsforschung beschrieben werden können. Im dritten Schritt soll die Ausdifferenzierung von unterschiedlichen Wissenstypen und ihre vermeintlich unterschiedliche Handlungsrelevanz im Anschluss an Goldthorpe’s (2001) handlungstheoretischer Konzeption von Verursachung als eines generativen Prozesses diskutiert werden. Dies wird – hoffentlich – den Raum schaffen, um auch unterbewertete Leistungen der empirischen Bildungsforschung, insbesondere der Large-Scale-Assessment-Studien, an einigen typischen Beispielen würdigen zu können und die Übertragung von Erkenntnishierarchien (Higgins und Green 2008; vgl. Bromme et al. 2014; S. 12) in den Bereich der Erforschung sozialer Phänomene und Prozesse zumindest infrage zu stellen. Zum Abschluss soll noch einmal die Frage des Verhältnisses von Bildungsforschung und Bildungspolitik konstruktiv aufgenommen werden.

Als Arbeitsdefinition empirischer Bildungsforschung soll ein Vorschlag der Senatskommission „Impulse für die Bildungsforschung“ der Deutschen Forschungsgemeinschaft (DFG) übernommen werden (Mandl und Kopp 2005). Danach ist empirische Bildungsforschung ein interdisziplinäres Forschungsfeld, das „die Voraussetzungen, Prozesse und Ergebnisse von Bildung über die Lebensspanne innerhalb und außerhalb von Institutionen“ untersucht (Prenzel 2005). Bildungsforschung untersucht Bildungsprozesse – einschließlich ihrer Ziele und Ergebnisse – also nicht nur auf individueller Ebene, sondern auch in sozialen Zusammenhängen, die eine Mehrebenenstruktur aufweisen und von der sozialen Nahumwelt wie der Familie und dem Freundeskreis über institutionelle Kontexte bis zu gesamtgesellschaftlichen Zusammenhängen und ihren Veränderungen reichen. In einer diachronen Perspektive schließt empirische Bildungsforschung auch historische Fragestellungen ein. In der Forschungspraxis behandelt die empirische Bildungsforschung in der Regel spezifische Fragen, die im Anschluss an die einschlägige Forschungsliteratur und oftmals auch in Referenz zu politischen oder praktischen Problemlagen theoretisch entwickelt und begründet werden (vgl. Köller 2014). Diese Definition von Bildungsforschung ist bewusst breit gewählt und enthält weder thematische noch methodische Präferenzen.

Bildungsforschung in dieser Konzeption impliziert einen normativ offenen und für empirische Forschung anschlussfähigen Bildungsbegriff. Im Anschluss an Tenorth (1994, 2004; vgl. auch den Beitrag von Tenorth in diesem Band) soll im Folgenden unter Bildung der individuelle, aber sozial und gesellschaftlich gerahmte und im sozialen Austausch sich vollziehende Prozess der Sicherung der Voraussetzungen für gesellschaftliche Teilhabe, der Kultivierung von Lernfähigkeit und der Selbstkonstruktion der Identität im Lebenslauf verstanden werden. Diese Definition ist mit einem psychologischen Entwicklungsverständnis, nach der menschliche Entwicklung eine individuelle und soziale Ko-Konstruktionsleistung darstellt, kompatibel (Bronfenbrenner 1979; Lerner 1984; Baltes et al. 1998). Sie ist auch offen für nichtlineare und multidirektionale Entwicklungsverläufe. Die leitende Fragestellung empirischer Bildungsforschung ist also: „Wie ist Bildung in ihrer historischen Ausprägung rekonstruierbar und möglich?“, nicht aber: „Wie soll sie sein?“.

Im vorliegenden Beitrag sollen Leistungen, Leistungsfähigkeit und Leistungsgrenzen von Large-Scale-Assessment-Studien als Teil der empirischen Bildungsforschung diskutiert werden. Dies verlangt ein gemeinsames Verständnis über das, was unter LSA verstanden werden soll. Wir wählen eine Arbeitsdefinition, nach der unter Large-Scale Assessments Untersuchungen subsumiert werden, die (1) domänenspezifische kognitive Leistungen nach gültigen psychometrischen Standards erfassen, (2) auf Stichproben beruhen, die für ausgewählte Altersgruppen und größere Gebietseinheiten repräsentativ sind und ausreichend Testpower bieten, um Befunde praktischer Bedeutsamkeit zufallskritisch abzusichern, und die (3) Durchführungs- und Auswertungsobjektivität gewährleisten. LSA-Studien können als Querschnitt- oder Längsschnittuntersuchungen angelegt und als Beobachtungsstudien, quasi-experimentelle Untersuchungen oder als randomisierte Feldexperimente konzipiert sein. International vergleichende und auf Dauerbeobachtung angelegte Untersuchungen wie Program for International Student Assessment (PISA) der Organisation for Economic Cooperation and Development (OECD), Progress in International Reading Literacy Study (PIRLS) oder Trends in International Mathematics and Science Study (TIMSS) der International Association for the Evaluation of Educational Achievement (IEA) sind ebenso wie die regelmäßigen Überprüfungen der Bildungsstandards in Deutschland (BISTA) Spezialfälle von LSA. Die flächendeckenden Vergleichsarbeiten der Bundesländer (VERA) gehören mit Ausnahme der Erhebungen in Hamburg nicht zu den LSA.

Tab. 1 gibt einen Überblick über die wichtigsten in den vergangenen beiden Dekaden in Deutschland oder auch in Deutschland durchgeführten LSA. Die Übersicht zeigt in der Tat eine bemerkenswerte Aktivität auf diesem Forschungsfeld, die umso erstaunlicher ist, wenn man sich an die Forschungsabstinenz auf diesem Gebiet vor allem in den 1980er- und auch noch in den 1990er-Jahren erinnert. Auffällig ist ferner, dass die Zahl der auf Dauer gestellten Monitoring-Studien relativ gering ist. Es handelt sich um PISA, das internationale Grundschul-Monitoring PIRLS und TIMSS sowie die Überprüfung der Bildungsstandards in der Grundschule und der Sekundarstufe (BISTA). Gleichzeitig wurde vor allem in den vergangenen zehn Jahren eine erstaunliche Anzahl von Längsschnittstudien begonnen, die teils abgeschlossen wurden, teils noch fortgeführt werden, die eine bisher nicht verfügbare Datengrundlage für die Analysen von Bildungsprozessen bieten. Es steht außer Frage, dass es sich hier um ein hoch aktives und auch publikationsstarkes Forschungsgebiet handelt. Dennoch ist dieses Forschungsgebiet in der Bildungsforschung nicht dominant, andere Forschungsgebiete können einen ähnlichen Anstieg der Dynamik in den letzten zehn bis zwanzig Jahren verzeichnen. Dazu gehören u. a. die generische und vor allem auch die domänenspezifische Unterrichtsforschung, die ein Gebiet der Zusammenarbeit von Fachdidaktiken und der pädagogischen Psychologie ist, die Untersuchung von Entwicklungsprozessen im frühen Kindes- und Vorschulalter, die psychologische Altersforschung, die Professionsforschung, aber auch die qualitative und quantitative Institutionsforschung. In all diesen Bereichen werden auch Large-Scale-Assessment-Studien als Instrumente benutzt, sie machen jedoch nicht den Kern der Forschungstätigkeit aus. Die in Deutschland auf dem Gebiet der Bildungsforschung zu verzeichnende Steigerung der Forschungsintensität, der wissenschaftlichen Produktivität und des internationalen Einflusses ist kein Proprium von Large-Scale Assessments (Jones et al. 2010; Köller 2014; Botte et al. 2015; Schui und Krampen 2015; Hannah Greenbaum et al., 2016).

Tab. 1 Wichtige Large-Scale-Assessment-Studien1

2 Innerwissenschaftliche Evidenz als Kriterium der Beurteilung von Forschungsleistungen

Empirische Forschung erzeugt Daten im Rahmen von Theorien, Modellen, theoretischen Fragestellungen und Hypothesen. Zu innerwissenschaftlicher „Evidenz“ werden – wie Bromme et al. (2014) richtig herausstellen – Befunde dann, wenn sie im Licht der theoretischen Fragestellungen für oder gegen Annahmen interpretiert werden. „In diesem Sinne gibt es keine Evidenz ,an sich‘, sondern nur Evidenz ,für‘ oder ,gegen‘ Aussagen oder Vermutungen.“ (Bromme et al. 2014, S. 7). Dies gilt auch für rein deskriptive Befunde, die Sinn und Bedeutung erst durch ihre Interpretation in einem wie auch immer elaborierten konzeptuellen Rahmen erhalten. Innerwissenschaftliche Evidenzen sind Geltungsbehauptungen. Dies impliziert auch, dass nur Fragestellungen Gegenstand empirischer Forschung sein können, die prinzipiell an der Realität scheitern können. Wie belastbar eine Evidenz oder Geltungsbehauptung ist, entscheidet sich im innerwissenschaftlichen, kommunikativen Validierungsprozess. Der Validierungsprozess beginnt mit der Publikation und der Überwindung unterschiedlich hoher Zugangshürden zu Publikationsorganen, deren Abstufung und Unterschiedlichkeit in der Regel auch Außenseiterpositionen Chancen auf Veröffentlichungen eröffnen, wenn auch die Rezeptionschancen variieren. Der eigentliche Validierungsprozess vollzieht sich dann in der Rezeption, die im Modus des Anschlusses und der Kritik – in der Regel in Kombination von beidem – oder auch der Nichtbeachtung erfolgt. Die dem wissenschaftlichen Betrieb zugrunde liegende Handlungslogik lässt sich im Anschluss an Luhmann (1990) knapp als Suche nach Wahrheit unter den Bedingungen institutionalisierten Zweifels beschreiben. Im praktischen Forschungsprozess stehen Innovativität und damit der Zweifel besonders hoch im Kurs. Das kann für Außenstehende den Eindruck erwecken, dass Wissenschaft im Wesentlichen eine Sammlung konkurrierender Geltungsbehauptungen sei (und Politik und mediale Öffentlichkeit haben gelernt, damit in kritischer Attitüde gegenüber der Wissenschaft in ihrer eigenen Handlungslogik zu spielen). Für Kohärenz und Kumulativität sorgen jedoch im Hintergrund der Anschluss an und die Auseinandersetzung mit der vorgängigen Forschungslage (vgl. Bromme et al. 2014). Besonders in den Sozial- und Humanwissenschaften stellen Forschungsreviews Haltepunkte dar, an denen Kumulativität sichtbar wird.

Maßstab der innerwissenschaftlichen Bewertung von Untersuchungen ist ihr Beitrag zur Erkenntnisproduktion, der diskursiv und in Referenz auf wissenschaftliche Regeln und Methoden im Rezeptionsprozess ermittelt wird. Dies gilt im Prinzip auch für angewandte Forschung oder nutzeninspirierte Grundlagenforschung (use inspired basic research) (Stokes 1997; Mandl und Kopp 2005; Schrader 2014). Hier erfolgt die Selektion der Fragestellung nicht allein und oftmals auch nicht primär an der innerwissenschaftlichen Forschungslage, sondern auch unter politischen, sozialen oder praktischen Relevanzgesichtspunkten. Dennoch wird über die Qualität der Forschung auch in diesen Fällen im innerwissenschaftlichen Diskurs des Validierungsprozesses entschieden.

Wählt man diese innerwissenschaftliche Perspektive für die Beurteilung der Leistungen empirischer Bildungsforschung, lassen sich leicht Forschungsgebiete identifizieren, in denen in den letzten beiden Jahrzehnten systematische und kumulative Erkenntnisgewinne zu verzeichnen sind, an denen auch die Forschung in Deutschland Anteil hat (vgl. Köller 2014). Es sollen drei Felder beispielhaft genannt werden. Das erste Gebiet sind die LSA selbst, die an dieser Stelle nur gestreift werden. Hier geht erhöhte Sensibilität für die theoretische Fundierung der erfassten Konstrukte mit wachsender Kenntnis der methodischen Probleme von Trendmessungen mit komplexen Rotationsdesigns einher. Die wichtigsten Leistungen sind wohl die fachdidaktische Fundierung insbesondere der neueren Tests (z. B. BISTA), der Transport von Papier-und-Bleistift-Instrumenten auf Computerplattformen und die Entwicklung intelligenter Aufgaben, die das Potenzial der Rechner nutzen, sowie eine gezielte und begründete Reduktion der Komplexität von Testdesigns. Im Bereich von Lehren und Lernen und der Unterrichtsforschung – dem zweiten Beispiel – sind mit der Differenzierung von Sicht- und Tiefenstrukturen, der Berücksichtigung der Multikriterialität von Instruktionsprozessen, der Identifikation von Basis-Dimensionen qualitätsvollen Unterrichts und der Ausarbeitung des Konzepts der domänenspezifischen kognitiven Aktivierung sowie dem Lernen in interaktiven Lernumgebungen sichtbare Erkenntnisfortschritte erreicht worden (Klieme et al. 2001; Seidel und Shavelson 2007; Helmke 2009; Kunter und Trautwein 2013; Kunter und Voss 2013; Seidel und Reiss 2014; Leutner et al. 2014; Seidel 2014). Dazu haben auch die Fachdidaktiken, insbesondere die Mathematik- und Naturwissenschaftsdidaktik beigetragen. Aber auch auf der Ebene der mikrogenetischen Analyse von Lernprozessen sind z. B. mit den Untersuchungen zum Verständnis naturwissenschaftlicher Konzepte, dem mathematischen Modellieren, den kognitiven Integrationsleistungen beim Lesen, dem Lernen mit ausgearbeiteten Beispielen oder der Nutzung von Lernstrategien kumulative Erkenntnisgewinne zu verzeichnen, die auch zu einem revidierten Gesamtverständnis von Lehren und Lernen beigetragen haben (Sawyer 2006; Mayer 2008; Renkl 2008; Nückles und Wittwer 2014). Als drittes Gebiet soll die pädagogische Professionsforschung erwähnt werden, die sich in Deutschland zu einem aktiven Forschungsfeld mit internationaler Ausstrahlung entwickelt hat. Im Rahmen eines generischen Modells professioneller Kompetenz hat mittlerweile eine ganze Serie von Untersuchungen zu einem neuen und fundierteren Verständnis der Bedeutung professioneller Kompetenzen für die Qualität des Unterrichts und den Wissenserwerb und die Persönlichkeitsentwicklung von Schülerinnen und Schülern geführt (Baumert und Kunter 2006; Blömeke et al. 2010; Kunter et al. 2013; Kunter und Voss 2013; Blömeke und Delaney 2014; König et al. 2015; Lohse-Bossenz, Kunina-Habenicht, Dicke, Leutner & Kunter 2015; Tillmann 2015; Voss et al. 2015; Blömeke et al. 2016; König und Kramer 2016; König et al. 2016). Gleichzeitig haben diese Forschungsergebnisse aber auch darauf aufmerksam gemacht, wie wenig wir über die Mechanismen wissen, die professionelles Wissen, Überzeugungen und motivationale Orientierungen mit der mentalen Organisation des praktischen Könnens und dem praktischen Handeln verbinden. In der Erziehungswissenschaft gibt es – wie oft – kluge und treffende Kritik (z. B. Neuweg 2015a, 2015b; vgl. auch Herzog in diesem Band), aber wenig Forschung (vgl. aber Oser et al. 2012; Holzberger et al. 2016). Beiträge kommen eher aus der Psychologie und betreffen oft andere Gebiete professionellen Handelns.

3 Wissenschaftliche Befunde und die Logik bildungspolitischen Handelns

Ob Erkenntnisse der empirischen Forschung politische oder praktische Relevanz haben, wird nicht innerwissenschaftlich entschieden, sondern hängt davon ab, ob eine „Evidenz“ in das Aufmerksamkeitsraster der Referenzsysteme fällt und in der Logik politisch-administrativen bzw. pädagogischen Handelns interpretiert und reformuliert und letztlich in die politische Agenda bzw. das praktische professionelle Handeln integriert werden kann. Wichtige Vermittler zwischen Wissenschaft und Politik bzw. Wissenschaft und professioneller Praxis sind die mediale und zivilgesellschaftliche Öffentlichkeit bzw. die akademische und staatliche Aus- und Fortbildung, die politische und professionelle Aufmerksamkeit vorstrukturieren. Wer meint, dass innerwissenschaftliche Evidenz direkte handlungsanleitende Funktion für Politik und Praxis haben könne oder gar die Voraussetzung rationalen Handelns sei, übersieht, dass aus einer wissenschaftlichen Beschreibung oder Erklärung keine eindeutige Konstruktionsregel für praktisches Handeln folgt, sondern bestenfalls Handlungsoptionen vorgezeichnet werden, die je nach den normativen Vorstellungen über das Wünschenswerte und der Beurteilung des Möglichen ganz unterschiedlich bewertet werden können (Bromme und Kienhues 2014). Gleichzeitig übergeneralisiert er/sie die Logik wissenschaftlichen Handelns und verkennt, dass andere gesellschaftliche Subsysteme unterschiedlichen Handlungsrationalitäten folgen.

Folgt man wiederum Luhmann (2000), lässt sich die Handlungslogik der Bildungspolitik als Herstellung kollektiv bindender Entscheidungen beschreiben, und zwar – so muss man hinzufügen – unter den Bedingungen einer volatilen Öffentlichkeit und einer professionellen Praxis, die auf operativer Ebene einer eigenen autonomen Handlungslogik folgt. Dies bedeutet, dass politische Gestaltungsprogramme, auch wenn es sich nur um die Aufrechterhaltung des Status quo handelt, immer auch die Bedingungen des Machterhalts zu berücksichtigen haben, damit nicht als Folge der Durchsetzung von Entscheidungen die demokratische Legitimationsbasis des Handelns selbst in Gefahr gerät (Luhmann 1975). Und selbst bei Umsetzung der Entscheidung ist ungewiss, ob die erwünschte Wirkung auch tatsächlich eintritt. Gleichzeitig stehen alle Gestaltungsmaßnahmen, die nicht nur die institutionellen Rahmenbedingungen pädagogischen Handelns verändern, sondern auch das Handlungsprogramm auf operativer Ebene optimieren wollen, unter der Restriktion strukturell begrenzter Durchsetzbarkeit von bürokratischen Entscheidungen in professionellen Handlungskontexten. Kommunikatives Handeln lässt sich nicht anordnen. Politisches Handeln ist – mit oder ohne Wissenschaft – Handeln unter Unsicherheit. Dabei ist die Bildungspolitik doppelter Beobachtung ausgesetzt: extern durch die mediale und zivilgesellschaftliche Öffentlichkeit, die Themen in schwer berechenbarer Weise politisieren kann, und intern durch eine professionelle Lehrerschaft, die selbst organisiert und kollektiv sprechfähig ist.

Es steht außer Frage, dass Politik und Verwaltung, um überhaupt handlungsfähig zu sein, auf kontinuierliche und vor allem auch auf vorausschauende Information über die Funktion und die Funktionsfähigkeit des Bildungssystems angewiesen sind. Dazu gehören auch wissenschaftliche Informationen, vor allem dann, wenn im Wissenschaftssystem selbst Forschungsergebnisse zur Leistungsfähigkeit des Bildungssystems erzeugt werden, die öffentliches Interesse finden und politisiert werden können (vgl. Tillmann et al. 2008; Kuhlmann 2012). In den vergangenen Jahrzehnten haben in Deutschland die Bildungsverwaltungen aller Länder Systeme der quantitativen und qualitativen Dauerbeobachtung und damit verbunden der Qualitätssicherung institutionalisiert. Dass Bildungsverwaltungen von demografischen Schwankungen oder Veränderungen der Bildungsnachfrage überrascht werden, wie dies noch in den 1960er-Jahren geschehen konnte, ist heute schwer vorstellbar. Die Einheiten können als Abteilungen oder Referate in die Ministerialverwaltung selbst integriert, in nachgeordnete Dienststellen ausgelagert oder in selbstständigen wissenschaftlichen Einrichtungen, die aber staatlicher Kontrolle unterliegen – wie z. B. das IQB in Berlin oder einige Staatsinstitute der Länder –, institutionalisiert sein. Dabei kann die Bildungsverwaltung ihre Informationen auch selbst im Modus der Wissenschaft erzeugen oder erzeugen lassen. Die Kommunikation mit Wissenschaft ist unterschiedlich organisiert, in jedem Fall aber auf Dauer gestellt. In den Planungs- und Qualitätssicherungseinheiten werden potenziell steuerungsrelevante Informationen aufbereitet, fortgeschrieben und politisch interpretiert (vgl. Tillmann et al. 2008). Damit verfügen die Länderverwaltungen über Schnittstellen zur Wissenschaft, die in ihrer Selektion von Themen und der Rekontextualisierung von Befunden an die Funktionslogik des politischen Systems gebunden sind, ohne auf die Durchführungsstandards qualitätsvoller Forschung verzichten zu müssen.

Darüber hinaus haben Bund und Länder nach der Föderalismusreform I im Jahre 2006 auf der Grundlage des neuen Artikels 91b Abs. 2 GG ein Bundesländer übergreifendes und international anschlussfähiges Instrument der Dauerbeobachtung des Bildungssystems geschaffen, das gleichzeitig die Kommunikation zwischen Bund, Ländern und der Bildungsforschung in einer weit wirksameren Weise verstetigt, als es die Bund-Länder-Kommission (BLK) im Rahmen der Gemeinschaftsaufgaben jemals zuvor geleistet hatte (Verwaltungsabkommen vom 27. Mai 2007; BAnz. S. 5863). Mit der Einrichtung einer gemeinsamen „Steuerungsgruppe“ wurde ein organisatorischer Ort für eine relativ systematische Verständigung zwischen Politik und Wissenschaft über die Selektion wichtiger Probleme und Fragestellungen, die Ordnung und Integration von Wissen und die Identifikation von Wissenslücken gefunden. Diese Verständigung findet ihren Niederschlag auch in der Auswahl und Fortschreibung der Indikatoren und den thematischen Schwerpunktsetzungen des Nationalen Bildungsberichts (Baumert und Füssel 2012).

Insgesamt ist hier ein Kommunikationssystem zwischen Politik und Wissenschaft entstanden, das, wie Tenorth (2014, 2015) in seiner kleinen Geschichte der politischen Beratung feststellt, die fallbezogene Beratung durch in der Regel gemischte Kommissionen nicht ersetzt, sondern in ein neues, weitaus komplexeres Netzwerk einfügt. Die bemerkenswerte Funktionsfähigkeit dieses Systems beruht im Kern auf der beiderseitigen Anerkennung der Differenz der Handlungslogiken von Politik und Wissenschaft und damit der Akzeptanz unterschiedlicher Kontextualisierung von Problemen und Befunden. Politik und Wissenschaft können sich über die Relevanz von Problemstellungen verständigen, prozedieren jedoch für die Erkenntnisgewinnung und die Erkenntnisnutzung im jeweils eigenen Rationalitätsmodus. Belehrung – auch in Gestalt der in der Erziehungswissenschaft beliebten „Kritik“ (vgl. Bellmann 2015; Heinrich 2015) – ist hier keine Form erfolgreicher, d. h. anschlussfähiger Kommunikation.

Die Akzeptanz unterschiedlicher Handlungslogiken impliziert aber auch die Anerkennung der prinzipiellen Öffentlichkeit wissenschaftlicher Erkenntnis. Dies bedeutet, dass immer mit der medialen Öffentlichkeit als einem dritten Mitspieler zu rechnen ist, der Befunde nach eigenen Relevanzgesichtpunkten selektiv wahrnimmt und interpretiert und auch interpretieren darf. Dies ist eine dauerhafte Quelle potenzieller politischer Dynamik, die je nach Betroffenheit nicht nur Freude bei politisch Handelnden auslöst. Die Situation wird komplexer. Dies legt die Versuchung nahe, der Wissenschaft, die zur Steigerung der Komplexität beigetragen hat, zumindest rhetorisch auch (Mit-)Verantwortung für die Lösung des Problems zuzuweisen z. B. in der Erwartung, endlich „abgesichertes und anwendbares Steuerungswissen“ (Meyer-Hesemann 2008) zur „rationalen Begründung … bildungspolitischer Entscheidungen“ (BMBF 2007, S. 4) zu erzeugen.

Wissenschaftliche Befunde ersetzen aber keine politischen Entscheidungen und geben keine linearen Handlungsanleitungen. Auf jede innerwissenschaftliche Evidenz gibt es mindestens zwei und in der Regel mehrere politische oder praktische Antworten. Sozialwissenschaftliche Befunde können Aufmerksamkeit vorstrukturieren, möglicherweise auch orientieren und bestenfalls Optionen unter der Perspektive von Umsetzbarkeit, möglichen Folgen und Nebenfolgen beschreiben. Darüber hinaus sichert empirische Evidenz in keinem Fall die praktische Umsetzung von politischer Entscheidung in einem professionellen Handlungssystem. Im Grunde ist allen Akteuren im politischen System dieser Sachverhalt klar, auch wenn in politischen Handlungsprogrammen der empirischen Bildungsforschung mehr zugemutet wird. So formuliert etwa Meyer-Hesemann, der sich für die Bundesländer Handlungswissen wünscht, auch: „‚Wissen für Handeln‘ darf nicht die falsche Erwartung wecken, wissenschaftlich abgesichertes Steuerungswissen ließe sich unmittelbar kraft Rationalität der Erkenntnis in den Beschluss von bildungspolitischen Maßnahmen umsetzen. Diese Erwartung ist naiv, denn sie verkennt die vollkommen unterschiedlichen handlungsbestimmenden Koordinaten politischen Handelns und wissenschaftlichen Arbeitens“ (Meyer-Hesemann 2008, S. 13). Für den Hamburger Staatsrat Lange, der im Rahmen der KMK die Arbeit der Amtschefs der Länder lange Jahre koordinierte und den Begriff der „empirischen Wende der Bildungspolitik“ (Lange 2008) erfunden hatte, war immer klar, dass man wissenschaftliche Befunde wie Seekarten oder Seewetterberichte nutzen kann, um das „Staatsschiff zu segeln“, diese aber weder das Ziel noch den aktuellen Kurs bestimmen und bei schwerer See auch nur begrenzt helfen. Mit der Veröffentlichung seiner Ergebnisse verliert die Wissenschaftlerin/der Wissenschaftler die ausschließlichen Nutzungsrechte an seinen nicht patentierten Ergebnissen, auch wenn er die Urheberrechte behält, wie Tillmann et al. (2008) für die politische PISA-Rezeption sehr schön gezeigt haben. Umgekehrt kann die politische Seite von der Bildungsforschung Sensitivität für gesellschaftliche Problemlagen, kommunikative Verständigung über politisch relevante und wissenschaftlich untersuchbare Fragestellungen, die dann nach den wissenschaftlichen Regeln bearbeitet werden, oder auch die systematische Integration von Forschungsbefunden zu politisch bedeutsamen Handlungsfeldern erwarten. Alles was darüber hinausgeht, ist Zumutung.

Wie kommt es aber dann zu politischen Programmen, die von der empirischen Bildungsforschung verlangen, „… belastbare wissenschaftliche Informationen zu generieren, die eine rationale Begründung bildungspraktischer und bildungspolitischer Entscheidungen ermöglichen“ (BMBF 2007, S. 4), oder „… abgesichertes und anwendbares Steuerungswissen zur zentralen Herausforderung, wie eine erhöhte Bildungsqualität bei gleichzeitiger Verbesserung der Bildungschancen erreicht werden kann“ (Meyer-Hesemann 2008), zu erzeugen – also Programme, die in verschiedenen Beiträgen dieses Bandes systematisch kritisiert werden (vgl. die Beiträge von Bellmann und Herzog; Bellmann 2006; Bellmann und Müller 2011)? Wissenschaftliche Förderungsprogramme des Bundes haben wie auch Ressortforschung im engeren Sinne politische Funktionen. Aus der Perspektive des Bundes werden mit dem „Rahmenprogramm zur Förderung empirischer Bildungsforschung“ (BMBF 2007) Felder erhöhter politischer Aufmerksamkeit definiert, die der Bund für die Qualitätsentwicklung des Bildungssystems auf gesamtstaatlicher Ebene für relevant hält, auch wenn er für die politische Gestaltung im Rahmen der föderalen Kompetenzverteilung nicht oder nicht allein zuständig ist. Insofern ist das Förderprogramm ein Instrument zur indirekten Dynamisierung bildungspolitischer Prozesse, die bei unterschiedlichen föderalen Interessen und Prioritäten gesamtstaatlich nicht vorankommen. Spitz könnte man formulieren, der Bund erwartet mit seinen Förderprogrammen auch Argumente, die helfen können, die Länder dazu zu bringen, das zu tun, was der Bund wünscht und die Länder nicht tun wollen oder nicht tun können. Wenn von Länderseite nach bislang nicht verfügbarem Handlungswissen gefragt wird – gelegentlich auch zu Problemen, die man wissenschaftlich nicht bearbeiten kann (z. B. Rabe 2013) –, ist dies auch ein politisches Argument, um zu begründen, dass man das nicht tut, was man politisch nicht tun kann. Problematisch wird dies erst, wenn seitens der Wissenschaft darauf mit Versprechen geantwortet wird, durch Änderung der Forschungspraxis und insbesondere durch die Privilegierung bestimmter Forschungstypen „Evidenzen“ für politisches Handeln liefern zu wollen, die strukturelle Differenzen zwischen Wissenschaft und Politik überbrücken können.

4 Wissensformen und ihre politische Handlungsrelevanz

Aufseiten der Wissenschaft werden gelegentlich Wissensformen nach unterschiedlicher Affinität zum politischen und praktischen Handeln unterschieden. Klieme (2013, 2014) etwa unterscheidet Diagnose-, Erklärungs- und Handlungswissen. Bromme et al. (2014) differenzieren ganz ähnlich Beschreibungs-, Erklärungs- und Veränderungswissen. Erklärungswissen liefert die Gründe für festgestellte Effekte, während Handlungs- oder Veränderungswissen auf dem Nachweis der Effekte von Manipulationen und Interventionen beruht. Handlungs- oder Veränderungswissen sind danach die Wissensformen, die die größte Nähe zum politischen Entscheiden und zum praktischen Handeln aufweisen. Die Autoren – das muss man betonen – wissen natürlich, dass es keinen direkten Weg weder vom Erklären zum Intervenieren noch von der experimentellen Intervention zum politischen Entscheiden oder praktischen Handeln gibt. So stellen Bromme und Kienhues (2014, S. 60) klar, dass es nur „einen indirekten Zusammenhang zwischen Theorien und Daten, die Sachverhalte beschreiben und erklären (Beschreibungs- und Erklärungswissen), und solchen, die gezielte Veränderungen im Sinne von Interventionen begründen (Veränderungswissen; …)“, gebe. Auch Wissenschaftler, die sich in der Problembeschreibung und Problemerklärung einig seien, könnten durchaus zu unterschiedlichen und widersprüchlichen Interventionsempfehlungen kommen. Dies gelte auch für den Schritt vom experimentell erzeugten Veränderungswissen zum politischen oder praktischen Handeln. Es gebe „viele praktische Probleme, die nach wissenschaftsbasierten Lösungen verlangen, [für die] mit rein wissenschaftlichen Methoden und Ergebnissen gar keine Lösung gefunden werden kann“, weil sie immer auch normative Entscheidungen implizieren (Bromme und Kienhues 2014, S. 61). Dennoch legt die Differenzierung von Wissensformen eine Abstufung der politischen und praktischen Handlungsrelevanz nahe und vernachlässigt dabei, dass bei der Lösung politischer und praktischer Probleme nicht nur normative Entscheidungen zu treffen sind, sondern diese auch unterschiedlichen Handlungslogiken folgen.

Im Hintergrund der Unterscheidung zwischen Erklärungs- und Veränderungswissen stehen zwei unterschiedliche Vorstellungen von Verursachung, die Goldthorpe (2001) in einem grundlegenden Artikel zu Kausalitätsvorstellungen in den Sozialwissenschaften diskutiert. Er spricht von „Verursachung als robuster Abhängigkeit“ und von „Verursachung als zu Konsequenzen führender Manipulation“. Im ersten Fall werden Erklärungen für regelmäßig nachweisbare Zusammenhänge und im zweiten Fall der Nachweis von Effekten einer Manipulation gesucht. Goldthorpe analysiert die Leistungsfähigkeit und die Leistungsgrenzen beider Konzeptionen für das Verstehen und Erklären sozialer Phänomene und Zusammenhänge. Die erste Konzeption beruht auf der kovarianzanalytischen Vorstellung, Ursachen für zu erklärende Tatbestände durch schrittweises Auspartialisieren von konfundierten Einflussgrößen eingrenzen zu können. Das in den Sozialwissenschaften weitverbreitete schrittweise Modellfitting ist hier der Prototyp. Goldthorpe weist darauf hin, dass mit einer rein technischen Anwendung von conditioning weder das Problem der unbeobachteten Heterogenität gelöst noch ein Beitrag zur Aufklärung der Vermittlungsschritte zwischen vermeintlicher Ursache und dem zu erklärenden Phänomen geleistet werde. Die zweite Konzeption folgt der Maxime „keine Kausalität ohne Manipulation“, die Goldthorpe dem kontrafaktischen Modell der Kausalität (Rubin 1974; Holland 1986) unterlegt. Goldthorpe analysiert die Brauchbarkeit dieses Konzepts in sozialen Kontexten, indem er zunächst noch einmal auf die begrenzte Manipulierbarkeit sozialer Tatbestände hinweist. Für die meisten soziologisch interessanten Fragestellungen verbiete sich das Experiment. Tiefer trifft die Kritik, wenn Goldthorpe die Probleme herausarbeitet, die mit dieser Kausalitätsvorstellung verbunden sind, wenn stabile Personenmerkmale und vor allem zielgerichtetes Handeln vernunftbegabter Subjekte als Ursachen betrachtet werden. Der Kern der Kritik an beiden Konzeptionen ist der Einwand, dass die Rolle eines handlungs- und entscheidungsfähigen Subjekts in sozialen Kontexten und die historische Bedingtheit ihres Handelns unberücksichtigt blieben.

Goldthorpe entwickelt als Antwort auf diese Problemlage ein für sozialwissenschaftliche Fragestellungen angemesseneres Modell der Verursachung als eines generativen Prozesses. In diesem Modell beginnt die wissenschaftliche Arbeit mit der theoriegeleiteten dichten Beschreibung des zu erklärenden Phänomens: Der Gegenstand wird theoretisch rekonstruiert. Damit erhält die deskriptiv-analytische Funktion der Sozialwissenschaften, die häufig und zu Unrecht gering geschätzt wird, eine angemessene Bedeutung im Prozess des Verstehens und Erklärens sozialer Phänomene. Es folgt dann der handlungstheoretisch angeleitete Versuch, die individuellen und/oder kollektiven Vermittlungs- und Verarbeitungsschritte zwischen Manipulation und Folge bzw. zwischen Ursache und Effekt zu rekonstruieren, um den generativen Prozess, der zum Auftreten des zu erklärenden Phänomens führt, zu klären und zu verstehen. Auch theoretisch alternative Rekonstruktionen sind möglich und wünschenswert. Daran schließt sich die empirische Prüfung der handlungstheoretischen Narrative an, die je nach Fragestellung experimentell, quasi-experimentell oder durch Anpassung und Vergleich theoretisch konkurrierender Modelle erfolgen kann (zur Verträglichkeit mit dem counterfactual model vgl. Winship und Morgan 2007, S. 230 ff). In dieser Konzeption kommen sowohl die prinzipielle Revidierbarkeit und historische Kontingenz sozialwissenschaftlicher Erklärungen als auch das Prinzip der Falsifikation zu ihrem Recht. Fasst man in dieser Weise Verursachung unter einer handlungstheoretischen Perspektive als generativen Prozess auf, gibt es keine Abstufung der Bedeutung von Wissensformen – weder innerwissenschaftlich noch im Hinblick auf die Anwendung sozialwissenschaftlicher Erkenntnis in anderen Sozialsystemen. Mit der Einführung von agency – also des handlungs- und entscheidungsfähigen Subjekts als zentraler theoretischer Komponente für die Erklärung sozialer Sachverhalte ist auch die Vorstellung der Nutzung sozialwissenschaftlicher Erkenntnisse im Modell der technischen Anwendung keine überzeugende Option mehr. Im Folgenden soll Goldthorpe’s Modell der Verursachung als eines generativen Prozesses als Rahmen genutzt werden, um Leistungen von Large-Scale Assessments in den vergangenen beiden Jahrzehnten an prototypischen Beispielen darzustellen.

5 Deskriptive Zustandsdiagnose, Trendbeschreibungen und konzeptuelle Ordnung des Feldes

LargeScale Assessments haben Ergebnisse von Bildungsprozessen in zentralen Bereichen des Bildungsprogramms operativ beschreibbar und ihre Verteilung in der Population ausgewählter Altersjahrgänge bzw. Jahrgangsstufen des Schulsystems sichtbar gemacht. Damit wurde es möglich, „Bildung“ in Deutschland zum ersten Mal auf der Ebene definierter kognitiver Leistungsdispositionen zu thematisieren. Im Rückblick kann man dies durchaus als einen historisch unwahrscheinlichen Schritt zur Transparenz in einem bedeutenden gesellschaftlichen Teilsystem verstehen, in dem sich demokratische Prinzipien nur langsam durchgesetzt haben. Bis vor wenigen Jahren konnte noch der öffentliche Glaube an die Versprechen der Bildungsprogramme Realitätsprüfungen ersetzen. Allein der Gedanke einer systematischen Prüfung war anstößig und mit einer Misstrauenserklärung an Politik und Verwaltung verbunden. Vor diesem Hintergrund kann man die Leistung der LSA mit ihrem Beitrag zur Deskription des Feldes, mit dem sie auf die Frage „Was geschieht?“ antworten, oder – etwas anspruchsvoller formuliert – mit der theoretischen und empirischen Rekonstruktion des zu erklärenden Phänomens kaum überschätzen. Dabei handelt es sich um die Darstellung von Zuständen, längerfristigen Entwicklungen und stabilen Zusammenhängen.

Auch Deskription ist nicht voraussetzungslos. Allein die Auswahl des Gegenstandes verlangt eine vorgängige konzeptuelle Vorstellung des zu beschreibenden Phänomens. Mit der theoriegeleiteten, auch normative Optionen einschließende Auswahl von Problemen und Fragestellungen wird aber nicht nur Deskription vorbereitet, sondern implizit auch eine konzeptuelle Ordnung des Feldes vorgenommen, die Aufmerksamkeit vorstrukturiert, und zwar in Abhängigkeit von der Problemstellung wissenschaftlich, öffentlich und politisch. Zu den wichtigen Themen, die durch die LSA angeschlagen wurden, öffentliche und damit auch politische Aufmerksamkeit neu justiert haben und bis heute virulent sind, gehören wahrscheinlich die folgenden:

  • die Relativierung des in Deutschland bis zum Ende der Vollzeitschulpflicht erreichten Kompetenzniveaus in basalen Bereichen des Bildungsprogramms im internationalen Vergleich, aber auch im Vergleich mit den Ansprüchen des eigenen Programms und dessen bildungstheoretischer Überhöhung durch ein theoretisch begründetes und empirisch prüfbares Konzept von Basiskompetenzen;

  • die Identifikation einer Gruppe von jungen Menschen, die aufgrund unzureichender Basiskompetenzen besonders vulnerabel von gesellschaftlicher Exklusion bedroht sein könnten, und die Neudefinition von Schulversagen als Versagen der Schule;

  • der bis heute unveränderte Befund, dass in Deutschland die Gruppe der hochleistenden Schülerinnen und Schüler trotz eines früh selegierenden Schulsystems relativ schmal besetzt ist, und damit die Verschiebung der Aufmerksamkeit von Hochbegabung auf Hochleistung;

  • die Wiederentdeckung sozialer Ungleichheit im Bildungssystem als gesellschaftspolitisches und öffentliches Problem und die Konkretisierung dieser Ungleichheiten nicht nur in Beteiligungs-, sondern auch in Kompetenzmaßen;

  • die Legitimierung der Diskussion über Zuwanderung als Tatbestand und zukunftsbedeutsames Disparitätsproblem;

  • Leistungsunterschiede zwischen politischen Gebietseinheiten und ihre Bedeutung für das deutsche Berechtigungssystem;

  • die Diagnose positiver Entwicklungstrends und ihre möglichen Ursachen.

Fünf dieser Themen sollen im Folgenden teils eingehender, teils kursorisch behandelt werden. Dabei soll auch im Blick bleiben, welcher Typ von Befunden (s. Abschn. 4) besondere öffentliche Aufmerksamkeit gefunden hat und politisch rezipiert wurde.

6 Die Konstitution des Explanandums: Kompetenzen als latente domänenspezifische Leistungsdispositionen

Kompetenzen im engeren Sinne (Weinert 2001) theoretisch als latente domänenspezifische kognitive Leistungsdispositionen aufzufassen (Klieme und Leutner 2006; Klieme et al. 2008) und die latente Fähigkeit der Person und die Schwierigkeitsparameter der Aufgaben, die diese auf manifester Ebene indizieren, in einem mathematischen Modell auf einer gemeinsamen Metrik mit Intervallskalenqualität abzubilden, ist heute üblich. Damit werden Testwerte kriterial verankert und erhalten mit der Beschreibung durch die bedingten Lösungswahrscheinlichkeiten von Aufgaben inhaltliche Bedeutung: Tests haben sprechen gelernt. In der Regel wird in LSA im Rahmen der Item-Response-Modelle (IRT-Modelle) ein Multi-Matrix Sampling verwendet, bei dem Testteilnehmer systematisch rotierte Untermengen der verfügbaren Testaufgaben bearbeiten. Dieses Design erlaubt es, das zu messende Konstrukt mit einer großen Anzahl von Aufgaben dicht zu beschreiben und gleichzeitig die individuelle Bearbeitungszeit des Tests relativ kurz zu halten. Dies ist heute so selbstverständlich, dass man daran erinnern muss, dass bis noch vor gut 15 Jahren IRT-Modelle und das damit verbundene methodische Wissen nur an ganz wenigen Standorten der Erziehungswissenschaft und Psychologie in Deutschland präsent waren. In der Soziologie und in der Ökonomie war dies überhaupt kein ThemaFootnote 1. Mit diesen IRT-Modellen war die Voraussetzung geschaffen, bildungstheoretisch, fachdidaktisch oder curricular begründete Konzeptionen domänenspezifischer Fähigkeiten operativ zu beschreiben und empirisch zu überprüfen. Durch die inhaltliche Verankerung der Tests wurde es auch möglich, die stofflichen und kognitiven Ansprüche des in Lehrplänen, Curricula und zugelassenen Lehrbüchern kodifizierten Bildungsprogramms mit den Bildungsergebnissen in den jeweils untersuchten Dimensionen zu vergleichen. Dies war in mancher Hinsicht ein bildungstheoretisches Desillusionierungsprogramm, auch wenn in der Allgemeinen Erziehungswissenschaft gelegentlich noch die enttäuschungsfeste Überzeugung anzutreffen ist, man könne „die Frage nach den wesentlichen ,Kräften‘ des Wissens, Handelns, des ästhetischen Sinnes und welttranszendierender Religiosität“ reflexiv bearbeiten, auch ohne in der Lage zu sein, „banale Inhalte“ im Alter von 15 Jahren richtig zu lesen (Koch 2004, S. 189).

Von den Möglichkeiten der IRT-Modelle wurde im Literacy-Konzept von TIMSS und elaborierter von PISA systematisch Gebrauch gemacht. In PISA werden im Anschluss an die angelsächsische Literacy-Tradition die Beherrschung der jeweiligen Verkehrssprache in Form von Lesekompetenz, mathematische Modellierungsfähigkeit und naturwissenschaftliches Verständnis als Basisqualifikationen, die Voraussetzung für gesellschaftliche Teilhabe darstellen, privilegiert. Es handelt sich nach dieser bildungstheoretischen Konzeption um Kompetenzen, die jeder Angehörige der nachwachsenden Generation ausnahmslos zu erwerben hat, soll er nicht von gesellschaftlicher Exklusion bedroht sein. Mit dieser Annahme ist die Literacy-Konzeption an die deutschsprachige Tradition der allgemeinen Bildung prinzipiell anschließbar (vgl. Baumert et al. 2001). Historische Grundlage der allgemeinen Bildung ist die Universalisierung des Zugangs zu formaler Bildung in der modernen Pflichtschule. Mit Tenorth (1994) kann man dann unter allgemeiner Bildung das Versprechen auf die Universalisierung der Prämissen für die Teilhabe an gesellschaftlicher Kommunikation durch die Garantie des Bildungsminimums und die Kultivierung der Lernfähigkeit verstehen (vgl. auch Tenorth in diesem Band). Es steht außer Frage, dass die Beherrschung der Verkehrssprache, insbesondere Lesekompetenz, und mathematische Modellierungsfähigkeit Basisqualifikationen darstellen, die den Zugang zu den symbolischen Gegenständen der Kultur überhaupt erst eröffnen und damit auch die Grundlage jedes selbstständigen Weiterlernens bilden. Es gibt weitere basale „Kulturwerkzeuge“ (vgl. Baumert 2002; Bildungskommission 2003, S. 75 ff.; Tenorth 2004), aber Lesekompetenz und mathematisches Verständnis sind wahrscheinlich die wichtigsten und insofern Teil einer Grundbildung, in deren Rahmen auch das Bildungsminimum – historisch und gesellschaftlich variabel – zu bestimmen ist. Man darf die Basisqualifikationen allerdings nicht als einfache Techniken auffassen, die abstrakt und inhaltsindifferent vermittelt oder erworben werden könnten (Koch 2004), und schon gar nicht als Bildung auf deutschem Grundschulniveau, auf dem dann die reflexive Begegnung mit „Kunden“ und/oder Wissenschaften aufbaut (Benner 2002). Diese Piaget nachempfundene Stufenkonzeption ist schon ontogenetisch und entwicklungspsychologisch unzutreffend (Schneider und Hasselhorn 2012; Kray und Schäfer 2012). Die Basiskompetenzen entwickeln sich vielmehr in einem langfristigen und kumulativen Prozess der Begegnung und aktiven Auseinandersetzung mit den Gegenständen der Kultur. In modernen Schulsystemen heißt dies in der Begegnung mit unterschiedlichen, aber nicht beliebigen und nicht wechselseitig substituierbaren Modi des Weltverstehens, die – mögen die Fächerzuschnitte auch unterschiedlich sein – im Kanon des Bildungsprogramms universell institutionalisiert sind (Baumert 2002, vgl. auch Messner in diesem Band). Dies ist die Grundstruktur moderner Allgemeinbildung, die im Anschluss an Humboldt (1809) von Flitner (1965), Wilhelm (1969) oder Tenorth (1994, 2004) ähnlich konzipiert wird (vgl. auch Bildungskommission 2003). Insofern ist Grundbildung immer auch Allgemeinbildung, und zwar von Schulbeginn an. Für die Naturwissenschaften, die prototypisch für die Rationalität des instrumentellen Zugriffs auf Wirklichkeit stehen, gilt dies allemal. Der besondere Beitrag von PISA (und der deutschen Erweiterungen) zur Deskription des Feldes und zur theoretischen Konstitution des „zu erklärenden Phänomens“ – und dieser Beitrag soll hier herausgearbeitet werden – liegt einmal in der Identifikation des Überschneidungsbereichs zweier unterschiedlicher bildungstheoretischer Traditionen und zum anderen in der fachdidaktisch bzw. im Falle der Lesekompetenz kognitionspsychologisch begründeten Konzeption der latenten Dispositionen, ihrer breiten Beschreibung auf operativer Ebene und in der empirischen Prüfung der theoretischen Konstrukte. Mittlerweile liegt eine große Anzahl von publizierten PISA-Aufgaben einschließlich der Item-Parameter vor, sodass ohne Weiteres parallele Testversionen konstruiert und in Konkurrenz zu alternativen Konzepten geprüft werden können – eine Einladung an die Kritiker, ihrer Kritik Forschung folgen zu lassen.

Die öffentliche und politische Rezeption von Befunden der LSA-Studien wird in der Regel durch die Definition von inhaltlich beschriebenen Kompetenzstufen erleichtert. Bei PISA hat die Einteilung des Fähigkeitskontinuums in Kompetenzabschnitte besondere politische Bedeutung erhalten, da im ersten deutschen Bericht das „Bildungsminimum“ an das Erreichen einer Kompetenzstufe gekoppelt und beim Unterschreiten dieser Stufe von einem Bildungsrisiko gesprochen wurde (Artelt et al. 2001; Klieme et al. 2001; Baumert und Schümer 2001). Man muss daran erinnern, dass Kompetenzstufen zunächst nichts weiter als kommunikative Hilfsmittel sind, mit denen eine latente kontinuierliche Fähigkeitsdimension in Fähigkeitsabschnitte zerlegt wird, die durch typische kognitive Operationen beschrieben werden können, die für die Lösung von Aufgaben notwendig sind, die bei gegebenem Fähigkeitsniveau mit als hinreichend definierter Wahrscheinlichkeit erfolgreich bearbeitet werden können. Die Festlegung von Kompetenzstufen sind also arbiträre Entscheidungen, die in der Regel kommunikativ von Experten unterschiedlicher Verfahren getroffen werden (Cizek und Bunch 2007; Bejar 2008; Pant et al. 2010). Wenn die Schwellenwerte kriteriale Bedeutung erhalten – z. B. Mindestniveau erreicht oder verfehlt –, spricht man von Standard-Setting. In PISA wird ein Verfahren angewandt, bei dem die Experten der jeweiligen Domäne technische Vorgaben bezüglich der Breite der Kompetenzstufen und der Lösungswahrscheinlichkeiten am unteren und oberen Ende einer Stufe erhalten. Auf der Basis der empirischen Schwierigkeitsparameter der Testaufgaben und interpretativ erschlossener schwierigkeitsgenerierender Merkmale versuchen sie Schwellen festzulegen, die eine möglichst distinkte Beschreibung der Kompetenzstufen auf operativer Ebene erlauben. (OECD 2009, S. 283 ff.). Kompetenzstufen bündeln Informationen und erleichtern eine nicht technische Kommunikation. Bei der Festlegung der normierenden Bildungsstandards in Deutschland wird ähnlich nach der sogenannten Bookmark-Methode verfahren (Çetin und Gelbal 2013). Das Standard-Setting ist hier jedoch ein politisch-administrativer Prozess, der zu einem Verwaltungsakt führt. Im ersten Schritt bereiten Expertengruppen aus Fachdidaktikern, Bildungspraktikern, Lehrplanexperten der Länder und Psychometrikern unter Leitung des IQB und in enger Abstimmung mit den Koordinatoren der Länder auf Amtschefebene einen Vorschlag vor. Die Entscheidung wird im zweiten Schritt auf politischer Ebene im Einvernehmen aller Länder getroffen.

Die Arbeiten der IEA (TIMSS und PIRLS) und der OECD (PISA) waren in verschiedener Hinsicht beispielgebend. Innerwissenschaftlich haben sie als Katalysatoren für eine bildungstheoretische und fachdidaktische Klärung des Bildungsprogramms ganz unterschiedlicher Unterrichtsfächer gewirkt. Die Reihe der mittlerweile entwickelten domänenspezifischen Kompetenzmodelle, die überwiegend auch empirisch geprüft wurden, reicht von den differenzierten Entwürfen des DESI-Konsortiums für Deutsch und Englisch (Klieme et al. 2008), den Bildungsstandards für die Fächer Deutsch, Englisch, Französisch, Mathematik und die Naturwissenschaften (Köller et al. 2010; Stanat et al. 2012; Pant et al. 2013), den Entwürfen für Geschichte und politische Bildung (Schreiber et al. 2006; Körber et al. 2007; Weißeno et al. 2010; Detjen et al. 2012; Trautwein et al. 2016), Wirtschaft, Arbeit & Technik (Leucht et al. 2016), über berufsbildende Kompetenzen (Lehmann et al. 2005) bis hin zum konstitutiv-religiösen Weltverstehen, für das eine Arbeitsgruppe um Benner an der HU-Berlin ein bildungstheoretisch begründetes Kompetenzmodell entwickelt und empirisch geprüft hat (Benner et al. 2007; Nikolova et al. 2007).

Bildungspolitisch waren die IRT-Modelle Voraussetzung der Arbeit der Länder und der KMK an den Bildungsstandards (Klieme et al. 2003), insbesondere für die inhaltliche Definition abschlussbezogener Regel- und Mindeststandards (Pant et al. 2010). Die Arbeit an den Bildungsstandards ist ein gutes Beispiel für die Verschränkung von Wissenschaft und Bildungspolitik in dem in Abschn. 3 skizzierten neu entstandenen Kommunikationssystem. Auch hier ist die wechselseitige Anerkennung differenter Handlungslogiken in Wissenschaft und Politik Voraussetzung der Kommunikation. Kritisch kann es dann werden, wenn bei der Interpretation der Befunde nämlich im Standard-Setting beide Perspektiven aufeinandertreffen und die normierende Entscheidung der Funktionslogik der Politik folgt.

7 Bildungsminimum und Hochleistungen

Mit der Definition von Kompetenzstufen und deren inhaltlicher Beschreibung auf der Ebene domänenspezifischer kognitiver Operationen hat PISA den entscheidenden Schritt getan, um Gruppen von Jugendlichen identifizieren zu können, die aufgrund unzureichender Basiskompetenzen potenziell von gesellschaftlicher Exklusion bedroht sind. Allmendinger (1999) spricht in diesen Fällen von Kompetenzarmut. Der Gedanke der notwendigen Universalisierung von Basisqualifikationen wird in der angelsächsischen Literacy-Diskussion mit dem Argument neuer und infolge des sich beschleunigenden Wandels von der Industrie- zur postindustriellen Wissensgesellschaft steigender Qualifikationsanforderungen verknüpft. Damit wird die Messlatte für sprachliche, mathematische und naturwissenschaftliche Literalität höher gelegt: Schlichte Alphabetisierung genügt diesem Anspruch nicht. Wo aber liegt theoretisch und empirisch das Mindestniveau oder mit Tenorth (1994) das Bildungsminimum, unterhalb dessen mit erhöhter Vulnerabilität im Lebenslauf und insbesondere mit einem erhöhten Risiko bei dem Übergang in eine zukunftsfähige berufliche Erstausbildung zu rechnen ist?

Im ersten deutschen PISA-Bericht wurde versucht, auf der Grundlage der Beschreibung von Kompetenzstufen eine kritische Schwelle zu definieren, unterhalb derer man von einem Bildungsrisiko sprechen kann. Die Autoren, die den Begriff der „Risikogruppe“ einführten, argumentieren sehr vorsichtig. Im Fall der Lesekompetenz sprechen sie bei 15-Jährigen von der Zugehörigkeit zu einer Risikogruppe, wenn die unterste Kompetenzstufe nicht erreicht wird, und von einem potenziellen Risiko für den Übergang in eine zukunftsfähige Berufsausbildung, wenn die erste Kompetenzstufe nicht überschritten wird (Artelt et al. 2001; Baumert und Schümer 2001). Grund für diese Zurückhaltung war der Mangel an Information über die prognostische Validität des PISA-Lesetests. Mittlerweile liegen durch die an PISA gekoppelte kanadische Längsschnittstudie Youth In Transition Survey (YITS) und vor allem die schweizerische Langzeitstudie Transitions from Education to Employment (TREE) Belege für die prognostische Validität des PISA-Lesetests vor, die es rechtfertigen, bei Personen, die im Lesen die erste Kompetenzstufe nicht überschreiten, von einer Risikogruppe zu sprechen (Bussière et al. 2009; Stalder et al. 2008; OECD 2010; Stalder 2012).

Für Mathematik fiel die Entscheidung leichter, da ein Abgleich zwischen PISA und den von den Industrie- und Handelskammern bei der Vergabe von Ausbildungsplätzen benutzten Mathematiktests möglich war. Hier zeigte sich, dass Schulabsolventen, die in Mathematik das unterste Kompetenzniveau bei PISA, das im Wesentlichen durch Aufgaben auf Grundschulniveau beschrieben wird, nicht überschreiten, praktisch keine Chance haben dürften, die Aufgaben der Einstellungstests zu bewältigen. Deshalb wurden diese Personen in PISA 2000 von Anfang an als Risikogruppe klassifiziert (Klieme et al. 2001). Nach dieser Definition gehörten im Jahre 2000 22,5 % der 15-Jährigen im Lesen und im Jahr 2003 21,6 % in Mathematik zu einer Risikogruppe. Bis 2012 verkleinerten sich die Risikogruppen deutlich auf 14,5 bzw. 17,7 % des Altersjahrgangs.

Argumentiert man im bildungstheoretischen Rahmen der allgemeinen Bildung, wird mit der Festlegung der kritischen Schwelle auch eine Gerechtigkeitsfrage normativ entschieden. Mit dem Versprechen auf die Universalisierung der Prämissen für Teilhabe an gesellschaftlicher Kommunikation durch die Garantie des Bildungsminimums und die Kultivierung der Lernfähigkeit gilt im Hinblick auf das Erreichen der Mindeststandards das Gleichheitsprinzip: Alle Schülerinnen und Schüler sollen die Lerngelegenheiten und Unterstützung erhalten, die sie benötigen, um die kognitiven, sozialen und selbstregulativen Basisqualifikationen zu erwerben, die sie befähigen, am wirtschaftlichen, sozialen, politischen und kulturellen Leben in Selbstachtung teilzunehmen. Die Affinität zur Capability-Konzeption Amartya Sens (1980, 2011) und Martha Nussbaums (2011) ist deutlich zu erkennen. Damit werden auch Verantwortlichkeiten neu verteilt. Die Sicherung der gesellschaftlichen Teilhabechancen für alle ist auch eine Bringschuld der Schule, und Schulversagen ist nicht mehr allein ein Versagen des Einzelnen, sondern auch ein Versagen der Schule. Die Einführung und Akzeptanz des Gleichheitsprinzips im Hinblick auf das Bildungsminimum ist innerhalb der Logik formaler Bildungsprozesse nicht selbstverständlich. Denn formale Bildung erzeugt mit der Bereitstellung von Lerngelegenheiten, die im Bildungsprogramm in ihrer Grundstruktur festgelegt sind und der Selbstentwicklung und Selbstwerdung des Individuums dienen, und dem Anspruch der optimalen Förderung jedes Einzelnen notwendigerweise und dauerhaft Differenz. Gleichheit der Ergebnisse kann selbst in einem Einheitsschulsystem kein sinnvolles Regulativ formaler Bildung sein. Umso bemerkenswerter ist das normative Korrektiv der allgemeinen Bildung: Es setzt Bildsamkeit universell voraus und erwartet in der Verfügung über die Bildungsvoraussetzungen für ein würdevolles Leben Gleichheit. Dieses Gerechtigkeitsprinzip setzt Vorstellungen meritokratischer Verteilungsgerechtigkeit Grenzen, die in der Öffentlichkeit offensichtlich anerkannt sind. Denn kaum ein PISA-Ergebnis hat für vergleichbare öffentliche und politische Aufmerksamkeit und Kritik gesorgt wie der Befund, dass ein nennenswerter Anteil der nachwachsenden Generation Mindeststandards in Bezug auf Basiskompetenzen nicht erreicht. Er wurde als institutioneller Makel interpretiert. Bildung auf Grundschulniveau zum Ende der Vollzeitschulpflicht unterbietet das erwartete und versprochene Bildungsminimum.

Wie aber hat sich die Definition der Risikogruppe empirisch bewährt? Mit dieser Frage verlassen wir die Ebene der Zustandsbeschreibung. Mit der Untersuchung der prognostischen Validität der Klassifikation wird der erste Schritt zur Erklärung von beruflichen Risiken im Lebenslauf und möglicherweise beginnender gesellschaftlicher Exklusion vollzogen, auch wenn von Rekonstruktion einer Handlungskette noch keine Rede sein kann. Prognostische Entscheidungen sind immer und insbesondere im Bildungsbereich fehlerbehaftet, weil junge Menschen ihren Lebensweg auch selbst gestalten. Bei der Güte von Zuordnungen handelt es sich um probabilistische Zusammenhänge. Bei einer dichotomen Klassifikation wie „erhöhtes“ bzw. „nicht erhöhtes“ Misserfolgsrisiko unterscheidet man zwei voneinander abhängige Fehlerarten. Vom Alphafehler spricht man, wenn Personen fälschlicherweise der Risikogruppe zugeordnet werden („falsche Positive“), und vom Betafehler, wenn Risikopersonen fälschlicherweise in die Gruppe mit nicht erhöhtem Risiko eingeordnet werden („falsche Negative“). Bei konstanter Gesamtfehlerquote hängen beide Fehlerarten direkt voneinander ab: Mit der Verkleinerung des Alphafehlers steigt der Betafehler und umgekehrt. In unserem Fall heißt das: Setzt man die zu erreichenden Mindeststandards sehr niedrig an, minimiert man den Anteil falscher Positiver, während sich gleichzeitig der Anteil falscher Negativer erhöht. Damit vermindert man aber auch die Wahrscheinlichkeit, Personen mit erhöhter Vulnerabilität zu entdecken – die sogenannte Sensitivität der Klassifikation –, während die Entdeckungswahrscheinlichkeit von Nicht-Risikopersonen – die Spezifität der Zuordnung – zunimmt. Bei einer Erhöhung der Mindeststandards wächst die Sensitivität der Klassifikation auf Kosten ihrer Spezifität. Die Wahl der kritischen Schwelle ist eine normative Entscheidung, die von der Bewertung der Folgen des Alpha- und des Betafehlers abhängt. Will man z. B. unter einer Perspektive der Optimierung individueller Entwicklung Personen rechtzeitig fördern, wird man wahrscheinlich einer ausreichend hohen Sensitivität der Zuordnung größeres Gewicht beimessen und gleichzeitig mit einer verminderten Spezifität in Kauf nehmen, auch Personen zu fördern, die der Förderung weniger bedürfen. Will man öffentliche Kritik in Grenzen halten oder Arbeitgebern – wie Klemm in seinem Beitrag in diesem Band – keinen Vorwand geben, mangelnde Ausbildungsbereitschaft mit mangelnder Ausbildungsreife der Bewerber zu rechtfertigen, wird man konservativ entscheiden und die Spezifität der Klassifikation möglichst hoch setzen.

Bei der Definition der Risikogruppe in PISA war über die prognostische Güte der Zuordnung noch nichts bekannt. Die Klassifikation wurde auf Grundlage der empirischen Beschreibung von Kompetenzstufen interpretativ begründet. Mittlerweile verfügt man für die Güte der Klassifikation aufgrund des an PISA 2000 angekoppelten Schweizer Längsschnitts TREE über empirische Daten. Es ist bekannt, dass das duale System in der Schweiz – stärker noch als in Deutschland – auch schulisch schwach Qualifizierten eine zweite Chance einräumt. Dies bildet sich auch in den Schweizer Längsschnittbefunden ab (Stalder et al. 2008). In der Schweiz gehörten im Jahr 2000 20,6 % der 15-Jährigen im Lesen zur Risikogruppe. Sechs Jahre nach dem Verlassen der Pflichtschule hatten 62 % von ihnen eine Berufsausbildung – etwa die Hälfte davon allerdings auf unterstem Qualifikationsniveau – abgeschlossen oder einen anderen Sekundarstufen-II-Abschluss erworben. 38 % blieben ohne Abschluss. Das ist die Erfolgsgeschichte des Schweizer Berufsbildungssystems. Betrachtet man aber die Karriere der 15-Jährigen, die die unterste Kompetenzstufe in PISA 2000 überschritten hatten, blieben nur 10 % von ihnen ohne Abschluss. Die Wahrscheinlichkeit, keinen Berufsabschluss zu erreichen, war also in der Risikogruppe fast viermal so hoch. Beurteilt man die Güte der Klassifikation an den üblichen Kriterien, ergibt sich folgendes Bild: Mit der dichotomen Zuordnung im Jahr 2000 wurden 79 % der Fälle im Jahr 2006 richtig eingeordnet. Im Jahr 2006 verfügten 16 % der 21-jährigen Schweizer weder über eine abgeschlossene Berufsausbildung noch einen anderen Sekundarstufen-II-Abschluss. Die Hälfte dieser jungen Erwachsenen gehörte im Jahr 2000 im Lesen zur PISA-Risikogruppe. Die Sensitivität der Klassifikation beträgt also 50 %. Die Spezifität dagegen – die richtige Zuordnung der Erfolgreichen – liegt bei 85 %. Die PISA-Definition der Risikogruppe beruht danach auf einer relativ konservativen Entscheidung, bei der – wie man im Nachhinein sieht – nicht beide Fehlerarten gleich gewichtet sind, sondern die Spezifität privilegiert wird. Legt man das vom deutschen PISA-Konsortium vorgeschlagene Erfolgskriterium des Zugangs zu einer zukunftsfähigen Berufsausbildung der Beurteilung der Klassifikation zugrunde – dies wären im Schweizer System Ausbildungen oberhalb des untersten Qualifikationsniveaus –, so stiegen die Gesamtrefferquote auf etwa 85 (berechnet nach den Angaben bei Stalder et al. 2008), die Sensitivität auf etwa 64 und die Spezifität auf ungefähr 91% an (berechnet nach den Angaben bei Stalder et al. 2008 und Stalder 2012).

Aufgrund der hohen öffentlichen Aufmerksamkeit, die das Unterschreiten des Bildungsminimums erfährt, ist es nicht verwunderlich, dass die Behandlung von Mindeststandards ein gutes Beispiel ist, an dem man die unterschiedliche Logik von Wissenschaft und Politik darstellen kann. Das PISA-Konsortium in Deutschland ging davon aus, dass die Verfügung über Kompetenzen auf Grundschulniveau – und das heißt in Deutschland nach vierjährigem Schulbesuch – am Ende der Vollzeitschulpflicht keine gute Voraussetzung für den Übergang in die berufliche Erstausbildung darstellt. Dies war eine Hypothese, die prinzipiell auch scheitern konnte. Im Rahmen der Überprüfung der neuen Bildungsstandards der Länder wurden im Bereich der Mathematik Mindeststandards für die Erreichung des Hauptschulabschlusses definiert (Blum, Roppelt & Müller 2012; Pant et al. 2013b). Die Festlegung der kritischen Schwelle war eine politisch-administrative Entscheidung, auch wenn sie in Kommunikation mit Wissenschaft und Praxis vorbereitet wurde. Nach der Definition der KMK befähigt die Hauptschule Absolventen zur Fortsetzung ihres Bildungswegs vor allem in berufsqualifizierenden Bildungsgängen (KMK 2015). Die Logik politischen Handelns legte danach eine Entscheidung nahe, bei der der Anteil derjenigen, die Mindeststandards verfehlen – also nach der PISA-Definition einer Risikogruppe angehören –, sich nicht zu weit von der Quote derjenigen, die die Pflichtschule ohne Abschluss verlassen, entfernte und in allen Ländern politisch vertretbar war. Die Entscheidung wurde so getroffen, dass im Bereich Mathematik die unterste Kompetenzstufe geteilt und die Kompetenzstufe 1b, auf der Anforderungen bewältigt werden können, die „typischerweise bis etwa zum 7. Schuljahr des Hauptschulbildungsganges“ (Blum et al. 2012, S. 62) beherrscht werden sollten, als Mindeststandard für den Hauptschulabschluss definiert wurde. In der 9. Jahrgangsstufe erreichen dann 5,5 % der Neuntklässler insgesamt dieses Niveau nicht (Pant et al. 2013, S. 166, Tab. 6.3). Dies entspricht ungefähr der Quote der Schulabgänger ohne Schulabschluss. Vergleicht man diese Festlegung mit den schweizerischen Befunden, so wird deutlich, dass hier eine extrem konservative Entscheidung gefällt wurde, bei der die Sensitivität der Klassifikation weitgehend der Maximierung der Spezifität geopfert wurde. Politisch ist dies rational, unter dem Gesichtspunkt der Identifikation von Förderbedarf wahrscheinlich wenig nützlich und unter wissenschaftlichen Gesichtspunkten die normative Lösung eines Optimierungsproblems. Wissenschaftliche Befunde zur prognostischen Qualität der Klassifikation – also Erklärungswissen – spielten dabei keine Rolle.

Das Thema Kompetenzarmut und drohende gesellschaftliche Exklusion traf und trifft bis heute den Nerv der öffentlichen Aufmerksamkeit. Im Vergleich dazu hatte ein zweiter robuster PISA-Befund, den man als Pendant bezeichnen könnte, nicht wirklich das öffentliche Interesse gefunden, obwohl er in allen Berichten immer wieder herausgestellt wurde (vgl. Prenzel et al. 2013). Trotz früher Differenzierung des Schulsystems ist in allen untersuchten Domänen die Leistungsspitze in Deutschland im Vergleich zu führenden OECD-Staaten relativ schwach ausgeprägt. Offensichtlich kommt das Gymnasium seinem Auftrag, auch Hochleistungen herauszufordern und zu fördern. nicht optimal nach. Auch eine Initiative des Bundes, ein entsprechendes wissenschaftlich begleitetes Förderprogramm aufzulegen, konnte sich in Abstimmung mit den Ländern politisch nicht durchsetzen.

8 Soziale Disparitäten des Kompetenzerwerbs und der Bildungsbeteiligung

Ungleichheit der Bildungsbeteiligung ist seit Jahrzehnten ein Standardthema der Bildungssoziologie, das allerdings in den 1980er- und 1990er-Jahren aus der Aufmerksamkeit von Öffentlichkeit und Politik praktisch verschwunden war. Man muss nur daran erinnern, dass mit der routinemäßigen Novellierung des Mikrozensusgesetzes Anfang der 1990er-Jahre der einzige Indikator, an dem sich soziale Disparitäten der Bildungsbeteiligung während der Vollzeitschulpflicht beobachten ließen, aus dem Erhebungsprogramm gestrichen wurde. Bildungsgerechtigkeit war trotz der Umstrukturierung des Schulsystems in den neuen Ländern kein Thema und schon gar kein Problem.

Dies änderte sich erst mit den LSA und mit der Verwendung eines international vergleichbaren Sozialschichtindikators in PISA. Es war einer der überraschenden Befunde, dass in Deutschland die Kopplung von sozialer Herkunft und Kompetenzerwerb so eng wie in keinem anderen OECD-Staat war. Ein Vergleich der sozialen Gradienten der Lesekompetenz zeigte, dass in Deutschland ein nur mittelmäßiges Leistungsniveau mit einem steilen sozialschichtabhängigen Kompetenzgefälle verbunden war. Der internationale Vergleich belegte ferner, dass die sozialen Gradienten im oberen Bereich der Sozialstruktur konvergierten: Die Unterschiede in der Lesekompetenz zwischen den Staaten verringerten sich, wenn man nur Jugendliche mit privilegierter Herkunft verglich, während sich die Schere im unteren sozialen Bereich öffnete. Zwischen 2000 und 2012 hat sich der Zusammenhang zwischen sozialer Herkunft und Kompetenzerwerb in Deutschland aufgrund verbesserter Ergebnisse im unteren Leistungsbereich etwas gelockert. Ein positiver Entwicklungstrend deutet sich an, ist aber noch nicht zufallskritisch abzusichern. Die Kopplung von sozialer Herkunft und Kompetenzerwerb ist bis heute ein Thema, das für öffentliche und politische Aufmerksamkeit sorgt (vgl. Autorengruppe Bildungsberichterstattung 2016).

Mit der Verfügbarkeit von Leistungsdaten und theoretisch begründeten Indikatoren für Merkmale der sozialen Herkunft veränderte sich die Datenlage im Hinblick auf die Möglichkeit, soziale Disparitäten nicht nur zu beschreiben, sondern auch zu erklären. Es war zum ersten Mal möglich, die von Boudon (1974) vorgeschlagene Differenzierung zwischen „primären“, das heißt über Leistung vermittelten, und „sekundären“, direkten Einflüssen der sozialen Herkunft auf Bildungsentscheidungen und Bildungsbeteiligung in Deutschland empirisch darzustellen. Dies war ein wichtiger Schritt zur Rekonstruktion der im Sinne von Goldthorpe (2001) generativen Prozesse, die zur sozialen Ungleichheit der Bildungsbeteiligung führen. Lehmann et al. (1997) waren die ersten, die anhand von LSA-Daten der Hamburger Lernausgangslagen-Untersuchung (LAU) die Entstehung sekundärer sozialer Disparitäten beim Übergang von der Grundschule in die weiterführenden Schulen in Deutschland nachgewiesen haben. Mittlerweile liegt eine Reihe von Grundschulstudien vor, die alle konsistent für den Übergang in die weiterführenden Schulen sekundäre Herkunftseffekte belegen (vgl. Baumert und Maaz 2010; Dumont et al. 2014). Lange Zeit unbefriedigend geklärt war jedoch die quantitative Relation von primären und sekundären Effekten. Methodisch elaborierte Studien aus dem Vereinigten Königreich und Schweden schätzten den Anteil sekundärer Effekte an sozialer Ungleichheit der Bildungsbeteiligung je nach Untersuchungskohorte und Schätzverfahren auf 20 bis maximal 50 % der Variabilität (Erikson et al. 2005; Jackson et al. 2007; Erikson & Rudolphi 2009). Für Deutschland liegen drei Untersuchungen vor, die es erlauben, primäre und sekundäre Disparitätseffekte beim Übergang in die weiterführenden Schulen quantitativ zu bestimmen. Auf der Grundlage des Mannheimer Bildungspanels (MAPS) kommt Stocké (2007) zu einer explorativen Schätzung, dass primäre und sekundäre Effekte in ähnlicher Stärke an der Übergangsentscheidung beteiligt seien. In Studien für Bayern und Sachsen konnten Ditton und Krüsken (2006) und Ditton (2007) anhand des Grundschullängsschnitts „Kompetenzaufbau und Laufbahn im Schulsystem“ (KOALA) zeigen, dass bis zu 30 % der Disparitäten auf sekundäre und bis zu 70 % oder mehr auf primäre Effekte zurückgehen. Anhand der ÜBERGANG-Studie des Max-Planck-Instituts für Bildungsforschung in Berlin, die sich zwei LSA-Untersuchungen simultan zunutze machte, arbeiteten Maaz und Nagy (2009) heraus, dass in der chronologischen Abfolge von Leistungsbeurteilung (Notenvergabe, Laufbahnbeurteilung, Verteilung der Übergangsempfehlung) und Übergangsentscheidung das Gewicht der Sekundäreffekte im Vergleich zu den primären Einflüssen systematisch zunimmt. Bei der Notenvergabe überwiegen noch primäre Herkunftseffekte, bei der Verteilung der Übergangsempfehlung sind primäre und sekundäre Effekte ausbalanciert, und bei der Übergangsentscheidung dominieren schließlich sekundäre Herkunftseffekte.

An diese Arbeiten schlossen Untersuchungen an, die unter Nutzung derselben Datensätze die Logik der Entscheidungsfindung handlungstheoretisch zu erklären versuchten. Ein in Deutschland verbreitetes theoretisches Erklärungsmodell ist das von Esser (1999) vorgeschlagene Wert-Erwartungsmodell, das an das von Erikson und Jonsson (1996) und Breen und Goldthorpe (1997) vorgeschlagene Rational-Choice-Modell anschließt. In dieses Modell gehen Einschätzungen des Nutzens, der Kosten und der Erfolgswahrscheinlichkeit der Wahl einer Bildungslaufbahn und ihre Wechselwirkungen ein. Die drei bereits vorgestellten Übergangsstudien erlauben eine theoretisch und empirisch befriedigende Spezifikation des Modells. Die Befunde zur Bewährung des Wert-Erwartungsmodells für die Erklärung von Disparitäten der Bildungsbeteiligung sind gemischt. Erst wenn das Modell durch die Berücksichtigung sozialer Normen – das Verhalten signifikanter Anderer – und institutioneller Opportunitäten und Restriktionen – Noten und Übergangsempfehlungen – erweitert wurde, konnten soziale Unterschiede der Bildungsbeteiligung zufriedenstellend erklärt werden (Ditton 2007; Stocké 2007; Stubbe 2009; Jonkmann et al. 2010).

Im Hinblick auf Interventionsmöglichkeiten zur Verminderung sozialer Disparitäten der Bildungsbeteiligung sind die Schätzung der primären Effekte und die Bedeutung der Schulleistungen für die Übergangsentscheidung von größter Bedeutung. Diese Befunde sind eine nachträgliche Rechtfertigung der Schwerpunktsetzung auf frühe Förderung insbesondere der Lesekompetenz in der Vor- und Grundschulzeit, die die KMK (2002) in ihren „Handlungsfeldern“ vorgenommen hatte, und eine zusätzliche Begründung für das Forschungs- und Entwicklungsprogramm „Bildung durch Sprache und Schrift“ (BISS) von Bund und Ländern (BISS 2016). Ob man deshalb von evidenzbasierter Steuerung sprechen kann, ist allerdings mehr als fraglich. Die öffentliche Aufmerksamkeit konzentriert sich nach wie vor ausschließlich auf den deskriptiven Befund des Zusammenhangs von Herkunft und Kompetenzerwerb und sorgt damit für politische Dynamik.

9 Zuwanderung als Tatbestand

Von Deutschland als einem Einwanderungsland zu reden, galt noch Ende der 1990er-Jahre als politisch inkorrekt. Bezeichnenderweise verfügte Deutschland in dieser Zeit über eine Wanderungs-, aber über keine Zugewandertenstatistik. Der Mikrozensus erfasste die Staatsangehörigkeit, aber nicht den Migrationshintergrund. Die verfügbaren Angaben zur ausländischen Wohnbevölkerung lieferten bereits im Jahr 2000 ein unzutreffendes Bild der langfristigen Auswirkungen des Zuwanderungsgeschehens auf die Bevölkerungsstruktur. Der Anteil der Personen mit Zuwanderungsgeschichte an der Wohnbevölkerung wurde um mehr als die Hälfte unterschätzt. Im Rückblick offenbart sich hier ein bemerkenswertes Versagen der Migrationsforschung vor politisch beschlossener Unwissenheit.

Dies änderte sich erst mit PISA und dem internationalen Vergleich. Mit der international üblichen Definition des Migrationshintergrunds anhand des Geburtslandes der erfassten Person, ihrer Eltern und Großeltern wurde zum ersten Mal der tatsächliche Umfang der Zuwanderung und die Verteilung auf Zuwanderungsgenerationen sichtbar (Baumert und Schümer 2001). Im Jahre 2000 stammten 27 % der 15-jährigen Schulbevölkerung in den alten Bundesländern aus Familien, in denen mindestens ein Elternteil zugewandert war. Über alle Bundesländer hinweg betrug der Anteil 21 %. In den westdeutschen Großstädten konnte eine Quote von 35 % Jugendlicher mit Migrationshintergrund erreicht werden. 47 % der 15-Jährigen mit Migrationshintergrund war bereits in Deutschland geboren, gehörte also zur zweiten Generation. Allein die Information über den quantitativen Umfang der Zuwanderung stellte die öffentliche Diskussion über Migration in Deutschland auf eine neue Grundlage. Deutschland war ein Einwanderungsland. Erst ab 2005 wird nach der entsprechenden Novellierung des Mikrozensusgesetzes der Migrationsstatus auch regelmäßig im Mikrozensus erfasst. Damit wurde auch die altersabhängige demografische Dynamik der Zuwanderung sichtbar (Rühl 2009; Autorengruppe Bildungsberichterstattung 2016).

Die PISA-Ergebnisse 2000 zur Bildungsbeteiligung und zum Kompetenzerwerb von Jugendlichen mit Migrationshintergrund stellten klar, dass es sich bei Kindern und Jugendlichen aus Zuwandererfamilien um eine doppelt – sozial und ethnisch – benachteiligte Gruppe handelte, die einem erhöhten Ausbildungs- und Beschäftigungsrisiko ausgesetzt war. Die zahlreichen nachfolgenden LSA-Studien klärten, dass die ethnischen Disparitäten nicht erst in der Sekundarstufe I auftraten, sondern ebenso in der Grundschule und schon vor Beginn der Schulzeit nachweisbar waren (Haag et al. 2012; Anders, 2013; Becker et al. 2013; Ebert et al. 2013). Das Thema der ethnischen Ungleichheit hat in den letzten 15 Jahren nicht an öffentlichem und politischem Interesse verloren und im letzten Jahr durch die Flüchtlingszuwanderung neue Dramatik erhalten (Autorengruppe Bildungsberichterstattung 2016).

Hat sich aber auch das Wissen über die Genese der Ungleichheit verbessert? In Bezug auf die Entstehung von Disparitäten der Bildungsbeteiligung wird man diese Frage bejahen. Im Jahre 2007 lag die Übergangswahrscheinlichkeit zum Gymnasium für deutschstämmige Kinder doppelt so hoch (p =0,46) wie für Kinder aus Zuwandererfamilien (p = 0,23) (Jonkmann et al. 2010). Von wissenschaftlicher Seite wurden ganz unterschiedliche Erklärungen und Erklärungskombinationen angeboten, die im Sinne von Goldthorpe (2001) jeweils für ein unterschiedliches Narrativ der Genese von Benachteiligung stehen. Verantwortlich für das differenzielle Übergangsverhalten könnten sein: eine kulturelle Distanz der zugewanderten Bevölkerung gegenüber dem deutschen Bildungssystem und damit fehlende Bildungsmotivation, mangelnde Vertrautheit mit dem deutschen Berechtigungssystem und der Bedeutung von Schulabschlüssen für den Lebenslauf, institutionelle Diskriminierung in der Grundschule vor allen Dingen bei der Vergabe der Übergangsempfehlungen oder Auswirkungen eines stereotype threat (Steele und Aronson 1995), nach dem sich gesellschaftliche Geringschätzung von Zuwanderern und ihren Fähigkeiten subtil ungünstig auf selbstbezogene Kognitionen, Selbstvertrauen, Aspirationen und kognitive Leistungen auswirkt. Gresch und Becker (2010) sowie Kristen und Dollmann (2009) haben diese Annahmen zumindest implizit für die größten Zuwanderungsgruppen überprüft. In ihren Analysen konnten sie zeigen, dass nach Kontrolle von Schulleistungen ethnische Disparitäten der Bildungsbeteiligung am Ende der Grundschulzeit nicht mehr nachweisbar sind und bei zusätzlicher Kontrolle der Sozialschicht die Übergangswahrscheinlichkeit von Kindern mit Migrationshintergrund mehrfach höher ist als die deutschstämmiger Kinder. Lehmann et al. (1997) konnten bereits mit der Large-Scale-Assessment-Studie LAU belegen, dass von institutioneller Diskriminierung von Zuwandererkindern an Grundschulen, sofern es sich um die Übergangsempfehlung handelt, keine Rede sein kann – bei gleichen Leistungen erhielten sie vielmehr im Vertrauen auf ihre Leistungsfähigkeit einen EmpfehlungsbonusFootnote 2. Bei Zuwanderern handelt es sich in der Regel um hoch bildungsmotivierte Gruppen, die sehr wohl über die Bedeutung von Bildungsabschlüssen in Deutschland Bescheid wissen, nicht nur hohe Aspirationen haben, sondern diese auch bei adäquater Leistung in eine erhöhte Bildungsbeteiligung am Gymnasium umsetzen. Die Barriere, die Zuwandererkinder überwinden müssen, sind ihre Kompetenznachteile vor allem in der Beherrschung der Verkehrssprache bereits zu Beginn der Grundschulzeit. Ob die langfristigen Auswirkungen von stereotype threat die Bildungsmotivation dämpfen, lässt sich aufgrund der verfügbaren Daten nicht sagen – wenn ja, können die Auswirkungen auf die Übergangsentscheidungen nicht sehr groß sein.

Die Folgefrage liegt auf der Hand. Unterscheiden sich die Entwicklungsverläufe von Kindern mit und ohne Zuwanderungshintergrund im Hinblick auf Basisqualifikationen während der Grundschulzeit? Die Befunde sind hier gemischt. In einer von Pfost et al. (2014) vorgelegten Metaanalyse zeigten sich für die Lesekompetenz sowohl kompensatorische als auch Divergenz vergrößernde Entwicklungsverläufe. Besonders während der Vorschul- und zu Beginn der Grundschulzeit scheinen sich Startvorteile zu vergrößern. Für Deutschland ist die Datenlage unbefriedigend. Vergleicht man die Ergebnisse von Querschnittuntersuchungen zum Wortschatz und zur Morphosyntax im Alter von 5 Jahren mit den Untersuchungsergebnissen zum Leseverständnis gegen Ende der 4. Klasse, gehen die Unterschied zwischen Kindern mit und ohne Migrationshintergrund von mehr als einer SD auf gut eine halbe SD zurück (Haag et al. 2012; Anders 2013). Baumert et al. (2012) konnten für die späte Grundschulzeit in der 5. und 6. Jahrgangsstufe einen generellen Kompensationseffekt in der Entwicklung der Lesekompetenz nachweisen, von dem Kinder aus Zuwandererfamilien in besonderer Weise profitierten. Pfost et al. (2012) berichten für die 3. und 4. Jahrgangsstufe einen Schereneffekt, bei dem Kinder mit ernsthaften Leistungsdefiziten im Lesen eine langsamere Entwicklung zeigen als unauffällige Klassenkameraden. Eine Erklärung für diese scheinbar widersprüchlichen Befunde könnten nichtlineare Entwicklungsverläufe in Kombination mit Entwicklungsrückständen sein, die zu unterschiedlichen Phasen der Vergrößerung und Verkleinerung von Kompetenzunterschieden führen (vgl. Baumert et al. 2012).

Was bedeuten diese Befunde für politisches Handeln? Die wichtigste Erkenntnis ist wohl, dass differenziertes Erklärungswissen nicht notwendigerweise größere Bedeutung für politisches Handeln hat als die genaue Deskription eines Tatbestandes. Wenn man darüber hinaus zwei weitere Schlüsse aus den Befunden ziehen will, dann die, dass die frühzeitige Sicherung von Basiskompetenzen für alle die Maßnahme zur Verringerung herkunftsbedingter Disparitäten ist und man bei demselben Angebot für alle nicht ohne Weiteres mit Kompensationseffekten rechnen kann. Im Grunde bleibt es bei der Schlussfolgerung, die Willms (2002) in seinem Aufsatz Raising and Leveling the Learning Bar gezogen hat. Wenn man herkunftsbedingte Disparitäten verringern und gleichzeitig das durchschnittliche Leistungsniveau der Altersgruppe erhöhen will, heißt der Königsweg: Förderung aller Leistungsschwachen unabhängig von ihrer sozialen und ethnischen Herkunft. Angesichts der (theoretisch und empirisch nicht gut begründeten) pädagogischen Hoffnungen, die zurzeit auf Individualisierung und differenzierenden Umgang mit Heterogenität gesetzt werden, ist dies eine erfrischend einfache, aber immer noch hinreichend anspruchsvolle Botschaft.

10 Veränderungswissen – die Lösung des Problems?

Hilft in dieser Situation die Durchführung von LSA, die als quasi-experimentelle oder randomisierte Feldexperimente angelegt sind, weiter? Dieser Typ von Untersuchungen ist nicht nur in Deutschland im Bildungsbereich selten zu finden. Das gilt vor allem für randomisierte Kontrollgruppenstudien (Coalition for Evidence-Based Policy 2016). Zwei Beispiele aus Deutschland lassen sich jedoch heranziehen. Klieme (2014) betrachtet die Ergebnisse einer im Rahmen von PISA 2009 durchgeführten quasi-experimentell angelegten Längsschnittstudie auf institutioneller Ebene als Beispiel für politisch handlungsleitendes Veränderungswissen. Bei der Untersuchung handelt es sich um eine klug geplante Studie mit 54 Gymnasien, die zweimal – im Jahre 2000 und 2009 – im PISA-Sample vertreten waren. Die Anlage der Studie ist quasi-experimentell, da ein Teil der Gymnasien sich in der neunjährigen Karenzzeit zu Ganztagsschulen weiterentwickelt und/oder eine verstärkte interne Evaluationspraxis eingeführt hatte. Ganztagsbetrieb und interne Evaluation wurden als Treatments behandelt und die Stichprobe entsprechend dichotomisiert. Damit ergibt sich ein quasi-experimentelles Zwei-mal-zwei-Design (Bischof et al. 2013). Die abhängigen Variablen sind die Veränderungen des mittleren Motivations- und Leistungsniveaus über die Zeit. Die Autoren berichten drei Haupteffekte: Die Einrichtung des Ganztagsbetriebs geht mit verbesserter Motivation der Schülerinnen und Schüler einher, und mit der Kultivierung einer internen Evaluationspraxis verbessern sich Leistung und Motivation (die Interaktion beider Treatments wurde nicht geprüft). Ist dieser Befund Veränderungswissen, das unmittelbar politisch handlungsleitend sein kann oder zumindest sein sollte? Wissenschaftlich liegen die Einschränkungen einer kausalen Interpretation der Befunde auf der Hand. Schulleitungen und Lehrkörper, die sich für die Umstellung ihrer Schule auf Ganztagsbetrieb oder eine verstärkte interne Evaluationspraxis verständigen, unterscheiden sich wahrscheinlich nicht nur hinsichtlich dieser Entscheidungen, sondern auch in ihren Vorstellungen von Schulleben und Qualitätssicherung – also relevanten Faktoren der Schulentwicklung. Diese Unterschiede werden aber mit der Kontrolle des mittleren Leistungs- bzw. Motivationsniveaus der Schülerschaft im Jahr 2000 nicht kontrolliert. Damit bleibt das Assignment-Problem ungelöst, und es ist mit großer Wahrscheinlichkeit mit unbeobachteter Heterogenität zu rechnen. Aber selbst wenn man von diesen Einwänden einmal absieht, handelt es sich bei diesen Befunden tatsächlich um handlungsleitendes Veränderungswissen? Wenn die Befunde in ein bildungspolitisches Programm passen, in dem die allmähliche Ausweitung von Ganztagsbetrieb und Qualitätssicherung durch interne Evaluation ein Entwicklungsziel darstellt, sind sie sicherlich eine brauchbare argumentative Unterstützung und Vergewisserung politischen Handelns, wie Tillmann et al. (2008) am Beispiel der Rezeption von PISA 2000 gezeigt haben (vgl. Dedering et al. 2007). Die Befunde werden aber keine verantwortliche Ministerin und keinen Minister dazu bringen, Prioritäten ihres oder seines politischen Programms zu ändern – und mit Recht. Denn eine flächendeckende Implementation der Maßnahmen unter veränderten Kontextbedingungen – sei es durch Anordnung oder Inzentivierung – garantiert kein verantwortliches und zielgerichtetes Handeln von Professionellen und damit auch nicht das Auftreten des quasi-experimentell nachgewiesenen Effekts.

Ändert sich dies, wenn man ein tatsächlich randomisiertes Feldexperiment als Beispiel heranzieht? Mit Unterstützung der Jacobs Foundation hat das Max-Planck-Institut für Bildungsforschung im Land Bremen eines der wenigen randomisierten Feldexperimente, die in Deutschland den Ansprüchen von LSA annähernd genügen, durchgeführt (Stanat et al. 2005). In einer Sommerschule mit randomisierter Zuweisung zu Treatment- und Kontrollgruppe sollte geprüft werden, ob leseschwache Grundschülerinnen und -schüler durch sprachintensive Erfahrungen bei der Vorbereitung einer Theateraufführung (Treatment 1) bzw. durch eine Kombination von Theaterspiel und zusätzlichem Sprachunterricht (Treatment 2) im Vergleich zu einer unbehandelten Wartegruppe Verbesserungen in der Beherrschung der Verkehrssprache erreichen könnten. In diesem randomisierten Feldexperiment ließ sich ein positiver Sprachförderungseffekt für das kombinierte Treatment, nicht aber für die Immersion in sprachintensive Situationen zeigen, der auch noch mehrere Monate später abklingend nachweisbar war (Stanat et al. 2012). Das Resultat ist mit Ergebnissen anderer Interventionsprogramme vergleichbar. Punktuelle Fördermaßnahmen können sichtbare Erfolge haben, die aber über die Zeit ausklingen, wenn die Förderung nicht systematisch fortgesetzt wird. Handlungsleitende Evidenz? Wohl kaum, aber eine Orientierung, wenn Bildungspolitik und Bildungsadministration über die intelligente Nutzung von Sommerschulen und die Stabilisierung ihrer positiven Effekte nachdenken.

11 Empirische Bildungsforschung und Politik: Kommunikation trotz unterschiedlicher Handlungslogiken

Politik und Verwaltung sind, um handlungsfähig zu sein, auf kontinuierliche und vor allen Dingen auch auf vorausschauende Informationen über die Funktionsfähigkeit des Bildungssystems angewiesen. Dazu gehören auch wissenschaftliche Informationen insbesondere dann, wenn im Wissenschaftssystem Forschungsergebnisse zur Leistungsfähigkeit des Systems erzeugt werden, die öffentliches Interesse finden und politisierbar sind. Die Bildungsverwaltungen aller Länder haben mittlerweile Instrumente der quantitativen und qualitativen Dauerbeobachtung entwickelt und institutionalisiert, die sie in die Lage versetzen, nicht nur aufgrund amtlicher Statistiken Entwicklungen zu verfolgen, sondern Informationen auch selbst im Modus der Wissenschaft zu erzeugen oder erzeugen zu lassen. Verwaltungsnahe Einrichtungen mit wissenschaftlichem Auftrag können dabei ganz selbstverständlich Teil des Wissenschaftssystems sein, auch wenn die Grundzüge des Arbeitsprogramms und zentrale Aufgabenstellungen im Modus politischen Handelns festgelegt werden. Sie sind Bindeglied eines komplexen Kommunikationsnetzes zwischen Politik, Verwaltung und Wissenschaft (Baumert und Füssel 2012; Tenorth 2014).

Empirische Bildungsforschung definiert sich über den Gegenstandsbereich – auch wenn er sehr breit gefasst ist (vgl. Abschn. 1) – und nicht über eine wissenschaftliche Disziplin. Die empirisch arbeitende Erziehungswissenschaft ist nur ein, wenn auch wichtiger Mitspieler unter anderen. Dies hat Folgen sowohl für die Selektion als auch für die Bearbeitung von Fragestellungen. Fragestellungen sind an das Forschungsfeld gebunden, und ihre Auswahl und Formulierung orientieren sich in der Regel an zwei unterschiedlichen Relevanzkriterien, die in eine Balance zu bringen sind. Sie müssen innerhalb einer Referenzdisziplin wissenschaftlich und d. h. theoretisch und methodisch anschlussfähig sein und sollen gleichzeitig innerhalb des Handlungsfelds gesellschaftliche, politische oder praktische Bedeutung haben.

Die LSA sind ein gutes Beispiel dafür, wie sich innerwissenschaftliche Bedeutung von Fragestellungen und Befunden mit öffentlicher und politischer Relevanz verbinden kann. Die LSA wirkten gerade in dieser Verbindung als Katalysatoren für die Dynamik der empirischen Bildungsforschung insgesamt, die mittlerweile auf einer Reihe von Gebieten jenseits von LSA hoch aktiv ist. Von diesem Prozess haben insbesondere die Erziehungswissenschaft und die Fachdidaktiken profitiert, die – soweit sie empirisch arbeiten – internationale Anschlussfähigkeit gewonnen haben. Die LSA scheinen immer dann besondere wissenschaftliche und öffentliche Aufmerksamkeit gefunden zu haben, wenn sie Sensitivität für gesellschaftliche Problemlagen mit einem methodischen Vorgehen verbinden konnten, in dem sowohl die theoretisch angeleitete, dichte Beschreibung des Gegenstands als auch die Entwicklung eines das Phänomen oder den Zusammenhang erklärenden Narrativs zu ihrem Recht kamen.

Die LSA sind aber auch der Untersuchungstypus, bei dem die institutionalisierte Kommunikation zwischen Politik und Wissenschaft besonders eng und differenziert ist. Umso mehr drängt sich die Frage auf, wie sich dieser Austausch trotz unterschiedlicher Funktionslogik der Systeme relativ konfliktarm auf Dauer stellen ließ. Die Antwort mag im ersten Moment paradox erscheinen. Unter den Bedingungen einer medialen, Transparenz erzeugenden Dauerbeobachtung dürfte die wechselseitige Akzeptanz der unterschiedlichen Handlungsrationalität von Politik und Wissenschaft die Voraussetzung sein, um erfolgreich kommunikative Anschlussstellen zu finden. Solche Anschlussstellen sind am ehesten in der Verständigung über wichtige und wissenschaftlich bearbeitbare Problemlagen im Feld und im Austausch über mögliche Implikationen von empirischen Befunden auszumachen. Die Kommunikation erlaubt den konstruktiven Umgang mit unterschiedlichen Handlungslogiken, setzt ihre Differenz aber nicht außer Kraft. Grenzüberschreitungen gefährden oder beenden die Kommunikation.

Empirische Bildungsforschung ist als Wissenschaft dem Erkenntnisgewinn und seiner diskursiven Validierung verpflichtet. Insofern verblüfft das wissenschaftskritische Aperçu, das Ewald Terhart mit Zustimmung von politischer Seite und Applaus der kritischen Erziehungswissenschaft geprägt hat: „Das Wissen über Leistungsergebnisse von Schulsystemen wächst schneller als das Wissen darüber, was man mit diesem Wissen anfangen kann.“ (Terhart 2002, S. 108). Man kann darin eine melancholische Beschreibung von Systemdifferenz sehen. Zur Kritik wird die Aussage erst durch einen Kategorienfehler, nämlich wenn man dem Konzept einer praktischen oder politischen Wissenschaft folgt. Wenn man aus der Geschichte lernen kann, müsste die Erziehungswissenschaft klüger geworden sein. Denn mit beiden Konzeptionen hat sie missliche Erfahrungen gemacht. Aber auch hier gilt vox emissa non revertitur – oder vielleicht doch? Nämlich als vorwurfsvolles Echo seitens der Politik, die empirische Bildungsforschung möge endlich das tun, was sie nicht tun kann – handlungsleitende Evidenz für eine rationale Politik erzeugen.