Portfolioarbeit ist in der Ausbildung von Lehrpersonen weit verbreitet und gilt als relevantes Konzept in der Lehrerinnen- und Lehrerbildung. So wird der Portfolioarbeit national wie international ein hohes Innovationspotenzial zugeschrieben (Barton und Collins 1993; Feder und Cramer 2019; Fütterer 2019; Gläser-Zikuda und Hascher 2007; Hascher und Sonntagbauer 2013; Strudler und Wetzel 2008). Zum Beispiel wird konstatiert, dass Portfolioarbeit die Reflexivität angehender Lehrpersonen fördert, indem berufsrelevante Handlungssituationen auf der Grundlage von Professionswissen bearbeitet werden (Borko et al. 1997; Gläser-Zikuda 2009; Häcker 2012). Allerdings wird argumentiert, dass sich die Potenziale nur bei der Sicherstellung von Gelingensbedingungen entfalten (Fütterer 2019), etwa wenn die Anwenderinnen und Anwender positive Einstellungen zu Portfolioarbeit haben (Imhof und Picard 2009; Ziegelbauer 2016). In dieser Arbeit werden Einstellungen als evaluative Reaktionen auf Einstellungsobjekte (hier: Portfolioarbeit) definiert (Ajzen 2001; Albarracín et al. 2018) und durch das Ausmaß an Zustimmung oder Ablehnung ausgedrückt (Kopietz und Echterhoff 2016). Nicht berücksichtigt werden in dieser Studie affektive Aspekte von Einstellungen (d. h. Gefühle oder Emotionen).

Einstellungen sind mit Ausprägungen menschlichen Handelns verknüpft (Ajzen 1987; Glasman und Albarracín 2006): Für die Portfolioarbeit wird daher angenommen, dass Einstellungen zu Portfolioarbeit mit der Arbeitsweise von angehenden Lehrpersonen bei der Bearbeitung (z. B. Kontinuität) von Portfolios zusammenhängen. Weil Einstellungen mittels Selbsteinschätzungen niedrigschwellig zu erfassen sind und deren Erhebung zugleich den ersten Schritt einer Evaluationsmaßnahme kennzeichnet (Kirkpatrick und Kirkpatrick 2006), existieren in diesem Bereich die meisten empirischen Befunde in der Portfolioforschung (Feder und Cramer 2019; Hofmann et al. 2016). In deren Zusammenschau zeigen angehende Lehrpersonen häufig negative Einstellungen zur Portfolioarbeit, wobei die Befundlage heterogen ist. Je nach Standort wurden positive (z. B. Christen und Hofmann 2013) oder negative Einstellungen (z. B. Streblow et al. 2013) festgestellt. Derartige Befunde sind allerdings kaum vergleichbar, da die Einstellungen unterschiedlich und meist unter Bezugnahme auf standortspezifische Merkmale der Portfoliokonzeptionen operationalisiert wurden (Gläser-Zikuda et al. 2020). Validierte Instrumente wurden bislang kaum eingesetzt. Angesichts des Mangels an geteilten Kerncharakteristika von Portfolioarbeit überrascht die Heterogenität der Operationalisierungen nicht. Für die Lehrerinnen- und Lehrerbildung ergibt sich aus dem Fehlen von Instrumenten für eine standardisierte Erfassung von Einstellungen zur Portfolioarbeit, dass sich bisher kaum abschätzen lässt, ob die der Portfolioarbeit zugesprochenen Potenziale beispielsweise hinsichtlich der Reflexionsfähigkeit von (angehenden) Lehrpersonen tatsächlich Wirkung entfalten. In diesem Zusammenhang bietet die systematische Identifikation grundlegender Potenziale von Portfolioarbeit (Feder und Cramer 2018) erstmalig die Möglichkeit, ein Instrument zur Erfassung von Einstellungen zu Portfolioarbeit standortunabhängig zu entwickeln. Im Beitrag wird deshalb in einem ersten Schritt die Entwicklung eines solchen Instrumentes dokumentiert. Das Instrument wurde basierend auf einer Vorstudie (Feder et al. 2021) iterativ über Pretests entwickelt. In einem zweiten Schritt werden zwei Validierungsstudien mit N1 = 424 und N2 = 374 Lehramtsstudierenden zur Prüfung der Reliabilität, Konstruktvalidität, Kriteriumsvalidität und geschlechtsspezifischen Testfairness des finalen Instruments vorgestellt.

1 Theoretischer Hintergrund

1.1 Portfolioarbeit und deren Potenziale

Portfolioarbeit ist in der deutschsprachigen Ausbildung von Lehrpersonen weit verbreitet und in einigen Bundesländern der Bundesrepublik Deutschland sogar verbindlich vorgeschrieben (Monitor-Lehrerbildung 2019). Obwohl eine spezifische Definition von Portfolioarbeit weder sinnvoll noch möglich ist, gelten zum einen das Sammeln von Dokumenten eigener Leistungen und zum anderen die reflexive Bezugnahme auf diese Dokumente als zentrale Merkmale von Portfolioarbeit (Fütterer 2019). Während Portfolioarbeit in Deutschland überwiegend in der ersten (Studium) und zweiten Phase (Referendariat) etabliert ist, kommt sie in der dritten Phase (berufsbegleitende Fort- und Weiterbildung) seltener zum Einsatz (Gläser-Zikuda et al. 2020). Der Begriff Portfolioarbeit vereint eine Vielzahl höchst unterschiedlicher Konzepte (Gläser-Zikuda et al. 2020; Häcker 2012). Portfoliokonzepte unterscheiden sich etwa im Hinblick auf den zeitlichen Umfang der Portfolioarbeit oder den Grad der institutionellen Verbindlichkeit (Häcker und Lissmann 2007). Die verschiedenen Konzepte adressieren unterschiedliche Potenziale von Portfolioarbeit, die je nach Anwendungskontext stark divergieren (Koch-Priewe 2013); teilweise werden sogar gegenläufige Potenziale adressiert (z. B. Reflexivitätsförderung versus Leistungsmessung). In einer systematischen Inhaltsanalyse deutschsprachiger Literatur zur Portfolioarbeit in der Ausbildung von Lehrpersonen haben Feder und Cramer (2018) neun empirisch voneinander abgrenzbare Potenziale herausgearbeitet.

Die Potenziale beziehen sich auf die Unterstützung der individuellen professionellen Entwicklung (angehender) Lehrpersonen (Aspekt Professionalisierungsinstrument) oder auf die Optimierung von Strukturen lehrerbildender Studiengänge (Aspekt Strukturinstrument). Diese Potenziale werden je nach Standort und Portfoliokonzeption unterschiedlich stark adressiert und können Ausgangspunkt für eine konzeptionsübergreifende Analyse von Einstellungen zu Portfolioarbeit sein.

1.2 Einstellungen zu Portfolioarbeit

Für die Entfaltung von Potenzialen einer Portfolioarbeit gelten positive Einstellungen der Anwenderinnen und Anwender zur Portfolioarbeit als zentrale Voraussetzung (Brouër 2005, 2007; Fütterer 2019; Hascher und Sonntagbauer 2013; Imhof und Picard 2009; Klampfer 2013; Ziegelbauer 2016; für Einstellungen allgemein siehe: Ajzen 1987; Ajzen und Fishbein 1980). Entsprechend wird im Rahmen von Evaluationsmaßnahmen vorgeschlagen, zunächst Einstellungen der Anwenderinnen und Anwender zu erfassen (Kirkpatrick und Kirkpatrick 2006). Zur Portfolioarbeit liegen bereits Befunde zu den Einstellungen von Anwenderinnen und Anwendern vor (vgl. Bryant und Chittum 2013; Feder und Cramer 2019; Feder et al. 2021; Hofmann et al. 2016), die gemischt ausfallen. Einerseits zeigen sich vereinzelt positive Einstellungen (z. B. Artmann und Herzmann 2016; Christen und Hofmann 2013), andererseits legen Befunde aus Reviews nahe, dass angehende Lehrpersonen eher negative Einstellungen zu Konzepten der Portfolioarbeit haben (Cakir und Balcikanli 2012; Feder und Cramer 2019; Feder et al. 2021; Hofmann et al. 2016). Zum Beispiel zeigt sich bei Evaluationen standortbezogener Portfoliokonzepte teilweise deutliche Ablehnung (z. B. Pineker und Störtländer 2013; Streblow et al. 2013). Allerdings resultieren die Befunde überwiegend aus Konzeptevaluationen einzelner Hochschulen, weshalb der Vergleich bisheriger Befunde kaum möglich ist (Feder et al. 2019). Unter anderem wegen der konzeptionsspezifischen Forschung zu Portfolioarbeit und der daraus resultierenden Schwierigkeit, Befunde miteinander vergleichen zu können, liegen erwartungskonform kaum umfassende Überblicksarbeiten zur empirischen Befundlage zu Portfolioarbeit vor und insgesamt wird ein „großes Forschungsdefizit“ (Hofmann et al. 2016, S. 35) attestiert. Das in dieser Studie vorgestellte Instrument nimmt dieses Desiderat und bietet die Möglichkeit, über einzelne Programmevaluationen hinaus Erkenntnisse zur Portfolioarbeit und dessen Steuerung und Entwicklung zu gewinnen. Dadurch eröffnen sich erste Ansatzpunkte, um Chancen und Grenzen von Portfolioarbeit in der Lehrerinnen- und Lehrerbildung kritisch-konstruktiv zu prüfen.

1.3 Operationalisierung der Einstellungen zu Portfolioarbeit

Die Messung von Einstellungen zur Portfolioarbeit erfolgte bislang überwiegend mittels (Gruppen)Interviews und -diskussionen (Artmann und Herzmann 2016; Ziegelbauer und Gläser-Zikuda 2016) sowie Fragebogenerhebungen (z. B. Brouër 2007; Fütterer 2019; Pineker und Störtländer 2013; Schlag 2015; Streblow et al. 2013; Ziegelbauer 2016). Wenn eine standardisierte Erfassung mittels Fragebogen erfolgte, wurden Einstellungen unterschiedlich definiert und unter Verwendung verwandter Konstrukte operationalisiert. So bewerteten etwa in der Studie von Streblow et al. (2013) Lehramtsstudierende anhand von 20 Items den Nutzen der Portfolioarbeit in der ersten Phase u. a. bezogen auf die dortige, standortspezifische Handreichung. Fütterer (2019) untersuchte Einstellungen zur Portfolioarbeit ebenfalls über die Bewertung ihres Nutzens in der zweiten Phase der Lehrerinnen- und Lehrerbildung, u. a. bezüglich Phasenspezifika. Unter Diplomhandelslehramtsstudierenden wurde ein Fragebogen zur Akzeptanz der Portfolioarbeit eingesetzt, der auf den spezifischen Anwendungskontext abzielt (Brouër 2007; Brouër und Gläser-Zikuda 2010). Schlag (2015) untersuchte mit einer Skala aus sechs Items die Akzeptanz der portfoliobasierten Dokumentation eines Praktikums u. a. unter Rekurs auf das dort bereitgestellte Material. Diese und weitere Instrumente sind mit Blick auf ihre Entwicklung wenig dokumentiert, stark konzept- bzw. standortspezifisch und nicht konsequent validiert (z. B. ohne Rekurs auf Gütekriterien). Zusammenfassend existiert national und international kein theoretisch fundiertes, validiertes Instrument.

1.4 Zielsetzungen und Annahmen

Das Ziel dieses Beitrages ist, ein reliables, valides und bezüglich Geschlechtsgruppen faires Instrument zur Erfassung von Einstellungen von Lehramtsstudierenden zu den systematisch identifizierten Potenzialen von Portfolioarbeit zu entwickeln. Ein reliables und valides Instrument zur Erfassung von Einstellungen zu Portfolioarbeit unabhängig von standortspezifischen Portfoliokonzeptionen erscheint besonders hinsichtlich der Vergleichbarkeit von Befunden aus unterschiedlichen Studien zur Portfolioarbeit notwendig, um einen ersten Schritt für belastbarere Aussagen zur Tragfähigkeit des Einsatzes von Portfolios in der Lehrerinnen- und Lehrerbildung über Hochschulen hinweg zu ermöglichen. Ein bezüglich Geschlechtergruppen faires Instrument ist besonders deshalb wichtig, weil sich in aktuellen Studien gezeigt hat, dass sich angehende Lehrpersonen hinsichtlich verschiedener Personenmerkmale (z. B. Selbstwirksamkeit, Selbstreflexion, Enthusiasmus) unterscheiden (Holzberger et al. 2021). Zudem zeigen Frauen und Männer konkret bei der Portfolioarbeit unterschiedliche Arbeitsweisen (z. B. bezüglich des Umfangs ihrer Reflexionen oder ihrer Gewissenhaftigkeit bei der Bearbeitung; Fütterer 2019). Auch zeigte sich, dass Nutzerinnen der Portfolioarbeit ein höheres Potenzial zuschreiben (Feder et al. 2021), die Portfolios besser organisieren (Dreyer 2015), mehr Artefakte einbinden (Taylor et al. 2012) oder längere Texte zu Reflexionsaufgaben schreiben (Fütterer 2019). Das potenzialbezogene Instrument zu Einstellungen zur Portfolioarbeit sollte demzufolge sensitiv für potenzielle Geschlechtsunterschiede sein. Zugleich sind Portfolios im Studium Werkzeuge, um Lernprozesse zu organisieren. Auch diesbezüglich unterscheiden sich Frauen und Männer, wenn sich etwa Frauen in Lernprozessen mehr mit anderen Lernenden austauschen (z. B. Caspi et al. 2008) und Austauschprozesse lernwirksamer nutzen, indem sie sich stärker argumentativ in Diskussionen einbringen und eher Feedback von anderen annehmen (z. B. Noroozi et al. 2022). Auch unterscheiden sich Frauen und Männer bezüglich der intellektuellen Risikobereitschaft (d. h. das Ausmaß, in welchem im akademischen Kontext Situationen [wie beispielsweise Prüfungssituationen] aufgesucht werden, in welchen man mangelnde Fähigkeiten offenbaren könnte; Byrnes et al. 1999) oder bezüglich ihrer strategischen Ansätze im Umgang mit Stress im akademischen Kontext (z. B. Bonneville-Roussy et al. 2017). Für die Erfassung der Einstellung angehender Lehrpersonen zu Portfolioarbeit bedeutet dies, dass Frauen und Männer mit derselben Einstellung zu Portfolioarbeit beispielsweise auf ein Item zum Potenzial von Portfolios für die Gestaltung von Austausch gleich antworten sollten, doch Frauen machen generell positivere Erfahrungen mit dem Austausch beim Lernen. Es muss also sichergestellt werden, dass sich im Antwortverhalten der Geschlechtergruppen tatsächlich die Einstellung zu Portfolioarbeit ausdrückt. Die Items des Instruments müssen daher so gestaltet sein, dass kein Geschlecht diskriminiert wird (Testfairness; Chen et al. 2017; De Ayala 2009; Jin und Chen 2020).

Wir gehen von einer umso positiveren Einstellung zur Portfolioarbeit aus, je mehr Potenzial dieser insgesamt zugeschrieben wird. Entsprechend der unterschiedlichen Potenziale von Portfolioarbeit (Feder und Cramer 2019) und den empirischen Einsichten aus korrelativen Vorstudien zum Zusammenhang dieser Facetten (Feder et al. 2021) kann nicht von einem eindimensionalen Konstrukt Einstellung zu Portfolioarbeit ausgegangen werden. Die Berücksichtigung von Einstellungen zu unterschiedlichen Aspekten einer Portfolioarbeit erscheint zugleich mit Blick auf Erkenntnisse aus der Einstellungsforschung plausibel, wonach Personen gleichzeitig mehrere und sogar ambivalente Einstellungen zum selben Einstellungsobjekt (hier: Portfolioarbeit) haben können (Ajzen 2001), welche die Vorhersagekraft von Einstellungen auf tatsächlich realisiertes Verhalten moderieren können (Glasman und Albarracín 2006). Um in dieser Studie eine grundlegende Einstellung zu Portfolioarbeit abbilden zu können und zugleich unterschiedlich ausgeprägte Einstellungen zu verschiedenen Aspekten (d. h. Potenzialen) von Portfolioarbeit zuzulassen, nehmen wir an, dass eine Bi-Faktor-Struktur oder ein Modell zweiter Ordnung geeignet ist, um die Beziehung zwischen den Potenzialen und das übergeordnete Konstrukt (g-Faktor) abzubilden. Folglich sollten einerseits die expliziten Einstellungen zu den Potenzialen von Portfolioarbeit (Einstellungsobjekte) jeweils als eindimensionale Konstrukte sowie andererseits das übergeordnete Konstrukt (g-Faktor) Einstellung zu Portfolioarbeit erfasst werden (Tab. 1).

Tab. 1 Kategorien der Potenziale von Portfolioarbeit

Reliabel ist das Instrument, wenn es eine hohe interne Konsistenz zeigt. Valide ist das Instrument, wenn sich starke Zusammenhänge des g‑Faktors mit verwandten (konvergente Validität als Aspekt der Konstruktvalidität) bzw. nicht-verwandten Konstrukten (divergente Validität) sowie externen Kriterien (Kriteriumsvalidität) zeigen. Auf Grundlage des Forschungsstandes wurden für die Validierungsstudie erwartete Zusammenhänge zwischen dem g‑Faktor (Einstellungen zu Portfolioarbeit) und anderen Konstrukten formuliert (Axiome: Hartig et al. 2012).

Da Einstellungen zu Portfolioarbeit bisher häufig im Sinne deren Akzeptanz operationalisiert wurden (Klampfer 2013; Schlag 2015; Ziegelbauer 2016), erwarten wir positive Zusammenhänge zwischen den operationalisierten, potenzialbezogenen Einstellungen und den bereits vorliegenden Akzeptanzskalen zu Portfolioarbeit (konvergente Validität). Portfolioarbeit in der Lehrerinnen- und Lehrerbildung zielt u. a. darauf ab, dass angehende Lehrpersonen ihren eigenen Lernprozess reflektieren. Nehmen Lehrpersonen jedoch nicht ihren eigenen Lernprozess in den Blick, sondern den Lernprozess ihrer Schülerinnen und Schüler, liegt ein Perspektivwechsel vor, bei welchem sich Einstellungen entwickeln können. Einstellungen zur Portfolioarbeit, in welchen der eigene Lernprozess reflektiert wird, und Einstellungen zu Lernprozessen von Schülerinnen und Schülern, stellen unterschiedliche Konstrukte dar. Aus diesem Grund nehmen wir an, dass sich keine bis geringe Zusammenhänge zwischen potenzialbezogenen Einstellungen und konstruktivistischen und transmissiven lerntheoretischen Überzeugungen (divergente Validität) zeigen. Da Einstellungen eng mit motivationalen Konstrukten zusammenhängen (Fütterer 2019; Klampfer 2013; Ziegelbauer et al. 2013), erwarten wir zudem positive Zusammenhänge mit dem Interesse, dem wahrgenommenen Nutzen sowie der intrinsischen Motivation bezüglich Portfolioarbeit (Kriteriumsvalidität).

2 Methode

Das Instrument (EPP-L) wurde in einem iterativen Verfahren zunächst sowohl theoretisch fundiert als auch empirisch konstruiert (rationale und induktive Testkonstruktion: Bühner 2011) und anschließend empirisch validiert.

2.1 Konstruktion des Instrumentes

Zu Beginn der Konstruktion des Instrumentes stand die Inhaltsvalidität im Fokus. Zu jedem der theoretisch und systematisch identifizierten Potenziale (Feder et al. 2019) wurden fünf Items entwickelt. Die Iteminhalte orientierten sich dabei an den Kategorienbezeichnungen, Beschreibungen und Ankerbeispielen der theoretischen Vorarbeiten (Feder und Cramer 2018, 2019). Der anfängliche Itempool bestand aus 45 Items, die sich auf 9 Inhaltsaspekte verteilen (Beispielitem: „Ich denke, dass Portfolios zur Reflexion anregen“; Onlinematerial 1). Alle Items wurden mittels einer fünfstufigen Antwortskala erhoben (1 = trifft überhaupt nicht zu bis 5 = trifft voll und ganz zu), wobei eine hohe Ausprägung eine hohe Potenzialzuschreibung und damit eine positive Einstellung ausdrückte. Hinsichtlich der Zumutbarkeit (z. B. zeitliche Belastung von Testpersonen) und Testökonomie (z. B. Kosten und Dauer zukünftiger Erhebungen), wurde eine Reduktion der Itemanzahl so angestrebt, dass jedes Potenzial durch drei Items jeweils eindimensional erfasst wird.

Um sicher zu stellen, dass die Items tatsächlich die neun Inhaltsaspekte repräsentieren, wurden erstens die 45 Items fünf Expertinnen und Experten für Portfolioarbeit zur kritischen Beurteilung vorgelegt (Onlinematerial 2). Um zweitens die Verständlichkeit der Items und Probleme bei der Bearbeitung aus Anwendungsperspektive zu gewährleisten, wurden mit sieben Lehramtsstudierenden kognitive Tests (Lenzner et al. 2015) mittels der Methode des lauten Denkens durchgeführt (vgl. Bühner 2011; Moosbrugger und Kelava 2012). Drittens wurden die 45 Items einem Pretest unter NP1 = 183 Lehramtsstudierenden unterzogen (Alter in Jahren: M = 20.84, SD = 2,59; 68 % weiblich, 31 % männlich; 72 % im 1. Fachsemester, 7 % im 2. Fachsemester, 13 % im 3. Fachsemester), um anhand explorativer Faktorenanalysen (EFA; Rotation = Geomin [Robustheitsanalyse: Rotation = Varimax], Schätzer = Maximum Likelihood) Informationen zu empirisch zugrundeliegenden Faktoren und entsprechenden Ladungsmustern der Items zu erhalten (faktorielle Validität; Tab. 9 und 10 im Anhang). Entscheidungen zum Ein- oder Ausschluss von Items wurden primär auf der Grundlage der Ladungsmuster getroffen. Zudem sollten Items unterschiedlicher Schwierigkeit (0,20 ≤ pi ≤ 0,80) beibehalten werden, wobei mittelschwierige Items (0,45 ≤ pi ≤ 0,55) überrepräsentiert sein sollen (Bühner 2011; Kelava und Moosbrugger 2012). Zudem wurden Items aufgrund der Einschätzungen der Expertinnen und Experten aus inhaltlichen Gründen nicht weiter einbezogen. Im Zweifelsfall wurden inhaltliche Argumente bei der Itemselektion stärker gewichtet als Statistiken. Nachdem viertens ein zweiter Pretest mit zwei Messzeitpunkten in derselben Stichprobe (NP2 = 305 Lehramtsstudierende, Alter in Jahren: M = 21,34, SD = 2,79; 64 % weiblich, 36 % männlich; 71 % im 2. Fachsemester, 20 % im 4. Fachsemester, 7 % im 6. Fachsemester) durchgeführt wurde, bei welchem auf ein vierstufiges Antwortformat (1 = trifft überhaupt nicht zu, 2 = trifft eher nicht zu, 3 = trifft eher zu, 4 = trifft voll und ganz zu) umgestellt wurde, um Antworttendenzen zur Mitte hin vorzubeugen, liegt im Ergebnis das Instrument (EPP‑L) bestehend aus 18 Items (6 Skalen mit je 3 Items) vor (Tab. 2).

Tab. 2 Überblick über die Items des Instrumentes EPP‑L

2.2 Validierung des EPP‑L

2.2.1 Stichproben

Zur Validierung des Instrumentes wurden Stichproben aus zwei Studien herangezogen. Die erste Stichprobe setzt sich aus N1 = 424 Lehramtsstudierenden zusammen (MAlter = 20,53, SDAlter = 2,16, weiblich[w] = 58 %, männlich [m] = 40 %): 330 Bachelorstudierende (MAlter = 19,82, SDAlter = 1.70, w = 65 %, m = 32 %) sowie 94 Masterstudierende (MAlter = 23.13, SDAlter = 1.71, w = 32 %, m = 68 %). Es handelt sich um Gelegenheitsstichproben, die an zwei deutschen Universitäten über verpflichtende Einführungsveranstaltungen akquiriert wurden. Weil für alle Skalen des EPP‑L Messinvarianz zwischen beiden Lehramtssubgruppen vorlag (Messinvarianztestung nach Kleinke et al. 2017; Beurteilung von Root Mean Square Error Of Approximation [RMSEA], Comparative Fit Index [CFI], Standardized Root Mean Square Residual [SRMR]), wurden diese zusammengefasst. N1 als größere der beiden Stichproben diente als Grundlage für die meisten Validierungsanalysen. Weil Einstellungen jedoch erfahrungsabhängig sind (Glasman und Albarracín 2006), wurde zur Absicherung der Befunde zusätzlich auf eine zweite Stichprobe zurückgegriffen, in der die Befragten über mehr Erfahrung (d. h. mehr Lerngelegenheiten) mit Portfolioarbeit verfügten: N2 = 374 Lehramtsstudierende im Master oder auf Staatsexamen (MAlter = 23.37, SDAlter = 4.49, w = 78 %, m = 21 %). Diese zweite Gelegenheitsstichprobe wurde an zwölf deutschen Hochschulen über Dozierende im Lehramt akquiriert.

2.2.2 Instrumente zur Validierung

In den beiden Stichproben wurden unterschiedliche Validierungsinstrumente eingesetzt, was im Folgenden jeweils in Klammern ausgewiesen wird. Die Akzeptanz des Einsatzes von Portfolios wurde hinsichtlich der konvergenten Validität über vier Instrumente erfasst: eine Adaption der Skala von Schlag (2015; AZ1) mit 6 Items (z. B. „Ich würde das Portfolio anderen Studierenden empfehlen“) und guter interner Konsistenz (α = 0,84 [N1]), eine Adaption der Skala von Klampfer (2013; AZ2) mit drei Items (z. B. „Die Arbeit mit dem Portfolio gefällt mir gut“) und einer guten internen Konsistenz (α = 0,80 [N1]) sowie einer Skala von Ziegelbauer (2016; AZ3) mit sechs Items (z. B. „Ich nehme an, dass das Portfolio ein gutes Instrument zur Unterstützung meiner Professionalisierung als Lehrer/in ist“) und ebenfalls guter interner Konsistenz (α = 0,76 [N1]).

Zur Prüfung der divergenten Validität wurden transmissive (TRA) und konstruktivistische (KON) lerntheoretische Überzeugungen anhand zweier Skalen von Kunter et al. (2013, siehe auch Kunter et al. 2017) herangezogen. Die Skala zu konstruktivistischen lerntheoretischen Überzeugungen besteht aus sechs Items (z. B., „Man sollte Schüler(inne)n erlauben, sich eigene Wege zur Bearbeitung von Aufgaben auszudenken, bevor die Lehrkraft vorführt, wie diese zu beantworten sind“) und zeigt in den vorliegenden Daten eine gute interne Konsistenz (α = 0,84 [N1]). Die Skala zu transmissiven lerntheoretischen Überzeugungen besteht aus fünf Items (z. B. „Schüler(innen) lernen durch die Demonstration von Beispielaufgaben am besten“) und zeigt vorliegend ebenfalls gute interne Konsistenz (α = 0,74 [N1]).

Zur Prüfung der Kriteriumsvalidität wurde eine Skala zum Interesse an der Portfolioarbeit von Klampfer (2013) bestehend aus zwei Items (z. B. „Ich denke, dass die Arbeit mit E‑Portfolios nützlich für die Weiterentwicklung in der Schulpraxis ist“) genutzt (INT). Zudem wurde der wahrgenommene Nutzen der Portfolioarbeit (NUZ) mit zwei Skalen erfasst: zum einen mit den sechs Items (z. B. „Ich nehme an, dass Portfolioarbeit für mein Studium hilfreich ist“) der Skala von Ziegelbauer (2016; NUZ1), die in den vorliegenden Daten eine sehr gute interne Konsistenz (α = 0,92 [N1] bis 0,93 [N2]) aufweist; zum anderen mit den fünf Items (z. B. „Was ich beim Arbeiten an und mit dem Portfolio lerne, ist später im Beruf sehr nützlich für mich“) der Skala von Wolfsgruber (2020; NUZ2), die vorliegend eine gute interne Konsistenz (α = 0,78 [N2]) zeigt. Darüber hinaus wurde die Motivation zur Portfolioarbeit (MOT) mit den vier Items der Skala von Ziegelbauer (2016) zur intrinsischen Motivation für Portfolioarbeit im Lehramtsstudium erfasst (z. B. „Ich arbeite mit dem Portfolio, weil es mir Spaß macht“), die in den vorliegenden Daten ebenfalls eine gute interne Konsistenz aufweist (α = 0,85 [N1] bis 0,88 [N2]).

Um diese Instrumente einsetzen zu können, wurden einzelne Items, in denen auf konzeptspezifische Aspekte abgezielt wurde, verallgemeinert adaptiert (z. B. wurde bei einem Item das Wort Arbeitsheft gestrichen). Alle Indikatoren wurden mittels vierstufiger Antwortskala erhoben (1 = trifft überhaupt nicht zu, 2 = trifft eher nicht zu, 3 = trifft eher zu, 4 = trifft voll und ganz zu).

2.2.3 Statistische Analysen

Für die Datenaufbereitung wurden die Software SPSS (v24.0.0.2) und R 4.0.2 (R Core Team 2021), für alle statistischen Analysen das Statistikprogramm Mplus 8 (Muthén und Muthén 1998–2017) verwendet.

Um eine Vergleichbarkeit zu anderen Studien zu ermöglichen, wurde Cronbach’s Alpha (α) als Maß der internen Konsistenz berechnet. Zudem wurde McDonald’s Omega (ω), welches die interne Konsistenz robuster schätzt (Hayes und Coutts 2020), für jede eindimensionale Skala als auch Omega-Subskala-spezifisch (ωSkala‑S) berechnet (Schermelleh-Engel und Gäde 2020). Zudem wurden die Itemschwierigkeiten pi und Itemtrennschärfen rit berechnet (Döring und Bortz 2016).

Die Konstruktvalidität des Instrumentes wurde zunächst mittels der Dimensionalität und Faktorstruktur der Items geprüft. Anhand explorativer Faktorenanalysen (EFA) mit einer obliquen Rotation (Geomin; Browne 2001) und einer Maximum-Likelihood (ML) Schätzung wurde geprüft, ob die 18 Items des EPP‑L tatsächlich, wie theoretisch angenommen, am besten durch sechs Inhaltsaspekte (d. h. sechs Faktoren) abgebildet werden. χ2-Differenztests ermöglichten den Vergleich der Passung der Modelle mit zwei bis sechs Faktoren (Satorra und Bentler 2001). Die latente Faktorenstruktur in konfirmatorischen Faktorenanalysen (CFA) wurde mit gegenüber nicht-normalverteilten Daten robustem Maximum-Likelihood-Schätzverfahren (MLR) geprüft. Dafür wurde das Mehrfaktorenmodell (mit sechs Faktoren), ein Modell zweiter Ordnung und ein Bi-Faktor Modell aufgestellt. Um zu prüfen, ob ein Generalfaktor (Einstellung zur Portfolioarbeit) angenommen werden kann, wurde das Mehrfaktorenmodell gegen ein Modell zweiter Ordnung und ein Bi-Faktor Modell mit χ2-Differenztests geprüft. Zur Beurteilung der Dominanz eines Generalfaktors wurde Omega-hierarchisch (ωH) berechnet (Schermelleh-Engel und Gäde 2020).

Die inhaltliche Bedeutung der Faktoren des Instrumentes EPP‑L wurde geprüft, indem die konvergente und divergente Validität untersucht wurde. Dafür wurde ein korrelativer Ansatz in Strukturgleichungsmodellen herangezogen (Geiser 2010; Moosbrugger und Kelava 2012): Die jeweiligen Instrumente wurden separat latent modelliert und mit der Einstellung zur Portfolioarbeit korreliert und so Messfehler berücksichtigt.

Die praktische Relevanz des Instrumentes wurde durch Analyse der Kriteriumsvalidität geprüft. Dabei wurden die Konstrukte auf Basis der Instrumente latent modelliert und ebenfalls mit der Einstellung zur Portfolioarbeit korreliert.

Um ein mit Blick auf die Testfairness unterschiedliches Antwortverhalten zwischen den Geschlechtern auf dieselben Items der Einstellungen zu Portfolioarbeit zu identifizieren, wurden für jedes Item Mehrere-Indikatoren-mehrere-Ursachen-Modelle (multiple-indicators multiple causes; MIMIC: Jöreskog und Goldberger 1975; DIF-Analyse) berechnet, um akkurate Schätzungen auch bei kleinen Stichproben zu ermöglichen (Jin und Chen 2020). Wie von Chun et al. (2016) empfohlen, wurde zunächst ein Baseline-Modell aufgestellt, bei welchem das gemessene latente Konstrukt (in diesem Fall ein Generalfaktor Einstellung zu Portfolioarbeit) auf die dichotome Geschlechtsvariable (0 = männlich, 1 = weiblich) regressiert wurde. Gegen dieses Baseline-Modell wurden dann 18 MIMIC-Modelle, die sich vom Baseline-Modell dadurch unterschieden, dass die jeweiligen Regressionen der 18 Items auf die Geschlechtsvariable einbezogen wurden, getestet (χ2-Differenztests). Es wurde also geprüft, ob ein Modell, bei welchem das Geschlecht die Ausprägung (d. h. das Antwortverhalten) auf einem der 18 Items des EPP‑L vorhersagt, besser zu den Daten passt. Sollte diese Passung besser sein als im Baseline-Modell (bei welchem die Vorhersage der Ausprägung auf einem Item durch das Geschlecht nicht berücksichtigt wird), dann läge eine geschlechterspezifische Diskriminierung (DIF) durch dieses Item vor, weil in den Modellen zugleich die Ausprägung der generellen Einstellung zu Portfolioarbeit kontrolliert wird. Zudem wurde geprüft, ob die Regressionen der Items auf die Geschlechtsvariable statistisch signifikant sind. Für Robustheitsanalysen wurden die Skalenvarianzen als Schätzer extremen Antwortverhaltens als zusätzliche Prädiktoren in die MIMIC Modelle aufgenommen (Chen et al. 2017).

Zur Bewertung der Größe der Korrelationen (Effektstärken) orientieren wir uns an Cohen (1988), bezogen auf die interne Konsistenz an Taber (2018), bezüglich der Itemschwierigkeiten und -trennschärfen an Döring und Bortz (2016) und hinsichtlich der Modellfitwerte an Schermelleh-Engel et al. (2003).

2.2.4 Umgang mit fehlenden Werten

Für die 4 % fehlenden Werte in Stichprobe N1 und die 0,4 % fehlenden Werte in Stichprobe N2 zeigt sich bezogen auf die 18 Items des Instrumentes, die Items der Validierungsinstrumente und die verfügbaren demografischen Variablen (Alter, Geschlecht, Fachsemester) mit dem Test nach Little (1988), dass die Annahme, wonach die fehlenden Werte völlig zufällig fehlen (MCAR Bedingung), nicht verworfen werden muss (p > 0,05). Die modellbasierte Schätzung Full Information Maximum Likelihood (FIML) wurde als adäquate Methode zur Behandlung der fehlenden Werte eingesetzt (Graham 2012; Lüdtke et al. 2007; Schafer und Graham 2002). Dabei wurde das Alter der Teilnehmenden (mit Ausnahme der EFA, bei denen keine Hilfsvariablen aufgenommen werden konnten) als kontinuierliche Hilfsvariable verwendet, indem der Befehl auxiliary (m) in Mplus 8 verwendet wurde.

3 Ergebnisse

3.1 Mittelwerte und Reliabilitäten der Skalen sowie Schwierigkeiten der Items

Für die Berechnung der Mittelwerte und der Reliabilitäten der Skalen sowie der Itemschwierigkeiten wurde auf die größere Stichprobe (N1 = 424 Lehramtsstudierende) zurückgegriffen. Die in Tab. 3 abgebildeten und geschlechterdifferenzierten Mittelwerte und Standardabweichungen sind nahe dem theoretischen Skalenmittelwert und die Mittelwerte liegen unter Frauen durchweg höher. Nur bezüglich der Skalen Entwicklung von Reflexivität und Möglichkeit der Innovierung der Ausbildung sind die geschlechtsspezifischen Unterschiede nicht statistisch signifikant. Gemessen an Cohen’s d sind die Mittelwertunterschiede für die Gesamtskala am bedeutsamsten.

Tab. 3 Manifeste Mittelwerte und Standardabweichungen und Mittelwertunterschiede zwischen Geschlechtern der Skalen sowie der Gesamtskala

Es zeigen sich gute interne Konsistenzwerte der sechs Skalen und der Gesamtskala, auch bei separaten Analysen für Frauen und Männer (Tab. 4).

Tab. 4 Itemstatistiken und Reliabilitäten der Skalen

Die Schwierigkeitsparameter liegen zwischen 53 % und 81 %, wobei das Item EPP-L17 (\(p_{i}\)= 0,81) das einfachste (stärkste Zustimmung) und EPP-L37 (\(p_{i}\)= 0,53) das schwierigste Item (geringste Zustimmung) ist. Bis auf das Item EPP-L9 (rit = 0,41) weisen alle Items hohe Trennschärfen auf.

3.2 Die Validität des EPP‑L

3.2.1 Konstruktvalidität

Der Vergleich der Fit-Statistiken der Modelle von einem Faktor bis sechs Faktoren im Rahmen explorativer Faktorenanalysen zeigt: Das Modell mit sechs Faktoren passt anhand der Fit-Indizes (Schermelleh-Engel et al. 2003) gut zu den Daten (Tab. 11 im Anhang).

Erwartungskonform laden diejenigen Items, die jeweils theoretisch den sechs Skalen des EPP‑L zugeordnet wurden, auch empirisch auf einem gemeinsamen Faktor, während die übrigen Items geringe Ladungen (λ < 0,300) auf dem jeweiligen Faktor aufweisen (Tab. 12 im Anhang). Lediglich Item 9 weist eine geringe Ladung (λ = 0,272) auf dem zugeordneten Faktor (F1: Entwicklung von Reflexivität) auf, die Ladungen des Items auf den anderen Faktoren reicht von λ = −0,020 (F4: Möglichkeit des Sammelns und der Dokumentation) bis λ = 0,237 (F3: Möglichkeit der Innovierung der Ausbildung). Allerdings lädt Item 9 auf Faktor F1 höher als auf allen anderen Faktoren. Zudem sind die Ladungen der drei Items 9, 5 und 17 von allen 18 Items die einzigen statistisch signifikanten. Die Beträge der Ladungen aller anderen Items sind niedriger als 0,165 (bei 13 Items sogar λ < 0,100). Insgesamt kann auf Basis der Ladungsmuster von einer zuverlässigen Zuordnung der Items zu den sechs Faktoren ausgegangen werden, wodurch eine gute inhaltliche Interpretation der Faktoren möglich ist. Die Existenz der sechs Faktoren bedeutet, dass sich die Einstellungen zu unterschiedlichen Aspekten der Portfolioarbeit voneinander differenzieren lassen. Die inhaltliche Bedeutsamkeit dieser sechs Faktoren ergibt sich beim Blick auf die jeweils zugehörigen Items (Tab. 2). So bezieht sich beispielsweise die Einstellung einer Person gegenüber Entwicklung von Reflexivität auf die Eignung von Portfolioarbeit, Reflexionsfähigkeit zu fördern. Davon zu unterscheiden ist z. B. die Einstellung gegenüber Entwicklung von Selbstständigkeit, welche die Relevanz von Portfolioarbeit für eigenverantwortliches Handeln betont.

Bis auf eine Ausnahme korrelieren alle sechs Skalen zu diesen Faktoren gering bis moderat positiv (Cohen 1988) und statistisch signifikant. Eine Ausnahme bildet die Beziehung zwischen der Skala Möglichkeit der Innovierung der Ausbildung und der Skala Möglichkeit der Leistungsmessung, die nicht statistisch signifikant korrelieren (Tab. 5).

Tab. 5 Korrelation der sechs Faktoren der explorativen Faktorenanalyse

Die Prüfung der latenten Struktur der sechs Skalen auf Grundlage der Stichproben N1 und N2 erfolgte, indem das Mehrfaktorenmodell (M7) sowohl gegen das Modell zweiter Ordnung (M8) als auch gegen das Bi-Faktor Modell (M9) getestet wurde (Tab. 6 und 13 im Anhang). Die χ2-Differenztests (N1: M7–M9: ∆χ2 = 29.548, ∆df = 3, p < 0,001; N1: M8–M9: ∆χ2 = 22.586, ∆df = 9, p = 0,007; N1: M7–M9: ∆χ2 = 18.784, ∆df = 3, p < 0,001; N1: M8–M9: ∆χ2 = 35.538, ∆df = 9, p < 0,001) und die Modell-Fit-Indizes legen die Existenz eines Generalfaktors Einstellung zu Portfolioarbeit nahe.

Tab. 6 Schätzungen der konfirmatorischen Faktorenanalysen

Vergleiche zwischen dem Modell zweiter Ordnung und dem Bi-Faktor Modell können kaum sinnvoll realisiert werden (Mansolf und Reise 2017). Vielmehr passen aufgrund der Modell-Fit-Indizes beide Modelle gut zu den Daten. Weil jedoch nur das Bi-Faktormodell durchweg gute Modell-Fit-Statistiken aufweist und zudem sparsamer ist, wurde für die folgenden Validierungsanalysen das Bi-Faktor Modell herangezogen. Alle Statistiken (z. B. standardisierte Ladungen) der drei Modelle basierend auf N1 sind in Abb. 1 dargestellt.

Abb. 1
figure 1

Vergleich der Modelle unterschiedlicher Faktorstruktur von EPP‑L. a Mehrfaktorenmodell (M7); b Modell zweiter Ordnung (M8); c Bi-Faktor Modell (M9). Anmerkungen. N1 = 424. Es sind standardisierte Statistiken abgebildet. ref = Entwicklung von Reflexivität, sst = Entwicklung von Selbstständigkeit, inn = Möglichkeit der Innovierung der Ausbildung, pra = Möglichkeit des Sammelns und der Dokumentation, bua = Möglichkeit der Begleitung und des Austauschs, lei = Möglichkeit der Leistungsmessung, est = Einstellung zu Portfolioarbeit (Generalfaktor)

Mit Blick auf AIC und aBIC passen die Modelle mit Generalfaktor im Vergleich zum Mehrfaktormodell nur unwesentlich anders zu den Daten: das Modell zweiter Ordnung passt etwas schlechter, das Bi-Faktor Modell passt etwas besser. Das Omega-hierarchisch von ωH = 0,65 bezüglich des Bi-Faktor Modells verdeutlicht allerdings, dass durch den Generalfaktor ein substanzieller Anteil der wahren Varianz an der Gesamtvarianz der Items erklärt wird.

3.2.2 Konvergente und divergente Validität sowie Kriteriumsvalidität

Zur Prüfung der konvergenten und divergenten Validität sowie der Kriteriumsvalidität wird der Generalfaktor Einstellung zu Portfolioarbeit aus dem Bi-Faktor Modell mit den entsprechenden latenten Konstrukten korreliert (N1: Tab. 7; N2: Tab. 8).

Tab. 7 Korrelationen zwischen den latenten Konstrukten zur Überprüfung der Validität
Tab. 8 Korrelationen zwischen den latenten Konstrukten zur Überprüfung der Validität

Erwartungskonform zeigen sich starke positive Zusammenhänge mit den Konstrukten, die ebenfalls Einstellungen zu (d. h. meist Akzeptanz von) Portfolioarbeit messen (r > 0,81, p < 0,001). Zudem sind die Zusammenhänge mit dem Interesse an der Portfolioarbeit (INT), der Motivation zur Portfolioarbeit (MOT) und dem wahrgenommenen Nutzen der Portfolioarbeit (NUZ) wie erwartet statistisch signifikant und mittel bis stark positiv. Des Weiteren zeigt sich erwartungsgemäß ein schwacher, statistisch signifikanter Zusammenhang mit dem Konstrukt transmissive Überzeugungen (TRA) sowie kein Zusammenhang mit konstruktivistischen lerntheoretischen Überzeugungen (KON).

3.3 Testfairness

Im Kontext dieser Studie läge Uniform Differential Item Functioning (DIF) vor, wenn Individuen mit gleichen Einstellungen zu Portfolioarbeit unterschiedliche Wahrscheinlichkeiten besitzen, den Antwortkategorien eines Items des Generalfaktors Einstellung zu Portfolioarbeit deshalb zuzustimmen, weil sie einem bestimmten Geschlecht angehören (0 = männlich, 1 = weiblich). Ein einheitlich gruppenabhängiges Item (Englisch uniform DIF, im Folgenden kurz DIF) läge vor, wenn das Item konsistent über alle Ausprägungen der Einstellungen zu Portfolioarbeit hinweg von unterschiedlichen Geschlechtsgruppen unterschiedlich beantwortet wird. Das Baseline Modell, gegen welches alle MIMIC-Modelle pro Item getestet wurden, zeigt einen guten Fit (AIC = 17.917.436, BIC = 18.303,454, aBIC = 17.998,826, RMSEA = 0,047, 90 %-KI [0,039; 0,056], CFI = 9,58, TLI = 0,947, SRMR = 0,039). Der Vergleich der erweiterten MIMIC-Modelle unter Verwendung der Stichprobe N1, die einen direkten Effekt des Geschlechts auf einzelne Items enthalten, zeigt, dass zwei der 18 Items (EPP-L24 und 29) der Skala Möglichkeit der Leistungsmessung einheitlich gruppenabhängige Items sind (siehe grau hinterlegte Zeilen in Tab. 14 im Anhang). Alle anderen Items diskriminierten keine Geschlechtsgruppe, werden also nicht konsistent von einem Geschlecht anders beantwortet als vom anderen. Um die Robustheit der Ergebnisse zu testen, wurden die gleichen MIMIC-Modelle pro Item erneut geprüft und dabei der direkte Effekt der individuellen Skalenvarianz auf die jeweiligen Items berücksichtigt, um extremes Antwortverhalten zu kontrollieren. Die DIF Effekte bestätigen die Ergebnisse.

4 Diskussion

Portfolioarbeit ist ein zentraler, teilweise verpflichtender Baustein der Professionalisierung von angehenden Lehrpersonen. Bislang lag kein validiertes Instrument vor, das losgelöst von spezifischen Portfoliokonzeptionen und Anwendungskontexten Einstellungen von Lehramtsstudierenden zur Portfolioarbeit erfassen konnte. In diesem Beitrag wurde die Entwicklung und Validierung eines Instrumentes (EPP-L) vorgestellt, welches die Einstellungen eindimensional und sechs ihnen zugrundeliegende Inhaltsaspekten von Portfolioarbeit mit insgesamt 18 Items erfasst. Mit dem EPP‑L liegt erstmals ein theoretisch fundiertes, reliables und valides Instrument vor, welches konzeptionsübergreifend Einstellungen zu Portfolioarbeit standardisiert erfasst. Es kann einen Beitrag zur Qualitätssicherung bei der Gestaltung von Professionalisierungsprozessen in der Lehrerinnen- und Lehrerbildung leisten.

Ein solches Instrument ist insbesondere deshalb erforderlich, weil sich in der Literatur und Praxis der Lehrerinnen- und Lehrerbildung zwar vielfältige Potenzialzuschreibungen an die Portfolioarbeit finden (Feder und Cramer 2018), es bislang aber kaum Evidenz für Effekte dieser postulierten Potenziale von Portfolioarbeit gibt (Feder und Cramer 2019). Das hier entwickelte Instrument zu Einstellungen zur Portfolioarbeit ist angesichts der großen Verbreitung von Portfolioarbeit in der Lehrerinnen- und Lehrerbildung und den damit verbundenen Ressourcen (bei zugleich wenigen belastbaren Befunden im deutschsprachigen Raum) ein wichtiger Ausgangspunkt, um ein genaueres und belastbares Bild von deren tatsächlichen Erträge zu erhalten. Perspektivisch legt sich eine Adaption auch mit Blick auf die zweite Phase (Referendariat) und dritte Phase (Fort- und Weiterbildung) der Lehrerinnen- und Lehrerbildung nahe.

Zugleich bietet das Instrument EPP‑L die Möglichkeit, Chancen und Grenzen von Portfolioarbeit in der Ausbildung von Lehrpersonen insgesamt kritisch-konstruktiv zu prüfen. Sollte die sich konform zum Forschungsstand zeigende Skepsis angehender Lehrpersonen gegenüber Portfolioarbeit erhärten, sich also eine potenzielle „Prozessillusion“ (Hascher und Sonntagbauer 2013) der Portfolioarbeit mit Blick auf die Professionalisierung bestätigen, so muss auch infrage gestellt werden, in welchem Umfang Portfolioarbeit diejenige Aufmerksamkeit erfährt, die ihr derzeit etwa bildungspolitisch oder im Rahmen der Qualitätsoffensive Lehrerbildung zuteilwird. In diesem Zusammenhang muss einschränkend darauf hingewiesen werden, dass Schlussfolgerungen zu konkretem Verhalten von angehenden Lehrpersonen bezüglich der Portfolioarbeit basierend auf Einstellungen nur eingeschränkt möglich sind. Zwar haben sich Zusammenhänge zwischen Einstellungen und Verhalten in unterschiedlichen Bereichen als substantiell erwiesen (Glasman und Albarracín 2006), gleichzeitig zeigten sich jedoch Moderationen durch unterschiedliche Variablen, wie beispielsweise das Ausmaß direkter Erfahrungen mit dem Einstellungsobjekt (hier: Portfolioarbeit). Zudem ist limitierend die Erfassung von Einstellungen nicht mit tatsächlich realisierten Potenzialen beziehungsweise Wirkungen von Portfolioarbeit gleichzusetzen. Um beispielsweise die Effekte von Portfolioarbeit auf die Professionalisierung von (angehenden) Lehrpersonen zu untersuchen, müssten zukünftig Interventionsstudien (z. B. randomisierte kontrollierte Studien) in der Lehrerinnen- und Lehrerbildung durchgeführt werden.

Über die Frage der Einstellungen zu Portfolioarbeit und damit perspektivisch zum Nutzungsverhalten hinaus ist weiterhin zu klären, ob Portfolioarbeit die institutionell als bedeutsam erachteten Anforderungen (z. B. an eine Steigerung von Kohärenz zwischen Phasen, Komponenten und Akteuren der Lehrerinnen- und Lehrerbildung) erfüllt. Kohärenz im Sinne einer sinnhaften Verknüpfung der Elemente in der Lehrerinnen- und Lehrerbildung könnte sich letztlich auch eher über eine informell-individuelle Relationierungsleistung (Cramer 2020) und damit weniger durch Portfolioarbeit als vielmehr in der Interaktion der Akteure (Lehramtsstudierende und Dozierende) einstellen. Dabei kann ein Portfolio einen unterstützenden Beitrag leisten, z. B. indem es derjenige Ort ist, an dem verschiedene Komponenten des Lehramtsstudiums (Fachwissenschaften, Fachdidaktiken, Bildungswissenschaften, Schulpraxis) bewusst aufeinander bezogen werden. Dadurch werden verschiedene Perspektiven auf denselben Gegenstand eingenommen. Erst dann schöpft Portfolioarbeit ihr besonderes Potenzial aus, zeit- und ortsunabhängig in einem meta-reflexiven Sinne zu einer Relationierung der disziplinär, paradigmatisch und theoretisch sehr heterogenen Elemente der Lehrerinnen- und Lehrerbildung beizutragen (Cramer et al. 2019). Dieser Beitrag zur Professionalisierung kann von der Portfolioarbeit aber nur dann ausgehen, wenn die Einstellungen Studierender (und Dozierender) ihr gegenüber entsprechend positiv sind und die Akteure in der Lehrerinnen- und Lehrerbildung sich mehrheitlich bestimmten Zielen der Portfolioarbeit verpflichten. Genau hier leistet das Instrument über seine wissenschaftliche Relevanz hinaus auch einen Beitrag zur Evaluation und Weiterentwicklung der Lehrerinnen- und Lehrerbildung.

Dabei verdeutlichen die Modellfitindizes, dass in der Forschungspraxis sowohl die Modellierung über ein Bi-Faktormodell als auch über ein Mehrfaktormodell vertretbar ist, wenngleich der Generalfaktor einen substanziellen Anteil der wahren Varianz der Items aufklärt. Das wiederum bedeutet, dass die einzelnen Skalen des Instrumentes EPP‑L in zukünftiger Forschung parallel eingesetzt und ausgewertet werden können und eine aufwendigere Modellierung eines Bi-Faktormodells nicht zwingend notwendig erscheint. Es liegt damit ein gut handhabbares Instrument vor, das effizient eingesetzt werden kann.

4.1 Limitationen

Zur adäquaten Einschätzung der Güte des EPP‑L sollten zwei Limitationen bedacht werden: Erstens ist das Instrument zwar weitestgehend messinvariant bezüglich des Geschlechts, allerdings sind bezüglich zwei der Items unter Frauen höhere Antwortkategorien wahrscheinlicher als unter Männern, obwohl dieselbe Einstellung zu Potenzialen von Portfolioarbeit vorliegt. Dies könnte beispielsweise daran liegen, dass Frauen und Männer Leistungsbeurteilungssituationen unterschiedlich gegenüberstehen und die Worte in den Items daher unterschiedliche Assoziationen auslösen und/oder die Items unterschiedlich verstanden werden. Zwar lässt sich annehmen, dass der Itempool des EPP‑L insgesamt zur Erfassung des Generalfaktors Einstellung zu Portfolioarbeit geeignet ist, doch sollte die unterschiedliche Funktionsweise des EPP‑L bezüglich des Geschlechts insbesondere bei der Interpretation der Skala Möglichkeit der Leistungsmessung berücksichtigt werden. Hier ist nicht auszuschließen, dass bezogen auf Frauen und Männer unterschiedliche Konstrukte erfasst werden. Sollte sich die Verletzung der Testfairness bei den beiden Items in künftiger Forschung als robust erweisen, so ist es ratsam, auf den Einsatz dieser Skala zu verzichten. Künftig kann zudem nach der Relevanz alternativer erklärender Variablen (personenbezogene Variablen wie z. B. Selbstwirksamkeit) gefragt werden. Neben der dichotomen Unterscheidung Frau/Mann wurde keine weitere Gendergruppe (divers) einbezogen, da empirisch abgesicherte Aussagen angesichts der geringen Inzidenz dieser Gruppe in der Stichprobe kaum möglich sind. Schlussfolgerungen zum Verhalten des Instrumentes für diese Gendergruppe sind aus den Analysen in dieser Studie nicht möglich.

Zweitens erscheint es lohnend, die Items des EPP‑L weiter zu optimieren. So wäre zu überlegen, ob einzelne Items so ausgetauscht werden können, dass eine höhere Streuung der Zustimmungswerte (d. h. der Schwierigkeitsindizes) erzielt wird (vgl. Döring und Bortz 2016). Zudem weist das Item EPP-L9 („Ich traue Portfolioarbeit zu, dass sie das Nachdenken über Erfahrungen in der Praxis aus unterschiedlichen Blickwinkeln vertieft“) eine niedrige Ladung bezüglich des Faktors Entwicklung von Reflexivität auf. Dieses Item könnte zukünftig umformuliert oder gegebenenfalls ersetzt werden.

4.2 Ausblick

Das Instrument EPP‑L beansprucht aufgrund seiner theoretischen Fundierung auf den zuvor identifizierten Potenzialen von Portfolioarbeit, unabhängig von Standorten und spezifischen Konzeptionen eingesetzt werden zu können. Damit verbindet sich großes Potenzial zur Bearbeitung des Desiderats, über einzelne Konzeptevaluationen hinaus Erkenntnisse zur Portfolioarbeit und Einsatz in der Lehrerinnen- und Lehrerbildung zu gewinnen. Es ergeben sich Anhaltspunkte für eine Optimierung der Portfolioarbeit, indem deutlich wird, welche Potenziale seitens der Nutzenden als besonders tragfähig angesehen werden und welche erwarteten Potenziale keine Entsprechung finden. Alternativ könnten sehr kritische Einstellungen bestimmte Portfoliokonzeptionen generell in Frage stellen und so Reformbedarf markieren. Wie sich die Einstellungen insgesamt quantifizieren, muss durch standortübergreifende (internationale) Forschung in größeren Stichproben geklärt werden, um das Potenzial von Portfolioarbeit insgesamt zu evaluieren. Erste Überlegungen dazu werden im Rahmen des Forschungsnetzwerks Portfolioarbeit in der Bildung (https://uni-tuebingen.de/de/168549) angestellt. Solche Forschung kann dazu beitragen, Synergien zwischen den bislang stark unterschiedlichen Portfoliokonzeptionen in der Ausbildung von Lehrpersonen konzeptionell zu stärken und diese so evidenzbasierten Forschungs- und Entwicklungsprozessen zugänglich zu machen.