Die vierte Studie wurde in Lehrveranstaltungen einer Hochschule durchgeführt, an der sowohl Studierende als auch Dozierende teilnahmen. Eine geplante Untersuchung in allgemeinbildenden Schulen, um Ergebnisse im schulischen und universitären Kontext vergleichen zu können, konnte leider nicht realisiert werden. Die Studie wurde aufgrund der geplanten zeitlich parallelen Erhebungen in Schulen und Universität so angelegt, dass sie auch mit Jugendlichen im Schulkontext hätte durchgeführt werden können.

1 Hypothesen

Nachdem die dritte Studie einen weiteren Einblick in die Wirkung von Kompetenzerwartungen auf das Verhalten der Lernenden gibt und zusammen mit den Studien von Feldman und Prohaska (1979) sowie Jamieson et al. (1987) geschlussfolgert werden kann, dass sich das Verhalten von Lernenden an ihre Kompetenzerwartungen an Lehrpersonen anpasst, sollen in einem weiteren Schritt Zusammenhänge in einer Feldstudie betrachtet werden. In den bisherigen Befunden konnte gezeigt werden, dass Lernende, die eine Lehrperson für kompetent halten, diese positiver bewerten (Feldman & Prohaska, 1979; Feldman & Thiess, 1982; Lewandowski et al., 2012; Reavis, 1979; Reber et al., 2017; Towler & Dipboye, 2006), den Unterricht interessanter finden (Feldman & Prohaska, 1979; Feldman & Theiss, 1982), sich wohler fühlen (positiver Affekt; Edwards et al., 2009) und motivierter waren, an einer potenziellen Lehrveranstaltung dieser Lehrperson teilzunehmen (Kowai-Bell et al., 2011, 2012). Die Zusammenhänge der Lernendenkompetenzerwartungen mit dem erwünschten Erleben sollen repliziert werden, sodass folgende Hypothesen aufgestellt werden:

Hypothesenkomplex 1::

Lernende, die eine Lehrperson beim ersten Eindruck für kompetenter halten, unterscheiden sich von Lernenden, die eine Lehrperson für weniger kompetent halten, in einer Lehrveranstaltungssitzung beim Erleben von (1.) Freude, (2.) Frustration und Unsicherheit, (3.) Langeweile, (4.) Interesse und (5.) Störungen. Außerdem bewerten sie die Lehrperson hinsichtlich (6.) Kompetenz, (7.) Wärme, (8.) Klassenführung und (9.) Beziehungsgestaltung anders als Lernende, die eine Lehrperson für inkompetent halten.

Zusätzlich zu bisherigen Studien sollen sowohl die Individual- als auch die Gruppenebene berücksichtigt werden (s. Kapitel 11). Die Hypothesen beziehen sich auf beide Ebenen. Da es bei der gemeinsamen Betrachtung der beiden Ebenen zu unterschiedlichen Ergebnissen kommen kann (z. B. positiver Zusammenhang auf Gruppenebene, aber negativer auf Individualebene; vgl. u. a. Eid et al., 2017), sind die Hypothesen ungerichtet.

Die Befunde zu den Wirkungen von Lernendenkompetenzerwartungen auf die Lehrpersonen sind – wie bereits an vielen Stellen erwähnt – sehr rar. So berichteten Lehrpersonen, die sich eine Lehrsituation vorstellten, sich wohler im Umgang mit Lernenden zu fühlen, wenn sie glaubten, die Lernenden bewerteten die Lehrperson positiv (Kowai-Bell et al., 2012). Weitergehend wurden vermeintlich warme Lehrpersonen am Ende eines Vortrags von unabhängigen Beobachter*innen (ohne Erwartungen) positiver bewertet (Herrell, 1971). Besonders hervorzuheben sind allerdings die Ergebnisse von Feldman und Prohaska (1979), die zeigten, dass das von ihnen gefundene prototypische (zugewandtere) Verhalten von Lernenden dazu führte, dass sich die Lehrpersonen fröhlicher (d = 0.845), wärmer (d = 1.171) und weniger unzufrieden (d = 0.760) fühlten. Außerdem beurteilten sie die Lernenden als enthusiastischer (d = 1.923) und sympathischer (d = 1.076). Beim nonverbalen Verhalten der Lehrpersonen gab es keine signifikanten Unterschiede. Bei Feldman und Theiss (1982) stellte sich jedoch kein Effekt der Lernendenkompetenzerwartungen auf die Lehrpersonen ein. Drei von vier Studien liefern Indizien für einen spezifischen Einfluss, allerdings sind aufgrund der wenigen Befunde die folgenden Zusammenhangshypothesen ungerichtet:

Hypothesenkomplex 2::

Lehrpersonen, die im Mittel beim ersten Eindruck für kompetenter gehalten werden, erleben ein anderes Ausmaß an Emotionen, sowohl (1.) positive als auch (2.) negative, (3.) an Flow, (4.) der eigenen Kompetenz und (5.) Wärme. Außerdem unterscheiden sie sich in der Bewertung (6.) der Störungswahrnehmung, (7.) der eigenen Klassenführung und (8.) Beziehungsgestaltung von Lehrpersonen, die im Mittel beim ersten Eindruck für weniger kompetent gehalten werden.

Zur Bewertung des Verhaltens und des Unterrichts werden u. a. Variablen, die im Kontext von Klassenführung im weiten Sinne (vgl. Hannemann, 2020; Helmke, 2017) Verwendung finden, herangezogen. Klassenführung umfasst nach Helmke und Helmke (2014, S. 9) „Konzepte, Strategien und Techniken, die dem Ziel dienen, einen störungsfreien und reibungslosen Unterrichtsverlauf zu ermöglichen und damit aktive Lernzeit zu maximieren: durch Regeln und Prozeduren, die Allgegenwärtigkeit der Lehrkraft, den Aufbau erwünschten Verhaltens und einen angemessenen Umgang mit Störungen“. Klassenführungskompetenz ist ein wichtiger Kompetenzbereich für Lehrpersonen (vgl. u. a. Baumert & Kunter, 2006; Hannemann, 2020; Helmke, 2017; Kunter et al., 2011). Insbesondere der Aspekt der Störungswahrnehmung wird in der durchgeführten Untersuchung fokussiert, weil dies als Marker für die (bewusste und unbewusste) Nutzung des Unterrichtsangebots (vgl. Angebots-Nutzungs-Modelle; Helmke, 2017; Reusser & Pauli, 2010) bewertet werden kann, ohne Lernerfolge heranzuziehen, die auch zu Beginn einer Lehrveranstaltung noch nicht vorliegen (können). So reduzieren Störungen die aktive Lernzeit, die für den Lernerfolg wichtig ist (vgl. Helmke, 2017).

Analog zu den bisherigen Studien sollen die Zusammenhangsanalysen auch mit den Kontrollvariablen Wärmebeurteilung, die der Kompetenzbeurteilung vorausgeht (stereotype content model; s. Kapitel 5), und der Attraktivitätsbeurteilung („beatuy is good“ stereotype; Dion et al., 1972; Eagly et al., 1991; Langlois et al., 2000) explorativ betrachtet werden.

2 Methodik

2.1 Stichprobe

Es wurden 42 Lehrveranstaltungen der Technischen Universität Braunschweig besucht und sowohl Studierende als auch Dozierende befragt. In den 42 untersuchten Veranstaltungen nahmen 41 Dozierende teil. Von den 41 Dozierenden gaben 15 an, männlich zu sein, 25, weiblich zu sein, und eine Person machte keine Angabe zu ihrem Geschlecht. Sie waren im Durchschnitt zum Zeitpunkt der Teilnahme 38.9 Jahre alt (SD = 11.35; Spannweite: 26–62; 3 ohne Angabe) und lehrten (teils geschätzt) 16.2 Semester (SD = 13.7; 2 ohne Angabe).

Insgesamt liegen 997 Datensätze von Studierenden vor, die ihre Dozierenden und die jeweilige Lehrveranstaltung beurteilten. Proband*innen, die zu einem der zwei Erhebungszeitpunkte (s. u.) keinen Fragebogen ausgefüllt haben, wurden für die Auswertungen nicht berücksichtigt. Dadurch verblieben 871 Datensätze. Durchschnittlich gab es 20.7 studentische Angaben pro Lehrveranstaltung (SD = 13.8; Spannweite: 7–78). Mehrfachteilnahmen von Studierenden waren möglich, wenn sie mehr als eine der untersuchten Lehrveranstaltungen besuchten.

Auf Basis aller Datensätze inklusive Mehrfachteilnahmen (N = 871): Die Studierenden waren im Mittel 22.7 Jahre alt (SD = 4.08; Spannweite: 18–58), wobei 33 keine Angabe machten. Es gaben 221 Studierende an, männlich zu sein (25 %), und 612 der Befragten waren weiblich (70 %). Eine andere Geschlechtsidentität gaben sechs Personen an und 32 machten keine Angabe. Die meisten (n = 537, 62 %) studierten primär Fächer der Geistes- und Erziehungswissenschaften.

Werden nur die eindeutigen Erstteilnahmen (N = 663; 76 % aller Teilnahmen) berücksichtigt, ergibt sich ein ähnliches Bild: Die Studierenden waren im Mittel 22.6 Jahre alt (SD = 4.00; Spannweite: 18–58), wobei 14 keine Angabe machten. Es gaben 161 Studierende an, männlich zu sein (24 %), und 476 der Befragten waren weiblich (72 %). Eine andere Geschlechtsidentität gaben fünf Personen an und 21 machten keine Angabe. Die Mehrheit (n = 398; 60 %) studierte primär Fächer der Geistes- und Erziehungswissenschaften. Die Angaben der Erstteilnahmen unterschieden sich bezüglich der Geschlechtsaufteilung (männlich oder weiblich; χ2(1) = 2.191, p = .139, φ = .051 ≙ rS), des Alters (t(836) = 1.314, p = .189; d = 0.109 entspricht r = .054) und des Anteils der Studierenden im Bereich der Geistes- und Erziehungswissenschaften (χ2(1) = 7.420, p = .006, φ = −.095 ≙ rS) nicht bedeutsam (|r| ≥ .10 für einen kleinen Effekt; Cohen, 1988) von den Angaben, die mindestens ein zweites Mal (bei Mehrfachteilnahme) oder ein unbekanntes Mal (ohne Angabe bisheriger Teilnahmen) gemacht wurden. Zudem ist theoretisch nicht davon auszugehen, dass die Angaben der Proband*innen bei freiwilliger Mehrfachteilnahme die Ergebnisse verzerren. Deswegen werden für die hypothesenprüfenden Analysen alle Datensätze (N = 871) herangezogen.

2.2 Vorgehen

Die Lehrveranstaltungen wurden zu Beginn des Sommersemesters 2018 sowie Wintersemesters 2018/19 in der maximal fünften Lehrveranstaltungssitzung besucht. Der Beginn einer Lehrveranstaltung wurde gewählt, weil sich dann Kompetenzerwartungen besonders bedeutsam zeigen (vgl. Jussim und Harber, 2005; Raudenbusch, 1984). Zum Start der Sitzung wurden die Studierenden über die Freiwilligkeit, die Anonymität und den Datenschutz aufgeklärt. Zudem wurde beschrieben, die Studie würde sich mit der „Wahrnehmung von Klassenführungsvariablen in der Hochschule“ beschäftigen. Die Studierenden sollten anschließend einen ersten Fragebogen beantworten, in dem retrospektiv der erste Eindruck von der Lehrperson erfasst wurde sowie die Beurteilung der aktuellen Attraktivität der Lehrperson.

Das retrospektive Erfragen ist unter der Bedingung, dass der erste Eindruck recht stabil ist (vgl. Schweer, 2019), eine Methode zur Erfassung der Kompetenzerwartung, die jedoch Schwächen aufweist. So kann die Stabilität der Repräsentation auch auf Erwartungseffekte, also selbsterfüllende Prophezeiungen, und damit auch über das Streben nach kognitiver Konsistenz (vgl. Kruglanski et al., 2018) zurückzuführen sein. Studien zur Akkuratheit retrospektiver Instrumente zur Erfassung interpersonaler Kompetenzerwartungen konnten nicht detektiert werden. Da für Feldstudien in Schulen und Hochschulen die Lernendenkompetenzerwartungen an Lehrpersonen nicht bzw. nur unter sehr kontrollierten und besonderen Bedingungen zeitnah zum Moment des ersten Eindrucks erfasst werden können, mussten sie retrospektiv erhoben werden. Ob dies die tatsächlichen Kompetenzerwartungen des ersten Eindrucks widerspiegelten, bleibt offen, jedoch ist anzunehmen, dass potenzielle kognitive Verzerrungen bei allen Gruppen ähnlich verlaufen. Durchschnittlich lag der erste Eindruck der befragten Studierenden (N = 871) von der jeweiligen dozierenden Person 6.37 Monate (SD = 10.60) zurück, also zumeist zeitlich nah an der Erhebung. Zusammenfassend kann also angenommen werden, dass es sich bei der hier vorliegenden retrospektiven Erfassung der Lernendenkompetenzerwartungen zumindest um eine Näherung der Erwartungen handelt.

Im Anschluss an den ersten Erhebungsteil für die Studierenden führte die lehrende Person in Abwesenheit der Versuchsleitung die Lehrveranstaltungssitzung regulär durch. Am Ende der Lehrveranstaltungssitzung sollten die Studierenden und Dozierenden die Sitzung und ihr Erleben währenddessen beurteilen. Die Versuchsleitung war zumeist der Autor der vorliegenden Arbeit. Aus organisatorischen Gründen (z. B. aufgrund von zwei sich überschneidenden Untersuchungen) war dies nicht immer der Fall. Die Auswertung der Daten erfolgte mit IBM SPSS 25 und MPlus 8.

2.3 Instrumente im Original

Im Folgenden werden die Variablen, die in der Untersuchung verwendet wurden, in der im Fragebogen präsentierten Reihenfolge beschrieben. Die in den Beschreibungen der Instrumente angegebenen internen Konsistenzen beziehen sich auf die zitierten Originalquellen bzw. der Validierungsstudien. Die erzielten Reliabilitäten (Cronbachs Alpha) in der durchgeführten Studie sind für die Studierenden in Tabelle 16.3 und für die Dozierenden in Tabelle 16.7 angegeben. Beispielitems sind in der Tabelle 16.1 für dir Studierenden und in Tabelle 16.2 für die Dozierenden aufgeführt (Fragebögen und Itemanalysen s. Zusatzmaterial).

2.3.1 Studierendenfragebogen zu Beginn der Lehrveranstaltungssitzung

Kompetenzeindruck (erster Eindruck): Die Einschätzung der Kompetenz beim ersten Eindruck wurde mittels der vier Adjektive der vorherigen Studien (kompetent, effizient, fähig, intelligent) auf einer siebenstufigen Likert-Skala (1 = „stimme gar nicht zu“ bis 7 = „stimme vollkommen zu“) erfasst.

Wärmeeindruck (erster Eindruck): Die Einschätzung der Wärme beim ersten Eindruck wurde mit vier Adjektiven der vorherigen Studien (warmherzig, gutmütig, wohlwollend, sympathisch) in der gleichen Liste wie die Kompetenzbeurteilung mit einer siebenstufigen Likert-Skala (1 = „stimme gar nicht zu“ bis 7 = „stimme vollkommen zu“) erfasst.

Attraktivitätsbeurteilung: Die Einschätzung der aktuellen physischen Attraktivität wurde ähnlich wie in der ersten und dritten Studie mit folgendem Item auf einer siebenstufigen Likert-Skala (1 = „sehr unattraktiv“ bis 7 = „sehr attraktiv“) erhoben: „Wie optisch attraktiv empfinden Sie die Dozierende/den Dozierenden der Lehrveranstaltung momentan?“

2.3.2 Studierendenfragebogen zum Ende der Lehrveranstaltungssitzung

Kompetenzbeurteilung in Lehrveranstaltungssitzung: Die Einschätzung der Kompetenz innerhalb der Lehrveranstaltungssitzung wurde mittels der vier Adjektive der vorherigen Studien (kompetent, effizient, fähig, intelligent) auf einer siebenstufigen Likert-Skala (1 = „stimme gar nicht zu“ bis 7 = „stimme vollkommen zu“) erfasst.

Wärmebeurteilung in Lehrveranstaltungssitzung: Die Einschätzung der Wärme innerhalb der Lehrveranstaltungssitzung wurde mit vier Adjektiven der vorherigen Studien (warmherzig, gutmütig, wohlwollend, sympathisch) in der gleichen Liste wie die Kompetenzbeurteilung mit einer siebenstufigen Likert-Skala (1 = „stimme gar nicht zu“ bis 7 = „stimme vollkommen zu“) erfasst.

Motivationales und emotionales Erleben: Das motivationale und emotionale Erleben der Studierenden während der Lehrveranstaltungssitzung wurde mit einem für die Hochschule adaptierten Fragebogen von Wegner (2009, nach Wegner et al., 2013) erfasst. Der ursprüngliche Fragebogen fokussierte den Biologieunterricht in der Schule und besteht aus vier Subskalen: Freude (4 Items, α ≥ .92), Frustration (5 Items, α ≥ .75), Langeweile (4 Items, α ≥ .76) und Interessiertheit (4 Items, α ≥ .83). Freude ist dabei bestimmt als das Ausmaß des Erlebens von Spaß, Begeisterung und Freude. Frustriert sein und das Erleben von Unsicherheit gehen in die Skala Frustration ein. Langeweile ist bestimmt als das Gefühl, dass die Zeit nicht vergeht, sowie, keine (sinnvolle) Beschäftigung zu haben, und die Skala Interessiertheit beinhaltet Interesse und Neugier in Bezug auf das Lehrthema. Die Proband*innen sollten auf einer vierstufigen Likert-Skala ihre Zustimmung angeben (1 = „stimmt gar nicht“ bis 4 = „stimmt genau“).

Störungswahrnehmung und Klassenführung: Die Störungs- und Klassenführungswahrnehmung wurde auf Basis des Fragebogens zur Wahrnehmung von Unterrichtsstörungen aus Lehrkräfte- und Schüler*innenperspektive von Wettstein, Ramseier et al. (2016; vgl. Wettstein, Scherzinger & Wyler, 2016) konstruiert. Der Fragebogen wurde gewählt, da er sowohl eine Schüler*innen- als auch eine Lehrkräfte-Version bereithält. Es wurden die Subskalen „Nicht aggressives Verhalten der Schülerinnen und Schüler“ (Schüler*innen: α = .88, Lehrkräfte: α = .72) mit einer vierstufigen Likert-Skala zur Einschätzung der Häufigkeit (1 = „nie“ bis 4 „sehr oft“), „Störungen des methodisch-didaktischen Settings“ (Schüler*innen: α = .87, Lehrkräfte: α = .82), „Beziehung“ (Schüler*innen: α = .95, Lehrkräfte: α = .55) und „Klassenführung“ (Schüler*innen: α = .82, Lehrkräfte: α = .58) mit einer vierstufigen Likert-Skala zur Zustimmung (1 = „stimmt nicht“ bis 4 = „stimmt“) herangezogen. Die Items wurden so ausgewählt, dass sie sowohl für den schulischen als auch für den Hochschulkontext augenscheinlich sinnvoll sind. Die Items wurden für den Hochschulkontext umformuliert sowie um ausgewähltes, nicht aggressives Störungsverhalten, das in Keller (2010) formuliert ist, ergänzt. Außerdem wurde die Option „nicht sinnvoll beantwortbar“ hinzugefügt.

Soziodemografische und weitere Variablen: Es wurden das Geschlecht erfragt, das Alter, das FachsemesterFootnote 1, die Fakultät(en) des Studiengangs, die Häufigkeit des Besuchs einer Lehrveranstaltung vor dem Sommersemester 2018Footnote 2 bei der entsprechenden dozierenden Person, die Zeit, wie lang der erste Eindruck zurückliegt, und wie häufig bereits an der Studie teilgenommen wurde.

Tabelle 16.1 Verwendete Instrumente und Skalen mit Beispielitems für die Studierenden-Fragebögen zur Bewertung der Veranstaltungssitzung (Studie 4)

2.3.3 Dozierendenfragebogen (zum Ende der Lehrveranstaltungssitzung)

Positive und negative Emotionen: Das Erleben von positiven und negativen Emotionen wurde mit der deutschen Version der scale of positive and negative experience (SPANE) von Rahm et al. (2017) erhoben. Beim SPANE werden abwechselnd positive (z. B. „gut“; α = .87) und negative Beschreibungen (z. B. „unangenehm“; α = .82) präsentiert. Da nur das Erleben innerhalb der Lehrveranstaltungssitzung erfasst werden sollte, wurde die Intensität mit einer fünfstufigen Likert-Skala (1 = „gar nicht“ bis 5 = „außerordentlich“) – analog zu Friedrich (2017) – erhoben.

Beurteilung der eigenen Kompetenz in der Lehrveranstaltungssitzung: Die Selbsteinschätzung der Kompetenz innerhalb der Lehrveranstaltungssitzung wurde mittels der vier Adjektive der vorherigen Studien (kompetent, effizient, fähig, intelligent) auf einer siebenstufigen Likert-Skala (1 = „stimme gar nicht zu“ bis 7 = „stimme vollkommen zu“) erfasst. Die Instruktion wurde für eine Selbsteinschätzung angepasst.

Beurteilung der eigenen Wärme in der Lehrveranstaltungssitzung: Die Selbsteinschätzung der Wärme innerhalb der Lehrveranstaltungssitzung wurde mit vier Adjektiven der vorherigen Studien (warmherzig, gutmütig, wohlwollend, sympathisch) in der gleichen Liste wie die Kompetenzbeurteilung mit einer siebenstufigen Likert-Skala (1 = „stimme gar nicht zu“ bis 7 = „stimme vollkommen zu“) erfasst. Die Instruktion wurde für eine Selbsteinschätzung angepasst.

Flowerleben: Das Flowerleben wurde mit der 10-Items-Flow-Kurzskala (FKS) von Rheinberg et al. (2003, 2019) erhoben. Die Skala besteht aus den Subskalen „glatter automatischer Verlauf“ (α = .92) und „Absorbiertheit“ (α = .80), die beide eine siebenstufige Zustimmungs-Likert-Skala nutzen (1 = „trifft nicht zu“ bis 7 = „trifft zu“). Rheinberg et al. (2003) argumentieren auch für einen Generalfaktor (α = .90), der in den Analysen dieser Arbeit genutzt wurde.

Störungswahrnehmung und Klassenführung: Die Störungswahrnehmung und die Wahrnehmung der eigenen Klassenführung wurde mit einer für Dozierende parallel gestalteten Version der Studierendenfragebögen in Anlehnung an Wettstein, Ramseier et al. (2016; vgl. Wettstein, Scherzinger & Wyler, 2016) erfasst (s. o.).

Soziodemografische und weitere Variablen: Es wurden das Geschlecht, das Alter, die Lehrerfahrung in Semestern, die zugeordnete Fakultät der Lehrveranstaltung und die Anzahl der bisherigen Sitzungen der Lehrveranstaltung erhoben.

Tabelle 16.2 Verwendete Instrumente und Skalen mit Beispielitems für die Dozierenden-Fragebögen zur Bewertung der Veranstaltungssitzung (Studie 4)

2.3.4 Faktorenanalysen und finale Instrumente

Da alle Instrumente für die Studierenden ursprünglich für den schulischen Kontext konstruiert wurdenFootnote 3, wurden die Items und Skalen anhand der studentischen Stichprobe überprüft. Die Basis für die Item- und Faktorenanalysen bildeten die eindeutigen Erstteilnahmen (N = 663), wobei die finale Faktorenstruktur für alle studentischen Angaben (inkl. Mehrfachteilnahmen; N = 871) überprüft wurde.

Zuerst wurden die Items auf Basis der Schwierigkeiten (5 ≤ Pi ≤ 95; vgl. Kelava & Moosbrugger, 2020)Footnote 4 ausgewählt. Items, bei denen die Option „Nicht sinnvoll beantwortbar“ mit mindestens einem Viertel (25 %) der Antworten entsprach, wurden weitergehend aus den weiteren Analysen ausgeschlossen; diese scheinen nicht relevant für die Hochschule zu sein. Da die Angaben der Studierenden innerhalb von Gruppen strukturiert sind, sollten dann Mehrebenen-Faktorenanalysen berechnet werden (.054 ≤ ICC ≤ .423, M = .194, SD = .074; s. Zusatzmaterial). Bei Mehrebenen-Faktorenanalysen wird die Gesamtvarianz von Beobachtungen zerlegt in die Varianz innerhalb (Individualebene; within) und zwischen Gruppen (bzw. Kontexteinheiten; Gruppenebene; between), wobei unterschiedliche Faktorenstrukturen zwischen Gruppen- und IndividualebeneFootnote 5 entstehen können (Kleinke et al., 2017). Simulationsstudien zeigten jedoch, dass 50 Level-2-Einheiten (hier: 42 Lehrveranstaltungsgruppen) für den vorliegenden Datensatz (z. B. häufig keine Normalverteilungen) zu gering sind (Holtmann et al., 2016; Hox & Maas, 2001; Hox et al., 2010). Deswegen wurden die Faktorenanalysen ohne Berücksichtigung der hierarchischen Datenstruktur durchgeführt.

Für die Faktorenanalysen wurde ein robustes Weighted-Least-Squares-Verfahren (WLSMV) genutzt, das robust gegen Verletzungen der Normalverteilung und auch für ordinale Daten angemessen ist (Holtmann et al., 2016; Li, 2016). Auch die Nutzung der teilweise wenigen Abstufungen der Likert-Skalen (Bühner, 2010) war ein Grund für das Verfahren für ordinale Daten. Darüber hinaus ist das WLSMV-Verfahren gut für kleine Stichprobengrößen geeignet (Eid et al., 2017). Um die besondere Datenstruktur zu berücksichtigen, wurde außerdem „COMPLEX“ als Analysetyp in MPlus herangezogen. „COMPLEX computes standard errors and a chi-square test of model fit taking into account stratification, non-independence of observations, and/or unequal probability of selection“ (Muthén & Muthén, 2017, S. 659). Insgesamt wurden also sehr robuste Verfahren für die Bestimmung der Faktorenstruktur herangezogen. Zwei Faktorenanalysen wurden berechnet: eine für den ersten Eindruck (Fragebogen am Anfang der Veranstaltungssitzung) und eine zweite für die Beurteilung der Veranstaltungssitzung (Fragebogen am Ende der Veranstaltungssitzung).

Die konfirmatorische Faktorenanalyse zum ersten Eindruck bestätigte die zweifaktorielle Lösung mit der Wärme- und Kompetenzbeurteilung über die Angaben der Erstteilnahmen (N = 663; χ2/df = 2.794; CFI = .998; TLI = .997; RMSEA = .052; WRMR = 0.560). Über alle Angaben (N = 871) ergaben sich auch gute Fitmaße (χ2/df = 3.739; CFI = .997; TLI = .996; RMSEA =.056; WRMR = 0.644), wenngleich das Verhältnis von χ2 zu den Freiheitsgraden über dem empfohlenen Cutoff-Wert von 3 liegt (vgl. Weiber & Mühlhaus, 2014).

Für die Maße spezifisch für die Veranstaltungssitzung wurde ein gemeinsames Modell herangezogen. Dies erzielte gute Fitmaße (χ2/df = 1.398; CFI = .981; TLI = .979; RMSEA = .024), jedoch lag der WRMR mit 1.015 zu hoch (vgl. Cook et al., 2009; Yu, 2002). Auf Basis verschiedener explorativer Faktorenanalysen (WLSMV und COMPLEX) der einzelnen Fragebögen wurden folgende Änderungen im Gesamtmodell vorgenommen: Das Item „In der Seminarsitzung war ich eifrig bei der Sache“ wurde dem Faktor „Langeweile“ zugeordnet (ursprünglich „Frustration“). Die Items „Einige Studierende kamen zu spät“ und „Einige Studierende gingen zu früh“ wurden zu einem separaten Faktor „Teilabsentismus“ (vorher im Faktor „Störungen“). Die Items zur Klassenführung wurden aufgrund uneinheitlicher Faktorladungen entfernt („Die/der Dozierende hatte den Überblick über das, was im Seminar geschah“, „Die/der Dozierende merkte, wenn Studierende nicht bei der Sache waren“). Die finale Lösung mit folgenden Faktoren erzielte gute bis sehr gute Fitmaße (χ2/df = 1.386; CFI = .984; TLI = .982; RMSEA = .024; WRMR = 0.942; mit Attraktivitätsbeurteilung als einzelnes Item: χ2/df = 1.348; CFI =  .984; TLI = .982; RMSEA = .023; WRMR = 0.890): Kompetenzbeurteilung für die Lehrveranstaltungssitzung, Wärmebeurteilung für die Lehrveranstaltungssitzung, Freude, Frustration, Langeweile, Interesse (Bezeichnung im Original: „Interessiertheit“), Störungen (Bezeichnung im Original: „Nicht aggressives Verhalten der Schülerinnen und Schüler“), Teilabsentismus, Störungsmissmanagement (Bezeichnung im Original: „Störungen des methodisch-didaktischen Settings“) und Beziehung (sowie Attraktivitätsbeurteilung; Beispielitems der Skalen s. Tabelle 16.1; alle Items s. Zusatzmaterial). Eine anschließende konfirmatorische Faktorenanalyse über alle Angaben (N = 871) bestätigte die faktorielle Validität (χ2/df = 1.439; CFI = .983; TLI = .981; RMSEA = .022; WRMR = 0.974; mit Attraktivitätsbeurteilung als einzelnes Item: χ2/df = 1.397; CFI = .984; TLI = .981; RMSEA = .021; WRMR = 0.921).

3 Ergebnisse

3.1 Studierende

Die zentralen Kennwerte der Skalen können der Tabelle 16.3 entnommen werden und die (Rang-)Korrelationen der Tabelle 16.4 (Pearson-Korrelationen auf individueller Ebene s. Zusatzmaterial). Die Ergebnisse der Studierenden wurden sowohl auf Individual- als auch auf Gruppenebene betrachtet, um die Mehrebenen-Struktur der Daten zu berücksichtigen: Zur Überprüfung des Hypothesenkomplexes 1 wurden hierarchische Regressionsanalysen auf Basis aller studentischen Angaben (N = 871) berechnet.

Tabelle 16.3 Kennwerte der Studierenden-Variablen (Studie 4)
Tabelle 16.4 Korrelationen der Studierenden-Variablen auf individueller Ebene und der aggregierten Gruppenwerte (Studie 4)

In der ersten Regressionsanalyse wurde ausschließlich die Kompetenzbeurteilung beim ersten Eindruck (Kompetenzeindruck) als Regressor berücksichtigt. Die Ergebnisse sind in Tabelle 16.5 zu finden. Die Varianz auf der Individualebene konnte durch den Kompetenzeindruck weniger gut aufgeklärt werden (.000 ≤ R2 ≤ .527) als die auf Gruppenebene (.052 ≤ R2 ≤ .851). Bedeutsam (|β| ≥ .300) hing der Kompetenzeindruck auf Individualebene mit der Bewertung der Kompetenz (β = .527, p < .001) und Wärme (β = .321, p < .001) der Dozierenden in der Lehrveranstaltungssitzung zusammen. Auf der Gruppenebene ergaben sich bedeutsame Zusammenhänge für alle Regressanden mit Ausnahme der Wahrnehmung von Teilabsentismus (β = −.229, p = .116). Mittelgroße bis große Zusammenhänge (|β| ≥ .500) zeigten sich bei der Kompetenz- (β = .923, p < .001) und Wärmebeurteilung (β = .543, p < .001) der Dozierenden in der Lehrveranstaltungssitzung, der berichteten Freude (β = .604, p < .001) und Langeweile (β = −.689, p < .001), dem Interesse am Lehrveranstaltungsthema (β = .513, p < .001), der wahrgenommenen Beziehung (β = .569, p < .001) sowie der Wahrnehmung von Störungen (β = −.771, p < .001) und des Störungsmissmanagements (β = −.855, p < .001).

Tabelle 16.5 Ergebnisse der hierarchischen Regressionsanalysen ohne Kontrollvariablen für das Studierenden-Erleben (Studie 4)

In der zweiten Regressionsanalyse gingen die Kompetenz- und Wärmebeurteilung (Kontrollvariable basierend auf dem stereotype content model) des ersten Eindrucks (Kompetenz- und Wärmeeindruck) sowie die Attraktivitätsbeurteilung (Kontrollvariable aufgrund des „beauty is good“ stereotype) als Regressoren ein. Die Ergebnisse der hierarchischen Regressionsanalysen sind in Tabelle 16.6 dargestellt. Insgesamt konnten die Regressionsanalysen viel bis sehr viel Varianz der Regressanden signifikant auf Gruppenebene aufklären (.345 ≤ R2 ≤ .972); ausgenommen hiervon war der Teilabsentismus (R2 = .044, p = .443). Auf der Individualebene konnte weniger Varianz aufgeklärt werden (.004 ≤ R2 ≤ .507). Unter Berücksichtigung der Kontrollvariablen verringerten sich die Zusammenhänge des Kompetenzeindrucks mit einigen Regressanden, was insbesondere auf die Zusammenhänge mit dem Wärmeeindruck zurückzuführen ist. Die Attraktivitätsbeurteilung ist kaum bedeutsam. Auf der Individualebene hing der Kompetenzeindruck nur noch bedeutsam (|β| ≥ .300) mit der Kompetenzbeurteilung der Dozierenden in der Lehrveranstaltungssitzung zusammen (β = .681, p < .001). Während der Kompetenzeindruck in der ersten hierarchischen Regressionsanalyse ohne Kontrollvariablen mittelgroße bis große Zusammenhänge (|β| ≥ .500) mit acht von zehn Regressanden auf der Gruppenebene hatte, ergaben sich in der zweiten Regressionsanalyse mit Kontrollvariablen nur noch mittelgroße bis große Zusammenhänge mit vier Regressanden: Kompetenzbeurteilung der Dozierenden in der Lehrveranstaltungssitzung (β = .858, p < .001), Langeweile (β = −.617, p < .001), Wahrnehmung von Störungen (β = −.764, p < .001) und von Störungsmissmanagement (β = −.797, p < .001). Für die Kompetenzerwartungen – unter Berücksichtigung der Kontrollvariablen – können die Hypothesen 1, 3, 4, 5, 6 und 8 des ersten Hypothesenkomplexes auf Gruppenebene bei mindestens mittelgroßer Effektstärke (|β| > .300) angenommen werden sowie die Hypothese 6 für die Individualebene (s. Tabelle 16.6).

Der Wärmeeindruck hing auf Individualebene (|β| ≥ .300) mit der Beurteilung der Wärme in der Lehrveranstaltungssitzung (β = .599, p < .001) sowie der Beschreibung der Beziehung (β = .302, p < .001) zusammen. Auf Gruppenebene hing der Wärmeeindruck (|β| ≥ .500) hingegen mit der Wärmebeurteilung in der Lehrveranstaltungssitzung (β = .926, p < .001), der Freude (β = .517, p = .001), der Frustration (β = −.545, p < .001) und der Beschreibung der Beziehung (β = .890, p < .001) in der Lehrveranstaltungssitzung zusammen.

Tabelle 16.6 Ergebnisse der hierarchischen Regressionsanalysen mit Kontrollvariablen für das Studierenden-Erleben (Studie 4)

3.2 Dozierende

In Tabelle 16.7 sind die zentralen Kennwerte der Variablen und die Korrelationen in Tabelle 16.8 gelistet. In Tabelle 16.9 finden sich die Korrelationen mit dem mittleren ersten Eindruck der Studierenden (Kompetenz- und Wärmeeindruck) sowie deren Attraktivitätsbeurteilung der Dozierenden (aggregierte Gruppenwerte).

Tabelle 16.7 Kennwerte der Dozierenden-Variablen (Studie 4)
Tabelle 16.8 Korrelationen der Dozierenden-Variablen (Studie 4)
Tabelle 16.9 Korrelationen des Dozierenden-Erlebens mit dem studentischen ersten Eindruck und der Attraktivitätsbeurteilung (Studie 4)

Die Hypothesen, inwieweit der erste Eindruck der Kompetenz, den Lernende von ihren Dozierenden hatten, mit der Wahrnehmung einer Lehrveranstaltungssitzung der Dozierenden und der Wahrnehmung von sich selbst zusammenhängt, wurden in bivariaten Analysen mit Rangkorrelationen nach Spearman überprüft (s. Tabelle 16.9). Der mittlere erste Kompetenzeindruck hing signifikant mit der Einschätzung der eigenen Kompetenz der Dozierenden in der Lehrveranstaltungssitzung zusammen (rS = .318, p = .043; 1−β = .527), außerdem mit dem Erleben positiver Emotionen (rS = .327, p = .039; 1−β = .551) und von Störungsmissmanagement (rS = −.388, p = .028; 1−β = .713). Weitergehend zeigten die Vorzeichen der Korrelationen, dass der erste Kompetenzeindruck der Studierenden mit einem positiven Erleben der Dozierenden sowie einer besseren Beurteilung einer Lehrveranstaltungssitzung zusammenhing.

Das multivariate Zusammenspiel vom ersten Kompetenz- und Wärmeeindruck (Kontrollvariable basierend auf dem stereotype content model), den Studierende von den Dozierenden hatten, sowie der Attraktivität (Kontrollvariable aufgrund des „beauty is good“ stereotype), die die Studierenden den Dozierenden zuschrieben, auf das Erleben der Dozierenden wurde mit Regressionsanalysen mit Bootstrap überprüft. Die Ergebnisse sind in Tabelle 16.10 dargestellt. Insgesamt konnte regressionsanalytisch nur wenig Varianz aufgeklärt werden (−.063 ≤ korrigiertes R2 ≤ .122). Der mittlere Kompetenzeindruck zeigte sich als signifikanter Regressor bei den Dozierenden für das Erleben positiver Emotionen (β = .366, pbt = .029), der eigenen Kompetenz in der Lehrveranstaltungssitzung (β = .375, pbt = .023), von Flow (β = .401, pbt = .033) sowie von Störungsmissmanagement (β = −.399, pbt = .028). Auch wenn die Effektstärke für den Zusammenhang des Erlebens von Störungen in der Lehrveranstaltungssitzung mit dem mittleren, ersten Kompetenzeindruck der Studierenden verhältnismäßig hoch ausfiel, verfehlte es in der Analyse mit Bootstrap das Signifikanzniveau (β = −.487, pbt = .112). Folglich können die Hypothesen 1, 3, 4 und 7 des zweiten Hypothesenkomplexes auf Basis der erzielten Ergebnisse angenommen werden.

Tabelle 16.10 Ergebnisse der linearen Regressionsanalysen mit Kontrollvariablen für das Dozierenden-Erleben (Studie 4)

4 Zusammenfassung, Interpretationen und Limitationen

Die vierte Studie ging der Frage nach, welche Auswirkungen Lernendenkompetenzerwartungen an Lehrpersonen haben. Dafür wurde eine Feldstudie im Hochschulkontext (Technische Universität Braunschweig) durchgeführt, die sowohl die Effekte auf die Lernenden selbst als auch auf die Lehrpersonen betrachtete.

4.1 Effekte auf die Lernenden

Die Intraklassenkorrelationen weisen darauf hin, dass die Wahrnehmung der Studierenden – sowohl der Lehrperson als auch des Unterrichtsgeschehens – weitestgehend geteilt wird (vgl. Geiser, 2010). Somit scheinen Studierende innerhalb eines Kurses ähnliche Standards der Bewertung heranzuziehen. Weitergehend weist die geteilte Wahrnehmung darauf hin, dass es ein Auftreten der Lehrpersonen gibt, das allgemein als kompetent beurteilt wird. Eine genauere Analyse, welche Eigenschaften bzw. Eigenschaftskombinationen dies sind, müsste künftig untersucht werden, um handlungspraktische Ableitungen zu treffen. So kann eine zugewandte, offene Körpersprache von Lehrpersonen mehr Kompetenz ausstrahlen (Barmaki, 2014; Feldman & Prohaska, 1979; Gorham et al., 1997, 1999). Auch könnte die Stimmhöhe einen Einfluss haben, die Studien hierzu sind jedoch uneindeutig (Ko et al., 2009; Krahé & Papakonstantinou, 2020; Oleszikiewicz et al., 2017). Nichtsdestotrotz scheinen die Befunde darauf hinzudeuten, dass Kompetenz durch eine tiefe Stimme vermittelt wird sowie Wärme/Sympathie durch eine hohe Stimme. Ein Training zur gezielten Stimmmodulation kann deswegen in Lehrberufen sinnvoll sein. Weitergehend können auch die Sprechrate, die Nutzung von Füllwörtern und -lauten sowie die Betonung bedeutsam sein, um Kompetenz und Wärme zu vermitteln (vgl. Kiese-Himmel, 2016).

Die Zusammenhänge zwischen dem ersten Eindruck und der Wahrnehmung der Lehrveranstaltungssitzung folgten – unter Berücksichtigung von Kontrollvariablen – einem bestimmten Muster: Die motivationalen Variablen (Interesse, Langeweile) sowie die Wahrnehmung von Störungen und Störungsmissmanagement standen im Zusammenhang mit dem ersten Kompetenzeindruck. Der erste Wärmeeindruck hingegen war ein bedeutsamer Regressand für das emotionale Erleben (Freude, Frustration) sowie für die Wahrnehmung der Beziehung. Die Zusammenhänge zeigten sich fast ausschließlich auf der Gruppenebene. Die Attraktivitätsbeurteilung spielte unter Beachtung des Kompetenz- und des Wärmeeindrucks keine bedeutsame Rolle. Der hohe Zusammenhang von Kompetenzbeurteilung beim ersten Eindruck sowie innerhalb der Lehrveranstaltungssitzung (rS = .759, p < .001) kann zu großen Teilen daran liegen, dass die identische Adjektivliste genutzt wurde. Gleiches gilt für die Wärmebeurteilung (rS = .815, p < .001). Außerdem ist der zeitliche Abstand zwischen erstem Eindruck und der betrachteten Lehrveranstaltung im Mittel gering (ca. ein halbes Jahr), sodass große Abweichungen überraschend gewesen wären.

Zusammenfassend zeigten sich Kompetenz und Wärme als distinkte, aber jeweils wichtige Dimensionen in der sozialen Wahrnehmung im Lehr-Lern-Kontext, wie es im Rahmen des stereotype content model (s. Kapitel 5) postuliert wird. Die Erwartungseffekte auf die erwartungshaltende Person müssen also je nach Art der Erwartung unterschiedlich betrachtet werden.

4.2 Effekte auf die Lehrpersonen

Der Einfluss des ersten Lernendenkompetenzeindrucks – als Maß für Lernendenkompetenzerwartungen – auf die Lehrpersonen war vergleichsweise geringer als die Wirkung auf die Lernenden selbst. So hing der mittlere studentische Kompetenzeindruck in den multivariaten Regressionsanalysen mit kleinen bis mittelgroßen Effekten positiv mit dem Erleben der eigenen Kompetenz in der Lehrveranstaltung, dem Erleben positiver Emotionen und von Flow sowie negativ mit dem Erleben von eigenem Störungsmissmanagement zusammen.

Die wenigen und teilweise kleinen Effekte auf das Erleben der Dozierenden könnten darin begründet liegen, dass sich innerhalb der zeitlich geringen Interaktion zwischen Lehrpersonen und Lernenden keine systematischen, interaktionalen Muster ausgebildet haben (interaktionale Schemata; Thies, 2010) – konträr zu Jussim und Harber (2005) sowie Raudenbusch (1984). Es könnte sein, dass am Ende des jeweiligen Semesters die Effekte auf die Lehrpersonen größer ausgefallen wären. So variiert die Effektstärke auch bei Rosenthal und Jacobson (1971), mit einem Höhepunkt ein Jahr nach der Kompetenzmanipulation.

Weitergehend kann vermutet werden, dass Lehrpersonen im Verlauf der Lehrpraxis Coping-Strategien aufbauen und sich somit weniger bzw. weniger schnell durch negatives Verhalten der Lernenden beeinflussen lassen. Ob Coping-Strategien bedeutsam sind, müsste in weitergehenden Untersuchungen betrachtet werden. Andererseits kann es auch sein, dass Lehrpersonen an einer Hochschule mit geringem Ausmaß an Lehrverpflichtungen (und weiteren Aufgaben z. B. in der Forschung) als Lehrkräfte an allgemeinbildenden Schulen und dem damit einhergehenden Selbstkonzept (geringere Identifikation als Lehrende) weniger durch problematische Lehr-Lern-Situationen beeinflusst werden und/oder weniger sensibel dafür sind.

Die erzielten Effektstärken liegen unterhalb derer, die Feldman und Prohaska (1979) berichteten (|d| bis zu 1.93). Die kleinen Effektstärken des mittleren ersten Lernendenkompetenzeindrucks von den Lehrpersonen sind hier aber vor dem Hintergrund der Feldstudie zu interpretieren. Das eigene Erleben und das der Lehrveranstaltungssitzung können von vielen weiteren Einflüssen beeinträchtigt sein, z. B. vom Wetter, von der Tageszeit, vom erlebten Stress außerhalb der Lehrsituation, die innerhalb einer spezifischen Lehrveranstaltungssitzung stärker wirksam sein könnten. Deswegen braucht es größere Stichproben (s. u.) bzw. auch längsschnittliche Untersuchungen. Weitergehend kann die Höhe der Effektstärke auch davon abhängig sein, ob der Kompetenzeindruck bzw. die -erwartungen von den Lernenden in größerem oder kleinerem Ausmaß geteilt wird (vgl. Jamieson et al., 1987). Eine diesbezügliche statistische Prüfung konnte hier aufgrund der kleinen Stichprobe (N = 41) nicht sinnvoll durchgeführt werden. Zukünftige Studien im Feld zu Lernendenkompetenzerwartungen sollten dies in der Untersuchungsplanung berücksichtigen und von kleinen Effektstärken ausgehen.

4.3 Limitationen

Die bedeutsamste Limitation innerhalb der Untersuchung wurde bereits eingangs bei der Beschreibung des Vorgehens beschrieben. Sie besteht darin, dass der erste Eindruck der Studierenden von der dozierenden Person retrospektiv erfasst wurde. Durch diese Methode kann es sein, dass nicht der tatsächliche erste Eindruck erfasst wurde. Auch wenn die Methode Schwächen aufweist, kann sie unter der Annahme, dass der erste Eindruck stabil repräsentiert ist (vgl. Schweer, 2019), als angemessen bewertet werden, insbesondere im Kontext einer Feldstudie. Weitergehend zeigten die Korrelationen der Skalen Kompetenz und Wärme beim ersten Eindruck mit der jeweiligen Beurteilung innerhalb der Lehrveranstaltung keine perfekten Zusammenhänge. Dies kann als Indiz dafür gedeutet werden, dass die teilnehmenden Studierenden ihren tatsächlichen ersten Eindruck angaben. Weitergehend lag die erste Begegnung mit der dozierenden Person, für die der erste Eindruck erinnert werden musste, im Mittel nur etwa ein halbes Jahr zurück, was als überschaubarer Zeitraum gewertet werden kann. Aufgrund dieses „pseudo-längsschnittlichen“ Ansatzes sowie der ausschließlichen Betrachtung von Zusammenhängen lassen sich aber keine Kausalitäten ableiten (vgl. Döring & Bortz, 2016). Perspektivisch könnten Untersuchungen in Blockseminaren, bei externen Lehrbeauftragten sowie in der Erwachsenenbildung durchgeführt werden, weil dort kontrollierter der erste Eindruck erfragt werden kann. Im schulischen Kontext ist dies beispielsweise beim Übergang in weiterführende Schulen möglich.

Wie in den vorherigen Studien wurde auch hier auf eine Gelegenheitsstichprobe zurückgegriffen. Weitergehend gab es keine repräsentative Auswahl an Lehrveranstaltungen, sodass Veranstaltungen aus den Geistes- und Erziehungswissenschaften stärker repräsentiert waren. Dies und die freiwillige Teilnahme der Dozierenden können eine Erklärung für die Deckeneffekte und die damit besonders positive Beurteilung sein. So könnten Dozierende insbesondere in den Erziehungswissenschaften besonders sensibel für die Gestaltung von Lehre sein und ein entsprechendes Auftreten entwickelt haben (im Sinne von positiv zu bewertendem Klassenführungsverhalten). Weitergehend kann angenommen werden, dass insbesondere Dozierende, die besonders gute Lehrveranstaltungen anbieten (z. B. rückgemeldet über regelmäßige Evaluationen), an der Untersuchung teilnahmen. Dadurch kann die Motivation an der Teilnahme an einer Studie zur Klassenführung (Cover-Story) erhöht sein. Dies schränkt allerdings die Generalisierbarkeit der Ergebnisse deutlich ein, auch weil davon ausgegangen werden muss, dass die tatsächliche Varianz der Variablen in der Untersuchung nicht korrekt repräsentiert ist – was auch zu den kleinen Effekten auf die Lehrpersonen führen könnte. Nichtsdestotrotz kann davon ausgegangen werden, dass die Richtung der Zusammenhänge (positiv oder negativ) der Variablen angemessen beschrieben wird.

Eine weitere Problematik besteht in Bezug auf die kleine Zahl der teilnehmenden Dozierenden (N = 41) resp. der untersuchten Lehrveranstaltungen (N = 42). Dadurch ergab sich eine reduzierte statistische Power (vgl. Hager, 2004), insbesondere bei der Betrachtung auf Gruppenebene bzw. der Lehrpersonen. Dies ist forschungsökonomisch begründet, da die Erhebungen sehr aufwendig waren (zwei Messzeitpunkte innerhalb einer Lehrveranstaltungssitzung), und könnte künftig um weitere Veranstaltungen ergänzt werden.

Eine zusätzliche Limitation ergibt sich durch die verwendeten Fragebögen. Viele der verwendeten Items wurden ursprünglich für den Schulkontext erstellt und für die Hochschullehre sprachlich angepasst. Auch wenn eine intensive Itemanalyse durchgeführt sowie die faktorielle Validität überprüft wurde, hätten andere Fragebögen, die spezifisch die Hochschullehre fokussieren bzw. Erwachsene adressieren, Anwendung finden können: z. B. Münsteraner Fragebogen zur Evaluation von Seminaren (MFE-Sr) bzw. von Vorlesungen (MFE-Vr) von Thielsch & Hirschfeld (2014a, 2014b) oder eine lehrveranstaltungsspezifische Version des Fragebogens zur Lern- und Leistungsmotivation im Studium (LLMS) von Sudman et al. (2014).

Demgegenüber wurden unterschiedliche Formate von Lehrveranstaltungen betrachtet, von kleinen Seminaren (mit n = 7 Teilnehmenden) bis zu größeren Vorlesungen (mit n = 78 Teilnehmenden). Außerdem wurden unterschiedliche Fachdisziplinen betrachtet. Auch wenn Lehrveranstaltungen der Geistes- und Erziehungswissenschaften am häufigsten vertreten waren, sind sie dennoch sehr heterogen. Nichtsdestotrotz sollten in weiteren Untersuchungen auch stärker andere Fachdisziplinen, z. B. die Natur- und Ingenieurswissenschaften, fokussiert werden.

Positiv an der Untersuchung hervorzuheben ist die Anzahl der teilnehmenden Studierenden (N = 663 Erstteilnahmen). Dadurch ergab sich für die Berechnungen der Zusammenhänge auf der Lernendenseite eine hohe statistische Power. Insgesamt kann diese Feldstudie weitere Erkenntnisse zur Wirkung von Lernendenerwartungen auf Lernende liefern sowie die rare Befundlage zur Wirkung derselben auf Lehrpersonen erweitern.