Studienspezifische Limitationen sind bereits in den jeweiligen Kapiteln diskutiert worden. Im Folgenden sollen übergreifende Limitationen aufgezeigt werden, die die Interpretation der Ergebnisse beeinflussen. Hier sind insbesondere sechs Aspekte zu berücksichtigen: (1.) Die ersten drei Studien fokussieren Lehrkräfte in allgemeinbildenden Schulen und die vierte Studie wurde im Hochschulkontext durchgeführt. Auch wenn davon ausgegangen werden kann, dass die allgemeinen Prozesse des Lehrens und Lernens, inklusive der Lehr-Lern-Interaktion, ähnlich verlaufen (vgl. Klein, 2011), sind die erzielten Ergebnisse nicht ohne weitere Überprüfung auf den jeweils anderen Kontext (oder weitere wie der Erwachsenenbildung z. B. in Volkshochschulen) übertragbar. (2.) Ein zweiter Aspekt, der die Interpretation der Ergebnisse limitiert, liegt in der Stichprobenzusammensetzung. Die Teilnehmenden aller Studien waren Erwachsene. Es ist zwar davon auszugehen, dass die kognitiven Repräsentationen und (Geschlechts-)Stereotype innerhalb eines kulturellen Kontexts zwischen Erwachsenen, Kindern (ab 6 Jahren; insbesondere ab 10 Jahren) und Jugendlichen nicht wesentlich verschieden sind (vgl. Beelmann & Neudecker, 2020; Raabe & Beelmann, 2009), eine Untersuchung der Fragestellungen mit Kindern und Jugendlichen ist aber dennoch wünschenswert, um die Befunde zu unterstützen oder zu widerlegen und um ein differenziertes Bild zu erhalten (z. B. variierende Effektstärken). (3.) Ein weiterer, wesentlicher Kritikpunkt an der Methodik bezieht sich auf die Stichprobenziehung. Alle Studien wurden mit Gelegenheitsstichproben (bzw. Ad-hoc-Stichproben; Döring & Bortz, 2016) mit einem allgemeinen Teilnahmeaufruf durchgeführt. Diese Form der Stichprobenziehung beinhaltet die Gefahr von Selbstselektions-Effekten und ist selten repräsentativ für die Gesamtbevölkerung resp. die Zielpopulation. Dies sollte für die Studien 1 und 2 weniger bedeutsam sein, da Stereotype sozial geteilte Wissensstrukturen sind (vgl. Cuddy et al., 2008; Stangor, 2009). Unter Berücksichtigung der Teilnehmendenstruktur kann davon ausgegangen werden, dass die Ergebnisse zu den Stereotypen eher konservativer (also mit kleineren Effektenstärken) ausfielen, da hauptsächlich Proband*innen aus psycho-sozialen Berufen oder Studienfächern teilnahmen. Diese Teilnehmenden sollten aufgrund ihrer Ausbildung sensibler gegenüber Stereotypen sein (so geht etwa der fundamentale Attributionsfehler mit weniger sozialpsychologischer Kompetenz einher; Gollwitzer & Bargh, 2018). Analoge Überlegungen lassen sich für Studie 3 aufstellen. Besonders problematisch zeigte sich die Gelegenheitsstichprobe in Studie 4 bei den Dozierenden. In Anbetracht der besonders positiven Bewertungen der Lehrpersonen muss von einem Selektionseffekt ausgegangen werden, der die beobachtete Varianz einschränkt, jedoch die Richtung der aufgezeigten Zusammenhänge nicht beeinflussen sollte. (4.) Eine weitere Limitation betrifft die kleinen Stichprobengrößen, insbesondere in Studie 3 und die Lehrpersonen-Stichprobe in Studie 4 mit jeweils unter 70 Proband*innen. Trotz der Ziehung von Gelegenheitsstichproben war es schwer möglich, Personen zur Teilnahme an aufwendigeren Untersuchungen zu gewinnen. Dadurch reduziert sich die statistische Power deutlich, weswegen auch keine Anpassung des Signifikanzniveaus durchgeführt wurde – was die Power erneut reduziert und die Wahrscheinlichkeit für Beta-Fehler (Fehler 2. Art) erhöht hätte (vgl. Bortz & Schuster, 2010; Hager, 2004). Die Diskussion der Ergebnisse basierte deswegen auch stärker auf den erzielten Effektstärken. Um Verletzungen von Testvoraussetzungen zu begegnen und ausreißende Werte angemessen zu berücksichtigen, wurden die Ergebnisse zumeist mit Rangkorrelationen (nach Spearman) und Verfahren mit Bootstrap berechnet. (5.) Außerdem muss die Auswahl der Items beachtet werden. Die Items zur Erfassung der Kompetenz und Wärme sowie der Attraktivität wurden eigens für die Studien ausgewählt, ohne jedoch eine inhaltliche Validierung durchzuführen. Die durchgeführten Faktoren- und Reliabilitätsanalysen unterstützen jedoch die theoretischen Überlegungen, die den Itemkonstruktionen zugrunde lagen. Allerdings ist davon auszugehen, dass die Kompetenz- und Wärmebeurteilungen mit der verwendeten Likert-Skala subjektive Maße sind. Dies ist insbesondere für die Studien 1 und 2 problematisch, da dies zu einem shifting standard (Biernat et al., 1991; Foschi, 2000) geführt haben könnte und sich somit die Geschlechts-Professions-Assoziationen nicht einstellten, da die beschriebenen Personen in den Fallvignetten mit der jeweiligen Gruppe verglichen wurden (z. B. „für eine männliche Lehrkraft wirkt die Person ziemlich kompetent“). Es gibt also einen Bedarf der Replikation mit objektiven Maßen (z. B. Bewertung mit Punkten oder Einschätzung einer Erfolgswahrscheinlichkeit). Darüber hinaus wurden einige der verwendeten, bereits validierten Skalen umformuliert bzw. Erhebungsinstrumente angepasst, um sie an die Gegebenheiten der jeweiligen Studie anzupassen. (6.) Das Ziel, die Wirkung von Lernendenkompetenzerwartungen auf Lehrpersonen zu untersuchen, wurde mit Zusammenhangsanalysen in der vierten Studie (Feldstudie) umgesetzt. Dadurch können keine Aussagen zu Kausalitäten getroffen werden. Eine Untersuchung, die längsschnittlich (im Hochschulkontext z. B. über ein Semester) mit mehreren Messzeitpunkten verläuft und mit dem Erfassen der ersten Kompetenzerwartung bzw. -beurteilung beginnt, wäre ein angemessenes Verfahren, um sowohl Kausalaussagen zu ermöglichen als auch kurz- und langfristige Effekte von Lernendenkompetenzerwartungen zu betrachten.

Neben diesen Limitationen sollen auch die wesentlichen Stärken der Studien erwähnt werden. (1.) Die Studien 1, 2 und 3 haben ein experimentelles Design und die Studien 1 und 2 mit randomisierter Zuordnung, sodass der Einfluss der Manipulationen kausal interpretiert werden kann. (2.) In Studie 3 standen keine individuellen subjektiven Angaben der Proband*innen im Fokus der Auswertung, sondern das nonverbale Verhalten der Proband*innen, was einerseits besonders aufwendig zu erheben ist und andererseits selten in der psychologischen Forschung berücksichtigt wird (Döring & Bortz, 2016; Weber, 2012). (3.) Einige Stichprobengrößen in den Studien sind relativ klein, allerdings ist die Stichprobengröße der Lernenden in Studie 4 mit 663 Erstteilnahmen (eindeutig identifizierbare Erstteilnahmen an der Studie, da Mehrfachteilnahmen möglich waren) und insgesamt 871 Angaben (inkl. Mehrfachteilnahmen) groß. (4.) Neben Feldman und Prohaska (1979) sowie Feldman und Theiss (1982) ist die Studie 4 die einzige (deutsch- und/oder englischsprachige) Untersuchung, die die Zusammenhänge von Lernendenkompetenzerwartungen an Lehrpersonen mit der Wahrnehmung der Lehrpersonen von sich und der eigenen Lehre fokussiert. Im Vergleich zu Feldman und Prohaska (1979) sowie Feldman und Theiss (1982) wurde zudem eine Feldstudie durchgeführt, was die externe Validität der Befunde erhöht (Döring und Bortz, 2016). (5.) Die vierte Studie berücksichtigte sowohl die Gruppen- als auch die Individualebene als Analyseeinheiten, um die Zusammenhänge der Lernendenkompetenzerwartungen auf die Lernenden selbst zu betrachten. Zumeist wird auf die unterschiedlichen Ebenen zu selbsterfüllenden Prophezeiungen im Lehr-Lern-Kontext in Forschung und Theorie kaum eingegangen. Die erzielten Ergebnisse weisen auf die Bedeutsamkeit der Unterscheidung hin, da die Gruppenebene auf Basis der erzielten Ergebnisse deutlich mehr Varianz aufklären kann als die Individualebene.