1 Einleitung

Multiple-Choice Aufgaben (MCA) spielen schon lange überall dort eine bedeutende Rolle, wo es darum geht, Wissen, Lernergebnisse, Fähigkeiten und Kompetenzen zu messen (Ben-Simon et al. 1997; Chang et al. 2007). Die Bandbreite an Anwendungen ist groß. So kommen sie in internationalen Vergleichsstudien in der Bildungsforschung genauso zum Einsatz wie bei der theoretischen Führerscheinprüfung. Gründe dafür sind, dass MCA in der Umsetzung leicht handzuhaben sind und ihnen eine hohe Ökonomie und Objektivität bei der Auswertung zugeschrieben wird. Nichtsdestotrotz geht die Anwendung mit bestimmten Problemen einher, die mit der Konstruktion und Auswertung von MCA zusammenhängen, wie das Formulieren von „guten“ Distraktoren bei der Konstruktion oder das Raten bei der Auswertung. Ein wichtiger Aspekt im Zusammenhang mit MCA stellt „test-wiseness“ (TW) dar. Hierauf wird im Folgenden näher eingegangen.

Das in der Praxis am häufigsten vertretene MCA-Format ist das Single-Choice Format (Haladyna und Rodriguez 2013), das typischerweise aus einem Itemstamm, einer richtigen Antwort (Attraktor) und mindestens drei Antwortalternativen (Distraktoren) besteht. Das Testergebnis, das eine Person erzielt, soll ihren Wissensstand hinsichtlich eines bestimmten Themas (Rogers und Yang 1996) oder ihre Fähigkeiten und Kompetenzen widerspiegeln. Es wird davon ausgegangen, dass je höher die Anzahl richtig gelöster MCA dieser Person ist, desto höher der Grad ihres Wissens oder ihrer Kompetenzen. Seit Mitte des letzten Jahrhunderts wird TW immer wieder als Einflussfaktor auf die Leistung einer Person in MC-Tests betont (Edwards 2003; Millman et al. 1965; Tomkowicz und Rogers 2005). TW bezeichnet dabei die Fähigkeit einer Person, eine hohe Punktzahl in einem MC-Test zu erzielen, indem die richtige Antwort durch Nutzung spezifischer Hinweise und Charakteristika der Items identifiziert wird (Edwards 2003; Gibb 1964; Millman et al. 1965). Besonders in den USA finden sich zahlreiche Studien, in denen der Grad an TW bei Studierenden erhoben wurde, u. a. zur Überprüfung der Studierfähigkeit. Obwohl die Bedeutung von TW bei der Bearbeitung von MCA mehrfach belegt wurde, und die Durchführung weiterer Studien über TW gefordert wird (Cohen 2006), scheint die Erfassung von TW im deutschsprachigen Raum eine untergeordnete Rolle zu spielen (vgl. Brunner et al. 2007). Unseres Wissens existiert kein deutschsprachiger Test, mit dem TW erfasst werden kann. Ebenfalls ist unklar, inwieweit deutschsprachige Studierende durch Training von TW ihre Testleistungen in einem TW-Test positiv beeinflussen können. Ziel dieser Studie ist es daher, diesen Fragen mit einem neu entwickelten deutschsprachigen TW-Test nachzugehen. Vor diesem Hintergrund werden zuerst die theoretischen Erkenntnisse und empirische Ausgangslage zu TW dargestellt, um anschließend näher auf die vorliegende Studie mit ihren Befunden einzugehen.

2 Was ist TW?

Die verbreitetste Definition von TW stammt von Millman et al. (1965). Sie definieren TW als „a subject’s capacity to utilize characteristics and formats of the test and/or test taking situation to receive a high score. Test-wiseness is logically independent of the examinee’s knowledge of the subject matter for which the items are supposedly measures“ (Millman et al. 1965, S. 707). TW bezeichnet demnach die Fähigkeit, gewisse Strategien zu nutzen, um unabhängig von dem thematischen Wissen aber durch „ungewollte“ Hinweise (seitens der Testkonstruktion) in den Aufgaben möglichst viele Testaufgaben richtig zu beantworten. Inwieweit die Strategien wirklich unabhängig sind, ist weitestgehend ungeklärt. Einige Befunde zeigen, dass TW schwach bis moderat mit der kognitiven Fähigkeit korreliert (vgl. Rogers und Yang 1996). Aufbauend auf der Definition und den bis dahin vorhandenen Erkenntnissen und Befunden entwickelten Millman et al. (1965) eine „Taxonomy of Test-wiseness Principles“. Laut dieser können die verschiedenen TW-Prinzipien zwei Kategorien mit ihren jeweiligen Unterkategorien zugeordnet werden:

  • I. Zweck- und konstruktionsunabhängige Prinzipien

    1. A.

      Zeitnutzungsstrategien (z. B. bei Zeitvorgabe erst die Fragen beantworten, die wirklich gewusst werden)

    2. B.

      Fehlervermeidungsstrategien (z. B. erst nach sorgfältigem Lesen aller Antwortmöglichkeiten eine Antwort auswählen)

    3. C.

      Ratestrategien (z. B. raten, wenn es keine Minuspunkte für falsche Antworten gibt)

    4. D.

      Schlussfolgerungsstrategien (z. B. Antwortmöglichkeiten, die sicher falsch sind, ausschließen)

  • II. Zweck- und konstruktionsabhängige Prinzipien

    1. A.

      Intention betreffende Strategien (z. B. den Zweck des Tests bei der Beantwortung der Fragen beachten)

    2. B.

      Hinweisnutzungsstrategien (z. B. bestimmte Hinweiswörter bei Beantwortung nutzen)

Die erste Kategorie umfasst vom Testzweck und -konstruktion unabhängige Strategien, die in jeder beliebigen Testsituation anwendbar sind. Dagegen sind in der zweiten Kategorie Strategien zusammengefasst, die von dem Testzweck bzw. dem Testentwickler abhängig sind. Zeitnutzungs- (IA), Fehlervermeidungsstrategien (IB) und Strategien, die die Intention betreffen (IIA), helfen, kein schlechtes Testergebnis aus anderen Gründen als fehlendem thematischem Wissen zu erzielen. Rate- (IC), Schlussfolgerungs- (ID) und Hinweisnutzungsstrategien (IIB) dagegen dienen dazu, Fragen zusätzlich zu denen, die wirklich einzig aufgrund des thematischen Wissens richtig beantwortet werden können, richtig zu beantworten (Millman et al. 1965; Yang 2000). Während eines Tests können mehrere dieser Strategien angewendet werden. Beispielsweise kann eine Person zuerst einmal alle Fragen beantworten, bei denen die Person überzeugt ist, die richtige Antwort zu wissen. Anschließend, bei noch nicht beantworteten Fragen, kann die Testperson nach Hinweiswörtern in den Antworten suchen, um sie richtig zu beantworten. TW ist somit ein Faktor, der sich auf die Testergebnisse auswirkt (Sarnacki 1979), da die TW-Strategien zur richtigen Lösung führen können, obwohl die richtige Antwort nicht gewusst wird. Die Stärke dieses Einflusses ist jedoch nicht eindeutig geklärt. So finden sich Studien, bei denen TW 10 bzw. 13 % (Bruch 1981), 16 % (Fagley 1987) oder 46,4 % (Miller et al. 1990) der Varianz in Testleistungen aufklärt. Darüber hinaus wird kontrovers betrachtet, ob TW und das thematische Wissen einer Person wirklich unabhängig voneinander sind. Eine Unabhängigkeit von TW und thematischem Wissen wird nach Rogers und Bateson (1991) durch Befunde von Studien (Bajtelsmit 1975; Slakter et al. 1970; Woodley 1973) gestützt, in denen Personen mit TW gegenüber Personen ohne TW besser bei der Beantwortung von völlig inhaltsfreien MCA abschnitten. Zudem konnten Studien TW bei Tests in unterschiedlichen Themengebieten nachweisen (Diamond und Evans 1972; Pryczak 1973; Rowley 1974), was ebenfalls eine Unabhängigkeit unterstützen würde. Allerdings scheint es, dass TW zumindest zu einem gewissen Grad mit dem thematischen Wissen zusammenhängt. So weisen Millman et al. (1965) darauf hin, dass gerade für Schlussfolgerungs- (ID) und Hinweisnutzungsstrategien (IIB) teilweise thematisches Wissen nötig ist. Auch Yang (2000) weist darauf hin, dass es unmöglich sei, ohne thematisches Wissen zu identifizieren, ob zwei Antworten dasselbe oder gegensätzliches aussagen (Schlussfolgerungsstrategie). Obwohl also die TW-Strategien theoretisch als voneinander getrennte Faktoren angesehen werden, treten sie in der Praxis vermutlich gemeinsam auf und beanspruchen wahrscheinlich teilweise die gleichen kognitiven Fähigkeiten. Inwieweit TW methodisch ein ein- oder mehrdimensionales Konstrukt ist, ist jedoch nicht eindeutig. TW ist somit ein Sammelbegriff für verschiedene Strategien, die durch die Anwendung das auf dem thematischen Wissen basierende Testergebnis verbessern können.

3 Wie wird TW gemessen?

Am häufigsten wird TW mit MCA erfasst, die überwiegend nur richtig beantwortet werden können, wenn TW angewendet wird (Edwards 2003; Gibb 1964; Woodley 1973). Der nicht nur erste, sondern auch am häufigsten verwendete und als Grundlage zur Entwicklung weiterer TW-Tests genutzte Test (Yang 2000), ist der „Experimental Test of Testwiseness“ von Gibb (1964). Er gilt als das umfassendste Instrument zur Erfassung von TW mit den besten psychometrischen Eigenschaften (Edwards 2003) und besteht aus insgesamt 70 MCA. Um die Möglichkeit zu reduzieren, dass die Items aufgrund vorhandenen Wissens beantwortet werden können, beinhalten sie sehr schwierige geschichtliche Fakten und Interpretationen. Sie können nicht mit Weltwissen gelöst werden. Als Folge sollten sie nur durch die Anwendung von TW-Strategien oder durch Raten richtig beantwortet werden können (Gibb 1964; Miller et al. 1988). Im Test von Gibb (1964) sind jeweils zehn Items zu einer Subskala zusammengefasst. Die Subskalen stehen für einzelne Hinweise in den MCA, die direkt auf die richtige Antwort hindeuten bzw. einer Testperson helfen können, falsche Antworten zu verwerfen. Tab. 1 zeigt die Subskalen des Tests, die nach einzelnen Hinweisen klassifiziert sind, sowie die entsprechende Strategie in der Taxonomie von Millman et al. (1965):

Tab. 1 Subskalen des TW-Tests von Gibb (1964) mit Einordnung in die Taxonomie von Millman et al. (1965)

Nach Millman et al. (1965) entsprechen diese Subskalen den Schlussfolgerungs- (ID) und Hinweisnutzungsstrategien (IIB). Es scheint allerdings, dass die Anwendung bzw. die Identifizierung der verschiedenen Strategien nicht gleich schwer sind. So zeigte Morse (1998) in einer Studie, in der 243 Studierende dreier Universitäten den TW-Test von Gibb beantworteten, dass „specific determiners“ am schwersten und „grammatical cues“ am leichtesten von den sieben Strategien anzuwenden ist. Auch die Strategien „longer correct option“ und „absurd option“ scheinen eher einfach zu identifizieren zu sein, während „stem-option cues“ und „precise option“ zu den schwierigeren der sieben Strategien zählen.

Weiterhin gibt Gibb für die Gesamtskala eine Reliabilität (Kuder-Richardson Formula; KR-20) von 0,72 bei 193 Collegestudierenden an. Die Reliabilitäten der einzelnen Subskalen reichen von 0,16 bis 0,76. Ob TW wirklich aus mehreren Dimensionen besteht, scheint jedoch nicht ausreichend geklärt, da verschiedene Studien zu unterschiedlichen Ergebnissen kommen. So weisen die Befunde von Miller et al. (1988) darauf hin, dass anstelle der einzelnen Subskalen besser ein Gesamtwert verwendet werden sollte. Miller et al. (1990) dagegen kommen anhand ihrer Ergebnisse zu dem Schluss, dass TW nicht sieben, sondern zwei Dimensionen umfasst. Schließlich zeigen Harmon et al. (1996), dass sowohl eine Ein-Faktorenlösung als auch eine Zwei-Faktorenlösung sinnvoll ist, wobei zwei TW-Strategien (stem-option und specific determiners) bei der Zwei-Faktorenlösung auf keinem der Faktoren laden. Einig sind sich die Autoren der drei Studien allerdings darin, dass, wenn von einer Ein- bzw. Zweidimensionalität ausgegangen wird, eine geringere Anzahl an MCA ausreichen würde. Eine solche Kürzung wurde von Edwards (2003) vorgenommen. Die ursprüngliche Anzahl an Items wurde von 70 auf 20 reduziert und somit die Beantwortungszeit von 25–30 min auf 10 min gesenkt. Die interne Konsistenz der gekürzten Testversion beträgt 0,57. Dies entspricht internen Konsistenzen, die auch in anderen Studien, die den Gesamttest von Gibb eingesetzt haben, erreicht wurden.

Es existieren einige weitere Tests, bei denen entweder jeweils ganz neue MCA entwickelt oder MCA unterschiedlicher Tests miteinander kombiniert wurden (Bajtelsmit 1975; Dodeen 2008; Hayati und Ghojogh 2008; Millman 1966; Slakter et al. 1970; Woodley 1973; Yang 2000). Werden die vorhandenen Tests in die Taxonomie von Millman et al. (1965) eingeordnet, so zeigt sich, dass die am häufigsten durch Tests erhobenen TW-Strategien Schlussfolgerungs- und Hinweisnutzungsstrategien sind.

4 Training von TW

Die Frage nach der Trainier- bzw. Erlernbarkeit von TW ist schon früh aufgeworfen worden. Eine Studie zu diesem Thema stammt von Houston (2005). In dieser Studie hatten die Probanden (86 angehende Feuerwehrfrauen und -männer) als Teil eines größeren Trainingsprogramms zuerst einige MCA zu TW zum Thema „Verhalten bei Feuer“ beantwortet. Anschließend erhielten sie eine Schulung über TW-Strategien sowie Informationen zur Entwicklung von MCA. Nach dieser Schulung beantworteten die Probanden erneut die MCA. Die Ergebnisse im Posttest waren in fast allen Kategorien von TW signifikant besser als im Pretest. Für die Unterschiede in den Testergebnissen ergab sich eine Effektgröße von d = −0,38. In einer Metaanalyse von Bangert-Drowns et al. (1983) wurden Ergebnisse von 30 Studien zur Effektivität von Trainingsprogrammen bei Leistungstest, die alle TW beinhalteten, analysiert. Es wurden in diesen Studien unterschiedliche Stichproben von Klasse 2 bis zur Universität berücksichtigt. Die Befunde ergaben eine durchschnittliche Effektstärke von d = 0,25 für Leistungstestergebnisse, die nach einem TW-Trainingsprogramm durchgeführt wurden. In einer weiteren Metaanalyse von Samson (1985), in die Befunde von 24 Studien zur Trainierbarkeit von „test-taking skills“ in der Grundschule und Mittelstufe eingegangen sind, wird eine durchschnittliche Effektgröße von d = 0,33 erzielt. Dass Personen mit TW-Training gegenüber Personen ohne TW-Training bessere Ergebnisse erzielen, konnte auch in weiteren Studien gezeigt werden (z. B. Callenbach 1973; Dolly und Vick 1986; Dolly und Williams 1986; Oakland 1972; Omvig 1971).

Vor dem Hintergrund, dass MC-Tests den Anspruch haben, „echtes“ Wissen abzubilden, ist die Frage nach der Trainierbarkeit von TW von hoher Relevanz. Wenn das Erlernen von TW generell die Leistungen bei MC-Test erhöht, erfordert dies zukünftig einen stärkeren Fokus auf die Kontrolle von TW.

5 Fragestellungen

Vor dem Hintergrund berichteter Befunde ergeben sich für die vorliegende Untersuchung folgende Fragestellungen:

  1. 1.

    Zeigt ein entwickelter deutschsprachiger TW-Test zufriedenstellende psychometrische Kennwerte, die denen englischsprachiger Tests entsprechen?

  2. 2.

    Hat das thematische Wissen einen Effekt auf das Testergebnis im entwickelten TW-Test?

  3. 3.

    Hat eine Schulung einen Einfluss auf das Testergebnis im entwickelten TW-Test?

6 Methode

6.1 Stichprobe und Design

Es wurden Daten von 252 Studierenden einer Universität und einer Fachhochschule erhoben. Die Stichprobe setzte sich aus 91 Geschichtsstudierenden und 161 Studierende anderer Fachbereiche wie Betriebswirtschaftslehre, Pädagogik, Biologie oder Sport zusammen. Die Geschichtsstudierenden befanden sich durchschnittlich im dritten Fachsemester, sodass davon ausgegangen werden konnte, dass sie über Geschichtswissen verfügen. Dies wurde berücksichtigt, um zu prüfen, inwieweit der Test von Personen mit Expertise im Fach Geschichte gelöst werden kann.

Die Testung erfolgte in regulären Lehrveranstaltungen durch einen geschulten Testleiter mittels eines standardisierten Durchführungsmanuals. Um sicher zu gehen, dass sich die Studierenden nicht in ihren kognitiven Fähigkeiten unterscheiden, bearbeiteten sie den Untertest N2 des Kognitiven Fähigkeitstests KFT 4–12 R+ (Heller und Perleth 2000). Er bestand aus 25 sprachfreien MCA, die in acht Minuten zu lösen sind. Sie erforderten die Zuordnung von Figurenpaaren, die in einer bestimmten Relation zueinander standen und ähnelten dem Prinzip der TW-MCA. Die in der Untersuchung erreichte Reliabilität (Kuder-Richardson 20) der KFT-Skala lag bei 0,78. Im Anschluss an den KFT folgte der deutschsprachige TW-Test, der zwar wahrheitsgemäße Geschichtsfragen umfasst, jedoch nur mit spezifischem Wissen richtig beantwortet werden konnte. Der Test wurde als Kurzform konzipiert und wird als zentrales Element dieser Arbeit in Abschn. 6.2 näher erläutert. Schließlich beantworteten die Studierenden Fragen zu ihrer Person (Geschlecht und Alter). Für die Beantwortung des TW-Tests und der persönlichen Angaben gab es keine Zeitvorgabe. Die Testbearbeitung dauerte ca. 30 min. Die Instruktion lautete, alle MCA zu beantworten und, wenn die Antwort nicht gewusst wird, diejenige zu wählen, die am ehesten als richtig erachtet wird.

Um der Trainierbarkeit von TW nachgehen zu können, erhielt ein Teil der Studierenden eine Schulung. Dabei wurde zufällig ausgewählt, in welcher Lehrveranstaltung die Studierenden eine Schulung erhalten (Schulung vs. keine Schulung). Die Schulung bestand aus zwei DIN A4 Seiten (Onlinematerial 1), die vor der Beantwortung der MCA ausgehändigt wurden und eine Beschreibung beinhalteten, was TW ist sowie zur Verdeutlichung der TW-Strategien jeweils ein Beispiel, das im TW-Test keine Verwendung fand. Die Schulung erfolgte standardisiert und dauerte ungefähr 10 min. Insgesamt wurde damit ein 2 (Wissen vs. kein Wissen) x 2 (Schulung vs. nicht Schulung) faktorielles Design mit vier Teilstichproben realisiert. Der Anteil weiblicher Personen betrug in der Stichprobe „keine Schulung & kein Wissen“ 73,40 %, in der Stichprobe „keine Schulung & Wissen“ 48 %, in der Stichprobe „Schulung & kein Wissen“ 62,12 % und in der Stichprobe „Schulung und Wissen“ 50 %. Tab. 2 gibt einen Überblick über die Stichprobenkennwerte.

Tab. 2 Deskriptive Kennwerte der vier Stichproben

Es ergaben sich für die Anzahl richtig gelöster Aufgaben im KFT (p > 0,008 als adjustiertes α) keine signifikanten Unterschiede zwischen den Stichproben. Hinsichtlich des Alters unterscheiden sich nur die Gruppen „keine Schulung & kein Wissen“ und „Schulung & kein Wissen“ signifikant voneinander (U = 2174, z = −3,26, p = 0,001).

6.2 Material

Der entwickelte TW-Test umfasst insgesamt 24 Single Choice-MCA (Onlinematerial 2) mit einer Frage und vier Antwortmöglichkeiten. Grundlage für die Auswahl der Items ist die Kurzversion des „Experimental Test of Testwiseness“ (Gibb 1964) von Edwards (2003). Für die vorliegende Studie waren nicht alle Items geeignet. Entfernt wurden MCA, die direkt das Wort Deutschland oder einen Bezug zu Deutschland enthielten, um ausschließen zu können, dass diese Aufgaben aufgrund thematischen Wissens beantwortet werden können. Die deutsche Übersetzung wurde durch eine Muttersprachlerin (native speaker) mit gleichzeitiger Erfahrung in der Übersetzung empirischer Texte der Bildungsforschung auf ihre Richtigkeit überprüft. Um den Wegfall zu kompensieren, wurden Items der Originaltestversion (Gibb 1964) hinzugefügt. Die Auswahl erfolgte aufgrund der publizierten Itemkennwerte. In Anlehnung an die Taxonomie von Millman et al. (1965) beinhaltet der deutschsprachige TW-Test die folgenden sechs Subskalen mit je vier Items:

  1. 1.

    stem-option cues (IIB),

  2. 2.

    absurd option (ID),

  3. 3.

    specific determiners (IIB),

  4. 4.

    precise option (IIB),

  5. 5.

    longer correct option (IIB) und

  6. 6.

    grammatical cues (IIB).

6.3 Statistische Auswertungen

Wie in der Darstellung der Forschungsfragen ersichtlich, geht es im ersten Teil der Untersuchung um psychometrische Analysen des deutschsprachigen TW-Tests. Hierzu wurden theoriegeleitet Faktorenanalysen (FA) unter Vorgabe einer Sechs- und einer Zwei-Faktoren-Lösung durchgeführt. Darüber hinaus wurden die Daten unter der Annahme der Eindimensionalität im Hinblick auf ihre Schwierigkeit und Trennschärfe (Kelava und Moosbrugger 2012) mit dem Programm ConQuest (Wu et al. 2007) ausgewertet. Zusätzlich wurden der T‑Wert und der Weighted Infit Mean Square (WMNSQ) als Prüfgrößen für die Passung der Items zu einer gemeinsamen Dimension herangezogen. Cronbachs Alpha wurde als Maß für die interne Konsistenz mit dem Softwarepaket SPSS (Statistical Package for the Social Sciences) berechnet. Zusätzlich wurde als Maß für die Reliabilität in ConQuest (Wu et al. 2007) die EAP/PV-Reliabilität berechnet (vgl. Rost 2004). Ergänzend wurde mit ConQuest die Dimensionalität des Tests geprüft. Zur Überprüfung der Güte wurden auf Basis der Likelihood jedes Modells und der Modellparameterzahl der BIC (Bayes Information Criterion) und CAIC (Consistent Akaike’s Information Criterion) herangezogen. Verglichen wurde, ob es sich um ein ein -, zwei- oder sechsdimensionales Modell handelt. Bei allen Analysen mit ConQuest (Wu et al. 2007) wurden in der vorliegenden Studie im Hintergrundmodell die Variablen Schulung (Schulung vs. Keine Schulung), thematisches Wissen (Wissen vs. Kein Wissen) und die Anzahl richtig beantworteter MCA im KFT berücksichtigt, um möglichst messfehlerkorrigierte Aussagen machen zu können.

Um die Fragestellungen hinsichtlich des Einflusses der TW-Schulung und des thematischen Wissens auf das Gesamtergebnis im TW-Test zu untersuchen, wurden zuerst deskriptive Kennwerte für die Anzahl richtig beantworteter MCA pro Teilstichprobe ermittelt. Zur inferenzstatistischen Überprüfung wurden aufgrund unterschiedlicher Gruppengrößen und -varianzen ein Kruskal-Wallis-Test und anschließend U‑Tests nach Mann und Whitney (mit Anpassung des α‑Levels nach Bonferroni) berechnet. Zuletzt erfolgte eine Regressionsanalyse zur Untersuchung des Effekts des thematischen Wissens und der Schulung auf das Ergebnis im TW-Test.

7 Ergebnisse

Zunächst werden die Ergebnisse des Tests zur Erfassung von TW (Fragestellung 1), anschließend die Ergebnisse der Fragestellungen 2 und 3 berichtet.

7.1 Test zur Messung von TW

Um initial die Dimensionalität der 24 TW-Items zu prüfen, wurden zwei FA – mit der Vorgabe von sechs Faktoren bzw. zwei Faktoren – berechnet. Die Ergebnisse (siehe Tab. 5 und 6 im Anhang) beider FA zeigten, dass die jeweiligen Items nicht substanziell auf den theoretisch angenommenen Faktoren laden. Da sich die theoretisch postulierte Struktur nicht zeigen ließ, wurden vertiefende Itemanalysen durchgeführt und die Homogenisierung der Skala zu einem eindimensionalen Konstrukt angestrebt. Die Schwierigkeiten und Trennschärfen der 24 Items sowie ihre Infit-Maße (WMNSQ und t-Werte) bezogen auf ihre Homogenität im eindimensionalen Raschmodell wurden ermittelt. Für domänenbezogene Leistungstests werden Trennschärfen von ≥0,25 als zufriedenstellend angesehen. Allgemein werden t-Werte über 2 und unter −2 (Smith 1995) als signifikant betrachtet, wobei Werte unter −2 tolerierbar sind, da hoch trennscharfe Items unter anderem zu einer besseren Reliabilität führen können als niedrig trennscharfe Items (Items t > 2) (Glug 2009; Rost 2004). Für den WMNSQ wurde ein Intervall zwischen 0,75 und 1,33 als akzeptabel betrachtet (Adams und Khoo 1996). Im vorliegenden Test schwankten die Itemschwierigkeiten (Logits aus Raschanalysen) zwischen 2,966 (Item 11) und −0,453 (Item 1). Die Trennschärfen der Items lagen zwischen 0,06 (Item 19) und 0,51 (Item 9). Die t-Werte für die Infit-Maße lagen zwischen −2,8 (Item 9) und 2,6 (Item 21). Aufgrund nicht ausreichender Werte für die Trennschärfe bei 10 Items sowie t-Werte >2 bei zwei Items wurde der TW-Test um die folgenden Items reduziert: 7, 11, 13, 17, 18, 19, 21, 22, 23 und 24. Ohne diese zehn Items variierten die Item-Logits zwischen −0,25 (Item 1) und 3,16 (Item 16). Es wurde eine mittlere Itemschwierigkeit von 1,07 erreicht. Diese wich von der mittleren Personenfähigkeit von 0,49 ab. Der Test schien für die vorliegende Stichprobe demnach etwas zu schwer zu sein. Die Trennschärfen schwankten zwischen 0,26 (Item 1) und 0,53 (Item 9). Die t-Werte der verbliebenen Items lagen zwischen −2,1 (Item 9) und 1,8 (Item 12) und die dazu korrespondieren WMNSQ-Werte zwischen 0,91 (Item 9) und 1,10 (Item 12). Damit erreichten die übrigen 14 Items die geforderten Kriterien. Tab. 3 zeigt die Itemkennwerte der 14 Items.

Tab. 3 Itemkennwerte der TW-Items (N = 252) unter Berücksichtigung des Hintergrundmodells

Basierend auf vorherigen Befunden sowie der Tatsache, dass durch die Reduzierung der Itemzahl zwei der sechs Subskalen nur noch aus jeweils einem Item bestanden, wurde eine Ein- gegenüber einer Zweidimensionalität unter Berücksichtigung eines Hintergrundmodells (s. oben) geprüft. Die Überprüfung einer Sechsdimensionalität entfiel, da das Modell saturiert gewesen wäre, sodass keine zuverlässigen Kennwerte zu erwarten waren.

Die Analysen ergaben aufgrund des Itemsselektionsprozesses erwartungsgemäß für ein eindimensionales (BIC = 4962,48, CAIC = 4944,48) gegenüber einem zweidimensionalen (BIC = 5545,32, CAIC = 5568,32) Modell die beste Passung. Die ermittelte interne Konsistenz von α = 0,55 erreichte eine vergleichbare Reliabilität wie die englischsprachigen TW-Tests (z. B. Edwards 2003). Wurde unter Berücksichtigung des Hintergrundmodells die EAP/PV-Reliabilität geschätzt, so zeigte sich mit 0,72 ein zufriedenstellendes Ergebnis.

7.2 Auswirkung thematischen Wissens und einer Schulung auf TW

Die Ergebnisse zeigten, dass im Mittel die Studierenden der Gruppe 1 „keine Schulung & kein Wissen“ M = 5,21 (SD = 1,9), die Studierenden der Gruppe 2 „keine Schulung & Wissen“ durchschnittlich M = 6,52 (SD = 1,83), die Studierenden der Gruppe 3 „Schulung & kein Wissen“ M = 8,70 der MCA richtig (SD = 2,74) und die Studierenden der Gruppe 4 „Schulung & Wissen“ im Mittel M = 9,19 (SD = 1,64) der MCA richtig beantworteten. Die Unterschiede zwischen den Gruppen waren signifikant (Kruskal-Wallis-Test, H = 82,72, df = 3, p < 0,001).

Wurden nun die Befunde der Gruppenvergleiche mittels Mann-Whitney U‑Test betrachtet (Tab. 4), so zeigte sich, dass sich die Gruppen jeweils mit einer Ausnahme, nämlich der Unterschied zwischen den Gruppen 3 und 4 (p = 0,67), signifikant voneinander unterschieden (p < 0,008 als adjustiertes α). Personen mit thematischem Wissen beantworteten somit mehr MCA im TW-Test richtig als Personen ohne thematisches Wissen und Personen mit Schulung beantworteten mehr MCA richtig als Personen ohne Schulung. Das thematische Wissen (βWissen = 0,23, p < 0,001) und die Schulung (βSchulung = 0,65, p < 0,001) waren signifikante Prädiktoren für das Ergebnis im TW-Test. Das thematische Wissen hatte dabei einen geringeren Effekt als die Schulung.

Tab. 4 Unterschiede zwischen den mittleren Rangsummen der vier Gruppen

8 Diskussion

In einem ersten Schritt ging es in der vorliegenden Studie darum, die Güte des TW-Tests zu ermitteln, um anschließend in einem zweiten Schritt zu untersuchen, ob eine Schulung und/oder thematisches Wissen in Bezug auf das Thema des TW-Tests einen Einfluss auf das Testergebnis haben.

Für die theoretisch begründeten mehrdimensionalen Modelle zeigten sich keine stützenden Befunde. Daher wurde eine Analyse der Itemkennwerte vorgenommen und eine eindimensionale Lösung angestrebt. Es wurden dann zehn Items ausgeschlossen. Die dann gefundene Eindimensionalität steht im Einklang mit englischsprachigen Studien (Harmon et al. 1996; Miller et al. 1988). Auch die interne Konsistenz der letztendlichen Skala entspricht bisherigen Werten englischsprachiger Tests. Einige Schwachstellen ließen sich jedoch im vorliegenden Test feststellen. Durch den Wegfall von 10 Items besteht der TW-Test aus insgesamt 14 Items. Zwei der sechs TW-Strategien wurden dadurch von nur einem Item abgedeckt. Obwohl die einzelnen Items deutlich jeweils einer der TW-Strategien zugeordnet werden können, fällt in einigen wenigen MCA bzw. in deren Antwortmöglichkeiten eine Vermischung zweier TW-Strategien auf (MCA 5 „specific determiners“ und „precise option“). Die geringe Itemzahl sowie die vereinzelte Vermischung von TW-Strategien können eine Eindimensionalität des TW-Tests begünstigt haben. Darüber hinaus schienen die Studierenden z. B. mit einigen der Items nicht so gut umgehen zu können bzw. waren nicht in der Lage, die geforderte TW-Strategie anzuwenden. So waren vor allem MCA, die die Strategie „specific determiners“ beinhalteten, schwierig zu lösen, was den Ergebnissen anderer Studien entspricht (Morse 1998). Möglicherweise sind die Formulierungen bzw. Hinweiswörter in den Antwortmöglichkeiten im Deutschen nicht so deutlich gewesen wie es im englischen Originaltest der Fall ist, sodass die Distraktoren attraktiver als die richtige Antwort erschienen. Eine falsche Antwort könnte so begünstigt worden sein. Verschiedene Autoren weisen in diesem Zusammenhang darauf hin, dass der erfolgreiche Einsatz einzelner TW-Strategien abhängig von der Erfahrung in der Anwendung dieser Strategien ist und sich diese über einen gewissen Zeitraum entwickelt (Hayati und Ghojogh 2008, Sarnacki 1979). Drei der insgesamt vier Items sind u. a. aufgrund unzureichender Trennschärfen weggefallen. Dagegen waren die Strategien „absurd options“ und „grammatical cues“ für die Studierenden eher zu leicht (vgl. Morse 1998). Weitere Analysen hierzu wären empfehlenswert.

Insgesamt kann festgestellt werden, dass ein Test entstanden ist, der der Güte vorhandener internationaler Tests entspricht und bei kleinen sowie großen Studien im Rahmen der Bildungsforschung, bei denen es darum geht, Leistungen, Kompetenzen und Fähigkeiten zu messen, eingesetzt werden kann, da der Aufwand der Durchführung und Auswertung nicht sehr groß ist. Kritisch muss angemerkt werden, dass nicht weitere Variablen wie die Testmotivation oder die Testangst miterhoben wurden, die einen Einfluss auf das Ergebnis gehabt haben könnten. Gerade die Motivation wurde in vorherigen Studien als bedeutend für die Stabilität und die interne Konsistenz sowie für das Testergebnis hervorgehoben (Edwards 2003; Miller et al. 1988). Ein niedriges Testergebnis hat für die Studierenden keine Konsequenzen zur Folge. Ein hohes Testergebnis zu erzielen war also für sie nicht von großer Bedeutung. Somit ist es möglich, dass sie sich weniger angestrengt haben, als es bei einer Konsequenz für ein niedriges Testergebnis der Fall gewesen wäre. In zukünftigen Arbeiten sollten daher die Befunde durch weitere Indikatoren gestützt werden.

Ebenfalls kritisch zu erwähnen ist, dass die Studie von Edwards (2003), auf dessen Kurzversion des Tests von Gibb (1964) der TW-Test der vorliegenden Studie basiert, nicht publiziert wurde. Es handelt sich hierbei um eine unveröffentlichte Dissertation, sodass eine Verwendung und Validierung durch Andere erschwert wird.

Bezogen auf den zweiten Teil der Studie zeigen die Befunde, dass Personen mit thematischem Wissen mehr der TW-MCA richtig beantworten als Personen ohne thematisches Wissen. Dies spricht dafür, dass TW nicht unabhängig von dem thematischen Wissen einer Person ist oder dass sich die Items sowohl mit Hilfe des Wissens als auch durch TW lösen lassen. Dies müsste ggf. nachgeprüft werden.

Alles in Allem war die Stichprobe für die Studie nicht sehr groß. Insbesondere die Gruppe „Schulung & Wissen“ (N = 16) müsste strenggenommen mehr Studierende umfassen. Wünschenswert wäre es deswegen, die gesamten Ergebnisse anhand einer größeren Stichprobe weiter abzusichern.

Darüber hinaus wird deutlich, dass geschulte Personen, die über kein thematisches Wissen verfügen, gegenüber Personen, die zwar thematisches Wissen besitzen, aber keine Schulung erhalten haben, signifikant bessere Ergebnisse erzielen. Der Effekt der Schulung ist stärker als der des thematischen Wissens. Dies deutet wiederum darauf hin, dass sich die Items von Personen mit thematischem Wissen nicht besonders gut lösen lassen, was durch den Test intendiert wurde und für den Test spricht. Die Testdurchführung erfolgte nach standardisierten Richtlinien und alle Personen in der Gruppe „Schulung“ wurde identisches Material ausgehändigt. Für die Durchführung einer Schulung sollte in Zukunft stärker die unterschiedliche Schwierigkeit in der Anwendung der TW-Strategien berücksichtigt werden (vgl. Morse 1998).

Durch die vorliegende Studie sind einige Fragen hinsichtlich eines deutschsprachigen Tests zur Erfassung von TW geklärt worden. Es ergeben sich jedoch weitere Forschungsansätze. Zunächst erscheint es wichtig, TW und dessen Dimensionalität noch vertiefender zu analysieren. Es weisen theoretische Erkenntnisse und unterschiedliche Studien darauf hin, dass TW sehr komplex ist und sich aus verschiedenen Strategien zusammensetzt. Die Befunde zur Dimensionalität in dieser Studie jedoch weisen auf eine Eindimensionalität hin. Offen bleibt jedoch, welche Fähigkeiten die Anwendung der einzelnen Strategien erfordern bzw. ob es eine Fähigkeit gibt, die allen Strategien zu Grunde liegt. Hinsichtlich der Fähigkeitsdimensionen bzw. des Konstrukts selbst besteht somit weiterer Forschungs- und Optimierungsbedarf (vgl. Yang 2000). Vertieftes Wissen über das Konstrukt könnte zudem zu noch besseren Ergebnissen hinsichtlich der psychometrischen Güte des Tests führen.

Darüber hinaus erscheint es aufschlussreich, in einer weiterführenden Studie, den Expertisegrad im Hinblick auf das Thema der TW-Items zu variieren, um noch stärker den Einfluss des thematischen Wissens auf TW untersuchen zu können. Wünschenswert wäre es auch, wenn zwei Studien mit einem Prä-Post-Design getrennt für das thematische Wissen und Schulung umgesetzt werden könnte. Dies könnte helfen, die Befunde dieser Arbeit weiter abzusichern.

Weiterhin stellt sich die Frage, welche weiteren Faktoren für TW eine Rolle spielen und wie vertiefender untersucht werden kann, ob eine Person geraten, wirklich thematisches Wissen oder eine TW-Strategie angewendet hat. Besonders der Aspekt des Ratens bei der Beantwortung eines TW-Tests wäre von großer Bedeutung, da sich die Ratewahrscheinlichkeit, die bei MCA mit vier Antwortmöglichkeiten 25 % beträgt, durch die Anwendung von TW-Strategien noch erhöht werden kann. Dies wäre beispielsweise der Fall, wenn eine Person in der Lage ist, einige der Antwortmöglichkeiten auszuschließen und sich dann nur noch zwischen zwei Antworten entscheiden muss. Bezüglich TW sind also noch einige Fragen offen, die in Zukunft geklärt werden müssen, da TW ein nicht zu unterschätzendes Konstrukt in der Testentwicklung und -durchführung darstellt. Der technische Fortschritt zeigt hier ein großes Potenzial im Hinblick auf Methoden, die uns helfen, dem Einfluss von TW ein Stück näher zu kommen. Beispielsweise Eyetrackingstudien, bei denen die Blickbewegungen einer Person bei der Testbearbeitung aufgezeichnet werden, haben – gerade auch in Verbindung mit weiteren Methoden wie das retrospektive Laute Denken – das Potenzial, Antworten auf offene Fragen zu liefern.