1 Können alle Kompetenzen valide mit papier- und bleistift-Verfahren gemessen werden?

Die standardisierte pädagogisch-psychologische Diagnostik bedient sich seit ihren Anfängen zu Beginn des 20. Jahrhunderts vornehmlich papier- und bleistift-basierter Messverfahren. Mit diesem Testmedium konnte für eine Vielzahl an Konstrukten adäquate und nützliche Messinstrumente konstruiert werden. Auch in der Kompetenzdiagnostik ist der papier- und bleistift-basierte Zugang momentan vorherrschend. Die Messung von bestimmten Kompetenzen stellt aber in dreierlei Hinsicht neue Herausforderungen an die pädagogisch-psychologische Diagnostik, denen nur schwer mit dem herkömmlichen Zugang mit Papier- und Bleistift-Tests begegnet werden kann.

Erstens rücken zunehmend Kompetenzen in den Blick, die im teilweise zeitkritischen Ausführen komplexer Interaktionen bestehen und/oder die an realistische Anwendungssituationen gebunden sind. Gerade solche Kompetenzen sind im Hinblick auf beruflichen und sozialen Erfolg besonders relevant. Der Fokus liegt bei diesen Kompetenzen weniger auf der Wiedergabe oder der Verwendung isolierter curricularer Inhalte, sondern in deren integrierter Anwendung bei der Lösung realer Aufgabenstellungen und Probleme in beruflichen und sozialen Kontexten. Die Quantifizierung von Interaktionsmustern, die hochinferente Protokollierung von Bearbeitungszeiten und die Darstellung realistischer Kontexte ist mit dem statischen Testmedium Papier- und Bleistift in der Regel nur sehr begrenzt oder mit sehr großem Aufwand möglich. Computer bieten hier vielfältigere Möglichkeiten, da in computerbasierten, interaktiven Testumgebungen Daten verhaltensnah und zeitkritisch erhoben werden. Dies ermöglicht die Messung von Konstrukten wie dynamisches Problemlösen (vgl. z. B. Funke 2003; Wirth und Klieme 2003; Leutner et al. 2004), wobei auch Bearbeitungszeiten auf einfache Weise aufgezeichnet und mit aktuellen Methoden der Item-Response-Theorie zur Anreicherung der Testergebnisse verwendet werden (vgl. z. B. Goldhammer und Klein Entink 2011; van der Linden 2007). Durch die Darbietung von graphischen (hochauflösende Abbildungen, Animationen, Videosequenzen usw.) und auditiven Stimuli kann zudem ein hoher Grad an Realitätsnähe erreicht werden. So kann beispielsweise authentisches Tonmaterial als Stimulus bei einem Hörverstehenstest eingesetzt werden.

Zweitens handelt es sich bei Kompetenzen häufig um sehr komplexe Konstrukte. Sie sind in der Regel kontextspezifisch und handlungsbezogen definiert und basieren zumeist auf differenzierten theoretischen Konzeptionen. Während beispielsweise klassische, in der Psychologie betrachtete kognitive Leistungskonstrukte wie Merkfähigkeit teilweise mit einem einzelnen Satz definiert werden können, sind die theoretischen Beschreibungen von Kompetenzen zumeist deutlich umfassender. Die reliable und valide vollständige Abbildung solch komplexer Konstrukte erfordert in der Regel eine umfangreiche empirische Datenbasis, um die relevanten Inhalte in der theoretisch spezifizierten Breite angemessen zu repräsentieren. Diese umfangreiche Datenbasis kann entweder durch die Vorgabe von sehr vielen Items an einzelne Testpersonen oder durch die Untersuchung von sehr großen Stichproben sichergestellt werden. Aufgrund der auch im zweiten Fall nötigen großen Anzahl an Items macht in der Regel die Nutzung unvollständiger Testheftdesigns (vgl. Frey et al. 2009; Gonzalez und Rutkowski 2010; Yousfi und Böhme 2012) notwendig, mit denen zwar unverzerrte Populationskennwerte berechnet, aber keine Aussagen auf Individualebene getroffen werden können. Zur Messung komplex definierter Kompetenzen wie beispielsweise mathematischer Kompetenz oder Lesekompetenz sind die Anforderungen an Testlänge (Items pro Person) oder Stichprobengröße so hoch, dass sich eine Ableitung von hinreichend präzisen individuellen Kompetenzwerten mit Papier- und Bleistift-Verfahren aus praktischen Gründen ausschließt. Diese Problematik lässt sich durch computerisiertes adaptives Testen (CAT; vgl. z. B. Frey 2012) erheblich verringern. Bei CAT werden in der Regel nur halb so viele Items benötigt, um genauso präzise Messwerte zu erhalten wie bei herkömmlichen sequenziellen Tests. Adaptives Testen ist außerdem für die Kompetenzdiagnostik ausgesprochen nützlich, da das ursprünglich eindimensionale CAT-Konzept in den letzten Jahren auch für mehrdimensionale Messansätze (Überblick in Frey und Seitz 2009; hypothetische Anwendung bei PISA in Frey und Seitz 2011) und kognitive Diagnosemodelle (vgl. z. B. Rupp et al. 2010) erweitert wurde (vgl. Cheng 2009, 2010).

Drittens werden zunehmend Kompetenzen relevant, deren Ausübung an die Benutzung von Informationstechnologie gebunden ist. Beispiele hierfür sind die Kompetenz im Umgang mit Informations- und Kommunikationstechnologien selbst (ICT Literacy), das Lesen elektronischer Texte, die Verwendung des Computers als Werkzeug zur Lösung mathematischer oder naturwissenschaftlicher Probleme, die computerbasierte Durchführung umfangreicher oder iterativer Berechnungen oder die Erstellung von technischen Zeichnungen und Animationen. Die genannten Kompetenzen sind entweder gänzlich an den Computer gebunden oder werden in praktischen Betätigungsfeldern fast ausschließlich mit dem Computer ausgeübt. Für die Zukunft ist damit zu rechnen, dass weitere schulisch vermittelte Kompetenzen im Berufsleben vor allem unter Benutzung von Computern zunehmend relevant werden. Es bietet sich folglich an, dass eine Messung solcher Kompetenzen ebenfalls am Computer stattfindet. Dies lässt eine höhere prognostische Validität erwarten als bei einer papier- und bleistift-basierten Messung, weil die Handlung, auf die aufgrund der Testwerte geschlossen werden soll, am Computer realistischer getestet werden kann.

Vorerst werden papier- und bleistift-basierte Verfahren voraussichtlich ein zentraler Zugang der Kompetenzdiagnostik bleiben. Bei den drei oben skizzierten Arten komplexer Kompetenzen, die nur schwer oder unter großem Aufwand mit Papier- und Bleistift-Verfahren zu messen sind, werden computerbasierte Verfahren jedoch künftig erheblich an Bedeutung gewinnen. Für die Testpraxis stellt sich allerdings nicht die Frage nach dem besten Testmedium per se, sondern danach, mit welchem Testmedium die jeweilige theoretische Konzeption eines Kompetenzkonstrukts am besten operationalisiert werden kann. Zentral ist dabei die Frage der Validität und somit danach, in welchem Ausmaß die ermittelten Testwerte im Sinne des theoretischen Kompetenzverständnisses interpretiert werden können. Bei vielen Kompetenzkonstrukten ergibt sich die Wahl des am besten geeigneten Testmediums direkt aus der jeweiligen theoretischen Konzeption. Erscheinen sowohl papier- und bleistift-basierte als auch computerbasierte Testverfahren als prinzipiell geeignet, valide interpretierbare Testwerte zu generieren, sollte kalkuliert werden, welche der beiden Administrationsformen vorteilhafter ist. Dies ist notwendig, da bestimmte Rahmenbedingungen erfüllt sein müssen, damit computerbasiertes Testen auf ökonomische Weise eingesetzt werden kann. Diese Rahmenbedingungen werden im folgenden Abschnitt skizziert.

2 Unter welchen Voraussetzungen sind computerbasierte Administrationsformen auf ökonomische Weise zu realisieren?

Ein häufig genanntes Argument gegen computerbasiertes Testen sind die damit verbundenen hohen Kosten. In der Tat können erhebliche Kosten bei computerbasierten Kompetenztestungen anfallen. Nicht selten sind aber auch Rahmenbedingungen gegeben, unter denen eine computerbasierte Testung ökonomisch zu realisieren ist, teilweise sogar deutlich ökonomischer als Papier- und Bleistift-Tests. Deshalb sollten die gegebenen Rahmenbedingungen vor der Entscheidung für ein Testmedium sorgfältig analysiert und die jeweils anfallenden Kosten kalkuliert werden. Eine ökonomische Durchführung von computerbasierten Verfahren ist vor allem bei

  • vorhandener Testsoftware,

  • Low-Stakes-Testungen und Internetzugang am Testort,

  • großen Stichproben,

  • häufig wiederholten Routinetestungen sowie

  • am Testort verfügbaren Computern

zu erwarten (vgl. auch Parshall et al. 2002).

Soll eine Entscheidung zwischen papier- und bleistift-basierter Testung und computerbasierter Testung getroffen werden, ist es wichtig, auch für Erstere alle Kosten zu beachten. Beispielsweise werden beim Vergleich von papier- und bleistift- mit computerbasierten Verfahren häufig vor allem die Mehrkosten betrachtet, die direkt durch den Computereinsatz entstehen. Die bei einigen Studien erheblichen Kosten für die Verwaltung des Itempools, den Satz und Druck von Testheften, die Verbringung von gedruckten Testmaterialien an den Testort, die Eingabe oder das Einscannen von Antworten sowie die Lagerung von Testbögen im Rahmen der gesetzlichen Archivierungsfrist werden dabei teilweise übersehen. Werden solche Aspekte in die allfälligen Kalkulationen miteinbezogen, fallen die Kosten bei Papier- und Bleistift-Verfahren nicht selten höher aus, als bei computerbasierten Verfahren.