Inleiding

Het formuleren van een goede meerkeuzevraag vergt kennis en ervaring. Elke goede meerkeuzevraag bestaat uit een stam (de introducerende vraag of een incomplete stelling), gevolgd door twee of meer keuzemogelijkheden. Deze keuzemogelijkheden bestaan naast het correcte antwoord uit enkele zogenaamde ‘afleiders’. Het aantal afleiders hangt af van het type meerkeuzevraag.

Een driekeuzevraag heeft twee afleiders en een vierkeuzevraag drie. De afleiders moeten zo geformuleerd zijn dat het correcte antwoord op grond van inhoudelijke kennis herkend wordt en niet omdat de alternatieven heel onwaarschijnlijk zijn.1 Vierkeuzevragen worden veel gebruikt en vaak aangeraden.2 Vierkeuzevragen zouden onder meer betrouwbaarder zijn dan twee- of driekeuzevragen, omdat met meer alternatieven de raadkans afneemt.3–4 Echter, in een review van literatuur over aanbevolen regels voor toetsconstructie concluderen Haladyna et al.5 dat de kwaliteit van de afleiders belangrijker is dan het aantal en dat twee plausibele afleiders in de meeste gevallen voldoende is. In eigen onderzoek hadden zij geconstateerd dat bij slechts 1–8% van de vierkeuzevragen daadwerkelijk sprake was van drie effectieve afleiders en dat gemiddeld de overige vragen slechts één functionele afleider bevatten.6 Ook Rodriguez7 en Vyas en Supe8 concluderen na een review van de bestaande relevante literatuur over toetsvragen, dat vragen met drie keuzemogelijkheden de voorkeur verdienen.

Afleiders moeten plausibel zijn, dat wil zeggen voldoende vaak gekozen worden. Implausibele afleiders hebben een flatterend effect op het eindcijfer. Immers, wanneer één van de afleiders in een vierkeuzevraag door studenten direct als zeer onwaarschijnlijk wordt beschouwd, zal deze al snel weggestreept worden en dus niet als volwaardige afleider fungeren. Er is dan in feite sprake van een driekeuzevraag met een hogere raadkans, namelijk 0.33 ten opzichte van 0.25 bij een vierkeuzevraag. Deze raadkans wordt in een toets normaliter gecompenseerd door aan elk goed antwoord bij een drie- en vierkeuzevraag respectievelijk 0.66 en 0.75 punt toe te kennen. Aan een vierkeuzevraag met een implausibele afleider – welbeschouwd dus een driekeuzevraag – wordt dan ten onrechte 0.75 punt toegekend. Omdat het in de praktijk moeilijk blijkt om drie of meer effectieve afleiders te formuleren wordt in de literatuur geadviseerd vragen met drie keuzemogelijkheden te hanteren. Implausibele afleiders beïnvloeden de kwaliteit van een meerkeuzevraag nadelig.5–8

De hypothese dat meerkeuzevragen met meer dan twee afleiders relatief veel implausibele alternatieven bevatten, is in ons onderzoek nogmaals empirisch onderzocht, echter met een strenger criterium. In de literatuur wordt een implausibele afleider gedefinieerd als een afleider die door 5% of minder van de kandidaten gekozen wordt.6–7 9 Het bezwaar van dit criterium is dat een vierkeuzevraag met een p-waarde van 0.85 of hoger – een ‘gemakkelijke vraag’ dus – volgens dit criterium altijd minimaal één implausibel alternatief zal opleveren. Immers, de drie afleiders samen worden dan door 15% van de kandidaten gekozen. De verdeling zou dan bijvoorbeeld als volgt kunnen zijn: juiste alternatief gekozen door 85%, afleider a) door 7%, afleider b) door 4% en afleider c) door 4%. Wij hebben er daarom voor gekozen een tweede criterium voor implausibiliteit toe te voegen: een afleider moet aanvullend ten minste met een factor vier minder vaak gekozen worden dan de meest gekozen afleider. Bij een vierkeuzevraag met eenzelfde pwaarde van 0.85 zou dan één afleider implausibel zijn bij de volgende verdeling: juiste alternatief gekozen door 85%, afleider a) door 8%, afleider b) door 6% en afleider c) door 1%. In dat geval beschouwen wij afleider c) wel als implausibel, maar afleiders a) en b) niet. Het gebruik van uitsluitend ons criterium als alternatief voor de 5% regel zou overwogen kunnen worden, maar voldoet weer niet bij vragen met een zeer lage p-waarde. Een ‘moeilijke’ vraag, met een p-waarde van bijvoorbeeld 0.15, zou drie afleiders kunnen hebben die door respectievelijk 14%, 14% en 57% van de kandidaten gekozen wordt. Het lijkt ons in dit geval niet juist dan twee van de drie afleiders als implausibel te bestempelen, ook al is 14% minder dan een kwart van 57%. Wij hebben daarom gekozen voor de combinatie van beide criteria: een afleider is implausibel indien hij én door 5% of minder van de kandidaten gekozen wordt én ten minste met een factor vier minder vaak wordt gekozen dan de meest gekozen afleider.

Er zijn ook andere redenen om een afleider af te keuren. Een positieve point-biserial correlatie van de afleider met de somscore van de toets, ook wel positieve z-waarde genoemd, geeft aan dat deze afleider overwegend gekozen wordt door de betere kandidaten. Daar het ons gaat om plausibiliteit van afleiders voor de gehele groep kandidaten is dit meer kwalitatieve criterium buiten beschouwing gelaten.

In deze retrospectieve studie is onderzocht of meerkeuzevragen met drie keuzemogelijkheden inderdaad minder implausibele afleiders bevatten en daarom de voorkeur verdienen boven vragen met vier of vijf keuzemogelijkheden.

Methode

Van alle schriftelijke toetsen voor eerste-, tweede- en derdejaarsstudenten geneeskunde van het UMC Utrecht in het studiejaar 2006/2007, werden 21 toetsen geïdentificeerd die zich leenden voor dit onderzoek. Alle toetsen waren afgelegd door het gehele jaarcohort, bestaande uit circa 300 studenten. Herkansingstoetsen werden uitgesloten. In alle toetsen betrof het de meerkeuzevragen met de ‘gedwongen raden’ vorm: de instructie daarbij is geen vragen onbeantwoord te laten. Eerst werd gekeken naar het voorkomen van vragen met twee, drie, vier en vijf keuzemogelijk heden. Ervan uitgaande dat bij tweekeuze- en juist/onjuist-vragen geen onderscheid gemaakt kan worden tussen een vraag met één implausibel alternatief en eenvoudigweg een ‘gemakkelijke vraag’, werden deze buiten beschouwing gelaten. Dit gold ook voor de vragen waarin tweekeuzestellingen gecombineerd worden tot een vierkeuzevraag van het type ‘A juist + B onjuist; A onjuist + B juist; beide juist; beide onjuist’. Bij dergelijke vragen is namelijk geen sprake van een extra, mogelijk implausibel, alternatief maar van een combinatie van twee alternatieven, in feite dus een gecombineerde tweekeuzevraag. Vervolgens werden de itemparameters van de 21 toetsen onderzocht. De vragen waarvan één of meer afleiders door 5% of minder van het aantal deelnemers werden gekozen en bovendien met een factor > 4 minder vaak werden gekozen dan de meest gekozen afleider, werden gemarkeerd.

Resultaten

Per toets waren er gemiddeld 49.6 meerkeuzevragen en 297 kandidaten. In totaal werden 935 meerkeuzevragen geanalyseerd, waarvan 6.8% met drie, 88.7% met vier en 4.5% met vijf keuzemogelijkheden. Tien toetsen (47.6%) bevatten uitsluitend vierkeuzevragen. De overige 11 toetsen (52.4%) waren opgebouwd uit verschillende soorten meerkeuzevragen. De gemiddelde gecorrigeerde moeilijkheidsgraad (p-waarde) van alle vragen was p=0.61. De p-waarde geeft de moeilijkheidsgraad weer, gecorrigeerd voor de raadkans. Van de drie-, vier- en vijfkeuzevragen bleek respectievelijk 18.8%, 55.9% en 66.7% minimaal één implausibele afleider te bevatten. Dit verschil is sterk significant (Chi2=3.58, df=2, p<0.001). De gemiddelde p-waarde was p=0.64. Respectievelijk 16.7%, 23.8% en 21.4% van deze vragen bevatte een implausibele afleider die zelfs door geen enkele deelnemer gekozen werd. Hiervan was de gemiddelde p-waarde p=0.78. (zie Tabel 1).

Discussie en Conclusie

Vragen met vier keuzemogelijkheden lijken in de praktijk sterk de voorkeur te hebben. In deze steekproef werd een onevenredige verdeling gevonden van het aantal drie-, vier- en vijfkeuzevragen; respectievelijk 6.3%, 81.8% en 4.1%. Tevens bleek dat vier- en vijfkeuzevragen significant meer implausibele afleiders bevatten dan driekeuzevragen. Een afleider werd in deze studie als implausibel gedefinieerd indien deze door 5% of minder van de kandidaten gekozen werd en met een factor > 4 minder dan de meest gekozen afleider. De keus voor een factor 4 is arbitrair en tot stand gekomen op basis van de interpretatie van het bestudeerde materiaal. Een factor 4.5 of 3.5 zou ook mogelijk zijn geweest en zou wellicht iets andere resultaten hebben gegeven, maar geen wezenlijke andere conclusie.

Tabel 1. Het voorkomen van vragen met implausibele afleiders in 21 toetsen.

Bij het formuleren van een kwalitatief goede meerkeuzevraag zijn plausibele afleiders van groot belang. Dat blijkt in de praktijk met name bij vier- en vijfkeuzevragen vaak niet goed te lukken. Docenten veronderstellen vaak dat vierkeuzevragen betrouwbaarder zijn dan driekeuzevragen. Dat lijkt terecht gezien de geringere raadkans. Echter, Rogers en Harley10 concluderen in een empirische studie dat in het algemeen bij driekeuzevragen juist minder vaak geraden wordt dan bij vierkeuzevragen. Rodriguez7 beschrijft dat wanneer men vijfkeuzevragen vervangt door driekeuzevragen de moeilijkheidsgraad slechts met p=0.07 daalt en het discriminerend vermogen en de betrouwbaarheid van de vraag onveranderd blijven. Wanneer men driekeuzevragen met vierkeuzevragen vergelijkt, neemt de moeilijkheidsgraad met gemiddeld p=0.04 af en nemen het discriminatoir vermogen en de betrouwbaarheid van de vraag zelfs toe met respectievelijk p=0.03 en p=0.02. In deze studie zien we dat op het totale aantal onderzochte vragen de gemiddelde gecorrigeerde moeilijkheidsgraad (pwaarde) van de vragen met een afleider die door geen enkele deelnemer gekozen werd, hoger ligt, namelijk p=0.78 ten opzichte van p=0.61. De vragen zijn dus relatief gemakkelijker. Rodriguez7 beschrijft ook dat het minder tijd kost om driekeuzevragen te ontwerpen en in eenzelfde tijdsbestek meer vragen beantwoord kunnen worden. Hierdoor komen meer verschillende onderwerpen aan bod. Tevens zouden meerdere keuzemogelijkheden, ook wanneer deze alle plausibel zijn, het risico met zich meedragen belangrijke informatie in de afleiders bloot te geven over onderwerpen die verder in de toets nog aan bod moeten komen. Soortgelijke bevindingen worden ook door Haladyna en Downing4 beschreven. De moeilijkheidsgraad, het discriminerende vermogen en de validiteit van een vier- of vijfkeuzevraag worden volgens hen niet substantieel beïnvloed wanneer men minder afleiders gebruikt. Ook stellen ze dat het maken van driekeuzevragen juist effectiever is, daar er meer vragen ontworpen kunnen worden, zodat de betrouwbaarheid van de toets uiteindelijk positief beïnvloed wordt. In 2008 concluderen ook Vyas en Supe8 in een literatuurreview omtrent de optimale hoeveelheid alternatieven dat driekeuzevragen de voorkeur verdienen. Ze beschrijven dat het makkelijker en sneller is om twee plausibele afleiders te formuleren dan meer en dat fouten daarmee dus voorkomen worden. In combinatie met het feit dat driekeuzevragen sneller gelezen worden, kunnen er zo meer vragen in een toets verwerkt worden. Hierdoor kan in eenzelfde tijdsbestek een grotere variëteit aan leerstof getoetst worden, wat tot een verhoogde inhoudsvaliditeit leidt. Ook zij stellen dat meerkeuze vragen zelden meer dan drie nuttige opties bevatten.

Budesco en Nevo11 zijn de enigen die de voorkeur voor driekeuzevragen betwisten. In hun studie in 1985 verwerpen ze de zogenaamde wet van de proportionaliteit van Grier12 uit 1975, die stelt dat de totale toetstijd evenredig is met de hoeveelheid alternatieven per vraag. Ze concluderen dat er juist sprake is van een negatieve relatie en dat driekeuzevragen dus over het algemeen insufficiënt zouden zijn. Ze geven echter geen advies voor de optimale hoeveelheid alternatieven. Daarentegen bevestigen Bruno en Dirkzwager13 in 1995, gebaseerd op de wet van de proportionaliteit, dat driekeuzevragen optimaal zijn.

Andere studies die alleen vier- en vijfkeuzevragen met elkaar vergeleken hebben, kwamen tot de conclusie dat vierkeuzevragen de voorkeur verdienen.14–15

De resultaten van onze studie bevestigen de eerdere bevindingen van Rodriguez7, Haladyna en Downing5–6, ook indien men een strikter criterium van implausibiliteit hanteert. Het blijkt dat toetsen met vier- en vijfkeuzevragen, gebaseerd op beide criteria, inderdaad een groter percentage vragen met één of meerdere implausibele afleiders bevatten dan toetsen met driekeuzevragen.

Implausibele afleiders zouden bewust vermeden moeten worden. Men kan beter niet koste wat kost een extra alternatief bedenken met de gedachte dat dit de betrouwbaarheid en kwaliteit van de vraag verhoogt. Dit is tijdrovend en brengt vaak juist een tegenovergesteld effect teweeg. In algemene zin gaat de kwaliteit van de afleiders boven de kwantiteit. Ten slotte zou de auteur ter lering de vragen na het afnemen van de toets op onvoldoende functionerende afleiders kunnen controleren.

Het resultaat van dit onderzoek, in samenhang met de kennis uit de literatuur, ondersteunt het advies aan vragen met drie keuzemogelijkheden de voorkeur te geven boven vragen met vier of vijf keuzemogelijkheden.