Inleiding

Het stationsexamen is ontwikkeld voor het toetsen van klinische vaardigheden.1 Tijdens het examen wordt geprobeerd studenten zo objectief mogelijk te testen in een situatie die overeenkomt met de praktijk. Studenten voeren in een station onder gestandaardiseerde condities een opdracht uit en worden daarbij geobserveerd. Hierbij wordt een praktijksituatie nagebootst. Met behulp van gestructureerde beoordelingscriteria en gestandaardiseerde casuïstiek wordt de student zo objectief mogelijk beoordeeld. De betrouwbaarheid van deze toetsvorm is gevoeliger dan een schriftelijke test; daarom zijn meerdere stations nodig.2-4 De inhoudspecificiteit van de casus speelt hierbij een belangrijke rol. Dit vergroot de kans dat een student hetzelfde cijfer haalt bij een andere casus.2-3

In de preklinische fase (het eerste en tweede jaar) van het medisch curriculum van het Universitair Medisch Centrum Utrecht (UMCU) maakt radiologie deel uit van het praktisch lijnonderwijs. Bij het interpreteren van radiologische onderzoeken worden radiologische bevindingen gecorreleerd met de klinische context. Dit maakt radiologie tot een klinisch vak dat past binnen het op de praktijk gerichte praktisch lijnonderwijs. In twaalf practica van twee uur wordt de studenten aan de hand van casuïstiek geleerd hoe ze de meest voorkomende radiologische onderzoeken systematisch moeten beoordelen. Met behulp van de radiologische onderzoeken leert de student de toegepaste anatomie en krijgt hij/zij inzicht in de toegepaste onderzoekmethode en techniek. Het praktisch lijnonderwijs wordt aan het einde van het studiejaar getoetst in een stationsexamen: de vaardigheidstoets.

Daar er veel variabelen meespelen in het stationsexamen (de inzet van zowel verschillende casus als beoordelaars), ontstond de vraag wat de waarde is van deze toetsvorm. Uit literatuuronderzoek blijkt dat er over het toetsen van radiologische klinische vaardigheden in een stationsexamen nog niet veel bekend is.5-6 Met behulp van de analyse van de toetsresultaten van het station Radiologie in de vaardigheidstoets is geprobeerd hier inzicht in te krijgen.

Methode

Studentenpopulatie

In 2004 is de vaardigheidstoets van tweedejaars studenten geneeskunde geanalyseerd.

Materiaal

De vaardigheidstoets van het praktisch lijnonderwijs in het UMCU is opgezet als een medisch consult met vier stations: anamnese, lichamelijk onderzoek, aanvullend onderzoek en verslaglegging. Radiologie wordt mondeling getoetst in het station ‘aanvullend onderzoek’. Een deel van het studentencohort krijgt het station Radiologie; de overige studenten worden getoetst op een klinische vaardigheid van een ander vakgebied (bijvoorbeeld het hechten van een wond bij Chirurgie). De studenten weten vooraf niet op welk vakgebied ze in het station ‘aanvullend onderzoek’ worden getoetst.

Het station Radiologie bestaat uit drie onderdelen: interpretatie, anatomie en onderzoekmethode en techniek. Naar aanleiding van een casusbeschrijving vraagt de student onderzoeken aan en beoordeelt deze onderzoeken vervolgens (interpretatie). Aan de hand van de gekozen onderzoeken wordt de anatomische kennis getoetst en worden er vragen gesteld over de gebruikte onderzoekmethode en techniek. De beoordeling van de student vindt plaats met behulp van een beoordelingslijst (figuur 1). De lijst bestaat uit vier hoofditems: interpretatie, anatomie, onderzoekmethode en techniek en algemene indruk. De eerste drie hoofditems zijn onderverdeeld in respectievelijk vier, twee en twee subitems.

figure 1

De vier subitems van het hoofditem interpretatie zijn: aanvragen eenvoudig radiologisch onderzoek aan de hand van casusbeschrijving, beoordeling eenvoudig radiologisch onderzoek, aanvragen complex radiologisch onderzoek aan de hand van de radiologische bevindingen, beoordelen complex radiologisch onderzoek. De twee subitems bij het hoofditem anatomie zijn: aanwijzen en benoemen van anatomische structuren. De twee subitems van het hoofditem onderzoekmethode en techniek zijn twee vragen over één van de twee tijdens het station gebruikte radiologische onderzoekmethoden.

De hoofditems worden gescoord aan de hand van de subitems. De subitems van het hoofditem interpretatie hebben een verschillende weging. Het goed kunnen beoordelen van het onderzoek weegt zwaarder dan de keuze van het onderzoek aan de hand van de klinische context. Als laatste wordt een score gegeven voor de algemene indruk die de student op de beoordelaar maakt.

De studenten worden beoordeeld op een 5-puntsschaal aan de hand van een globale scoringslijst (1: zeer onvoldoende; 2: onvoldoende; 3: matig; 4: voldoende; 5: goed). Tijdens de toets zijn vijf beoordelaars ingezet. Alle beoordelaars zijn arts-assistenten radiologie die betrokken zijn geweest bij het geven van de practica radiologie in het praktisch lijnonderwijs. De arts-assistenten hebben dus inzicht in het onderwijs dat voorafging aan het stationsexamen en daardoor affiniteit met het afnemen van de toets. Zij hebben tijdens dit practicum een groep van 12 studenten les gegeven. Met een studentencohort van 256 studenten is de kans klein dat zij tijdens het afnemen van de toets hun ‘eigen’ studenten treffen.

Er zijn in het station Radiologie zes gestandaardiseerde casus gebruikt. Alle zes casus zijn afkomstig uit de practica radiologie van het praktisch lijnonderwijs. De onderwerpen van de casus zijn A) aneurysma van de abdominale aorta, B) bronchuscarcinoom, C) emfyseem, D) pancreaskopcarcinoom, E) ruptuur van de mediale meniscus van de knie en F) oesofaguscarcinoom. De onderwerpen lopen qua inhoud uiteen maar de opzet van de casus is elke keer hetzelfde. Het gebruik van verschillende casus voorkomt dat studenten informatie aan elkaar kunnen doorgeven. De casus wisselen na het toetsen van zes studenten. Dit geldt ook voor de inhoud van het station ‘Anamnese’ en ‘Lichamelijk onderzoek’. De beoordelaars hebben geen vaste casus.

Procedure en analyse

Om een indruk te krijgen van de betrouwbaarheid van het stationsexamen Radiologie zijn vier vragen geformuleerd:

  • Hoe is de interne consistentie van de items binnen het station Radiologie?

  • Hoe is de score op het station Radiologie in vergelijking met de gehele toets?

  • Wat zijn de scoreverschillen tussen de casus?

  • Wat zijn de scoreverschillen tussen de beoordelaars ?

De toetsresultaten zijn met behulp van het computerprogramma SPSS geanalyseerd. Voor het beoordelen van de interne consistentie binnen het station is de Cronbach alpha bepaald.7 De gemiddelde score op het station Radiologie is vergeleken met de gemiddelde score op de toets zonder radiologie, die bepaald werd uit de toetsresultaten van de 93 studenten die hadden deelgenomen aan het station Radiologie. De verschillen in score tussen de casus zijn bepaald door de gemiddelde score van de studenten op de verschillende casus met elkaar te vergelijken. De scoreverschillen tussen de beoordelaars zijn bepaald door de door de beoordelaars gegeven gemiddelde scores te vergelijken. Op deze manier is geprobeerd een globale indruk te krijgen van de invloed van het inzetten van verschillende casus en beoordelaars tijdens de toets. De aantallen zijn klein en de verdeling van casus over de beoordelaars is willekeurig en niet gelijkmatig (tabel 1). Daar het aantal keren dat een beoordelaar of casus is ingezet niet gelijk is (tabel 2 en 3), is het onmogelijk om een statistische analyse toe te passen. Ook kan de generaliseerbaarheidstoets niet toegepast worden omdat elke student één casus krijgt en gezien wordt door één beoordelaar.8

Tabel 1 De verdeling van de casus over de beoordelaars*.

Resultaten

Van de 265 studenten die in 2004 hebben deelgenomen aan de vaardigheidstoets hebben 93 studenten bij het onderdeel ‘aanvullend onderzoek’ het station Radiologie gehad. De op de vier hoofd - items gebaseerde Cronbach alpha is 0,92. De gemiddelde score op het station Radiologie is 3,8 (sd 0,87). De gemiddelde score op de toets zonder radiologie is 3,9 (sd 0,32). De range van de gemiddelde score tussen de zes casus is 0,5 (laagste score 3,6; hoogste score 4,1 – zie tabel 2). De range van de gemiddelde score tussen de vijf beoordelaars is 1,0 (laagste score 3,3; hoogste score 4,3 – zie tabel 3).

Tabel 2 De gemiddelde score van de zes casus
Tabel 3 De gemiddelde score van de vijf beoordelaars.

De door de beoordelaars gegeven gemiddelde scores zijn vergeleken met de gemiddelde score van de studenten op de toets zonder radiologie. De Levene’s statistics tussen deze twee groepen is niet significant. De hypothese dat de varianties tussen de groepen verschillen mag niet worden verworpen. De ANOVA geeft een significante F-waarde (0,009). De hypothese dat de toetsscores gelijk zijn tussen de beoordelaars moet worden verworpen.

Discussie

Het doel van de analyse van de toetsresultaten van het station Radiologie is het krijgen van inzicht in de betrouwbaarheid van het station. Wat is de invloed van de inzet van verschillende casus en van verschillende beoordelaars tijdens de toets?

Onze analyse van het station Radiologie richt zich vooral op twee basale eisen van een goed station: de interne consistentie van de schaal (alpha) en de vergelijkbaarheid van de scores met die van andere toetsstations. De interne consistentie van het station is een maat voor de betrouwbaarheid van het station. De Cronbach alpha is goed indien > 0,7 is. Een Cronbach alpha van 0,92 komt overeen met een hoge interne consistentie tussen de vier hoofditems. De gemiddelde score op het station Radiologie (3,8) is vergelijkbaar met de gemiddelde score op de toets zonder radiologie (3,9). De standaarddeviatie van scores op het station Radiologie (0,87) is groter dan die van de scores op de toets zonder radiologie (0,32). Voor een groot deel kan dit verklaard worden door het grotere aantal items waaruit de score op de toets zonder radiologie opgebouwd is. Het verschil in gemiddelde score tussen de casus is 0,5. Het verschil in gemiddelde score tussen de beoordelaars is 1,0 en opvallend groter in vergelijking met die tussen de casus.

Als naar de verdeling van de casus over de beoordelaars wordt gekeken (tabel 1) is er geen directe relatie tussen de door de beoordelaar gegeven gemiddelde score en de gemiddelde score op de beoordeelde casus. Als de gemiddelde score door de beoordelaars wordt vergeleken met de gemiddelde score van hun studenten op de toets zonder radiologie laat een ANOVA een significant verschil zien. Het is dus mogelijk dat de éne beoordelaar betere studenten heeft gehad dan de andere beoordelaar (tabel 3) en daarmee is het onmogelijk om een harde uitspraak te doen over de gevonden verschillen in range tussen casus en beoordelaars.

In de toetsen die na 2004 zijn afgenomen is geprobeerd de eenduidigheid tussen de beoordelaars te vergroten. Voorafgaande aan de toets worden de casus en manier van scoren uitgebreid met de beoordelaars besproken. Met behulp van een globale scorerichtlijn is geprobeerd het scoren eenduidiger te maken. Uit de literatuur blijkt dat een globale scorerichtlijn een betere beoordeling geeft van het niveau van een student dan een uitgebreide checklist.2-3 9-11. Er is gekozen voor een grove scoremaat in procenten die gebruikt kan worden voor alle sub- en hoofditems. Score 1 < 10%: goed; score 2 < 55%: goed; score 3 tussen de 55-70%: goed; score 4 70%: goed of alles goed met hulp; score 5 100%: direct goed. De ervaringen met deze scorerichtlijn zijn positief. Het geeft de beoordelaars ondersteuning in het geven van een onderbouwde en consistente beoordeling.

Onze ervaringen met het geven van practica en het toetsen van radiologie in het kader van het praktisch lijnonderwijs zijn zeer positief. Het beoordelen van een radiologisch onderzoek is een klinische vaardigheid. Om dit goed te kunnen doen is inzicht nodig in de klinische situatie van de patiënt, kennis van de anatomie en kennis van de gebruikte onderzoekmethode en techniek. Het is tevens belangrijk om te weten wat in een bepaalde klinische context het onderzoek van eerste keuze is.

Het stationsexamen biedt de mogelijkheid om de studenten interactief te toetsen. In vergelijking met een schriftelijke toets wordt meer inzicht verkregen in de wijze waarop een student tot een bepaald antwoord komt. Het is mogelijk om tijdens de toets de student een hint te geven in welke richting het goede antwoord gezocht moet worden. Over het geven van hints zijn voorafgaande aan de toets met de beoordelaars duidelijke afspraken gemaakt. Het geven van een hint gaat direct ten koste van de score van de student.

Door het contact met de studenten geeft de toets een directe feedback op het gegeven onderwijs.

Een nadeel is dat de toetsvorm tijdsintensief is en het daardoor niet mogelijk is alle studenten te toetsen. De studenten die het station Radiologie krijgen worden slechts aan de hand van één casus en door één beoordelaar getoetst. De inhoudsspecificiteit van de casus en de observatie door één beoordelaar beperken de betrouwbaarheid van de toets.2-3 Het valt te overwegen om aanvullend aan het stationsexamen alle studenten in een schriftelijke toets op radiologische kennis te toetsen. In combinatie met het stationsexamen kan dit de betrouwbaarheid verhogen.4

Conclusie

De interne consistentie van de vier hoofditems binnen het station Radiologie is goed. De gemiddelde uitslag op het station Radiologie is vergelijkbaar met de gemiddelde uitslag van de toets zonder radiologie. De spreiding tussen de beoordelaars is groter in vergelijking met de casus. Naar aanleiding van deze bevindingen is met behulp van een intensievere voorbereiding van de beoordelaars en een globale scoringslijst geprobeerd de spreiding te verlagen. De meerwaarde van het stationsexamen voor het toetsen van radiologische klinische vaardigheden zit in het interactief toetsen van de studenten tijdens de toets. Op deze manier kan het interpreteren van radiologische onderzoeken, het correleren van de radiologische bevindingen met de klinische context, optimaal getest worden.

Belangenconflict: geen gemeld.

Financiële ondersteuning: geen gemeld.