Inleiding

De huisartsopleiding in Nederland duurt drie jaar. Het eerste en derde jaar van de opleiding van elke huisarts-in-opleiding (aios) bestaat uit een stage van twee jaar bij twee verschillende huisartsopleiders (bij elke opleider een jaar). Deze huisartsopleiders hebben dus twee functies: huisarts en opleider.

Conform de huidige onderwijskundige inzichten, die zelfgestuurd onderwijs stimuleren, is scholing op maat voor de huisartsopleiders in opkomst. Hiermee wordt beter tegemoet gekomen aan de individuele scholingsbehoefte van opleiders.

Om te weten welke lacunes – scholingsbehoefte – een huisartsopleider nog ervaart in zijn opleiderschap, is een vorm van toetsing behulpzaam. Zo is in de afgelopen jaren een, helaas nog beperkt, aantal toetsinstrumenten voor de huisartsopleider ontwikkeld. Diverse methoden van toetsing zijn daarbij denkbaar, zoals een visitatie, een vorm van zelftoetsing, het oordeel van de aios, een kennistoets of een didactische vaardighedentoets.1 De didactische vaardighedentoets is een educatief bedoelde toetscarrousel met multipele stations, waarin gestandaardiseerde simulatiehuisartsen- in-opleiding meespelen, zoals simulatiepatiënten bij een medisch inhoudelijke vaardighedentoets. In deze toets worden de deelnemers door daartoe getrainde collega’s geobserveerd met behulp van gestructureerde scorelijsten. De term ‘objective structured teaching examination’ (OSTE) werd voor deze vorm van toetsing van artsopleiders gekozen, vergelijkbaar met de OSCE bij de klinische vaardigheden, waarbij de ‘c’ staat voor ‘clinical’.

Bij het Interuniversitair Centrum voor Huisartsopleiding (ICHO) in Vlaanderen is een dergelijke toets voor huisartsopleiders ontwikkeld: de multiple-station teaching assessment test (MSTAT).2- 3 Bij de afdeling Huisartsopleiding in Groningen werd hierop voortgebouwd, hetgeen leidde tot de PACT: de ‘physicians’ assessment of competence in teaching’. In figuur 1 is de inhoud van deze toets per station weergeven, met de toetscriteria als items.

Figuur 1
figure 1

Items per station.

Bij deze toets ontbrak een norm. Bij het samenstellen van de toets was hierin nog niet voorzien. Dit werd als een gemis ervaren door de deelnemers (huisartsopleiders). Zij hadden behoefte aan een ijkpunt, waaruit zou blijken of ze een bepaalde didactische vaardigheid op een voldoende niveau beheersen. Dit leidde tot de volgende vraagstellingen:

  1. 1.

    Welke normstelling is voor de PACT geëigend voor het educatieve doel van de toets.

  2. 2.

    Wat is de consequentie voor de zak/slaag-verdeling van de toets bij het kiezen van een bepaalde norm?

Overzicht over toepassingen van de OSTE

Een literatuursearch resulteerde in vijf relevante verwijzingen op het gebied van het toetsen van artsopleiders met behulp van een OSTE (voor zoekstrategie: zie kader). Prislin et al. beschrijven in 1998 een onderzoek naar de toepasbaarheid van het gebruik van een OSTE om de onderwijsvaardigheden van huisartsdocenten te beoordelen.4 Bij de scoring van de stations door staflid-observatoren bereikten drie van de acht stations een acceptabele intraclass correlatie. De waardering van de realiteit van de stations door staflidobservatoren was hoog. In de ogen van de deelnemers heeft een OSTE een bescheiden bruikbaarheid. De observatoren daarentegen vonden dat deze vorm van toetsing bruikbaar is voor de ontwikkeling van opleidersonderwijs voor arts-docenten.

In Medline zijn de volgende MeSeH termen gebruikt:

  1. 1.

    Family-practice-education

  2. 2.

    Preceptor or ship

  3. 3.

    Teaching methods

  4. 4.

    Educational measurement

Andere databases, o.a. EMBASE en ERIC, hebben geen andere publicaties opgeleverd.

Bij het ICHO in Vlaanderen ontwikkelde Schol in 2000 een nieuwe vaardigheidstoets in stationsvorm om de didactische vaardigheden van huisartsopleiders vast te stellen.2 De multiple-station teaching assessment test (MSTAT) blijkt een betrouwbaar, valide en acceptabel instrument. Vijf van de zeven stations hebben een goede interbeoordelaarsbetrouwbaarheid en de test is met name geschikt voor de screening van huisartsopleiders met betrekking tot hun onderwijsvaardigheden.3

Morrison et al. publiceerden in 2002 een artikel over de ontwikkeling van een OSTE voor residents as teachers (arts-assistenten in opleiding, die zelf docent zijn voor basisartsen in opleiding).5 De interbeoordelaarsbetrouwbaarheid en de interne consistentie zijn hoog bij deze OSTE. Ook de inhoudsvaliditeit is hoog.

Uit onderzoek van Boendermaker (2003) blijkt dat ook de PACT een bruikbare toets is en geschikt als educatief toetsinstrument voor een aantal huisartsopleiderskenmerken. 6 De interne consistentie bleek acceptabel bij alle stations, de interbeoordelaarsbetrouwbaarheid was acceptabel in twee van de vier stations. De inhoudsvaliditeit is goed en de criteriumvaliditeit hoog.

In 2004 rapporteren Zabar et al. over de ontwikkeling, uitvoering en evaluatie van stations, waarin arts-assistenten worden getoetst op hun onderwijsvaardigheden.7 Deze stations maken deel uit van een jaarlijkse OSCE voor arts-assistenten. De scoring op deze stations blijkt betrouwbaar en valide.

In geen van bovenstaande publicaties wordt over een mogelijke normstelling gesproken.

De eerste vraag die beantwoord moest worden was óf het zinvol is een norm te stellen voor een educatieve toets. Naar ons idee kan een educatief bedoelde toets als de PACT, die qua opzet en inhoud steeds gelijk is en die bedoeld is om vast te stellen wat al goed gaat en wat nog te verbeteren is, juist winnen aan educatieve waarde mét een norm, zodat vastgesteld wordt welke didactische vaardigheid al ‘goed genoeg’ gaat, oftewel voldoende wordt beheerst, en welke nog niet. Op dat laatste zal dan de scholing op maat zich moeten richten. Bovendien is het dan ook mogelijk om bij herdeelname te zien of de norm wél wordt gehaald.

Methode

Om tot een normstelling te komen, werd besloten een consensusprocedure te hanteren. 8 Aan alle deelnemers, simulatieaio’s en observatoren die hebben meegewerkt tijdens een recente toetsafname, werden de scorelijsten van vier stations toegestuurd met de vraag om per item aan te geven of het in ieder geval voldoende of goed gescoord moet worden in dit station om de didactische vaardigheid op het hele station als voldoende te beschouwen, m.a.w. of het om een kernitem gaat. Tevens hebben we een aantal stafleden die betrokken zijn bij het opleidersonderwijs gevraagd om dit te doen. In deze consensusprocedure werden de resultaten van de eerste ronde per groep (deelnemers, observatoren, et cetera) aan de respondenten bekend gemaakt en werd gevraagd om met die informatie nog een keer aan te geven wat de kernitems zijn.

In veel consensusprocedures wordt een afkappunt van 75% consensus gehanteerd.8 We hebben dit, in wezen arbitraire, uitgangspunt overgenomen. Daarbij werd vooraf beoogd dat, gezien het educatieve karakter van de toets, een uitkomst wenselijk zou zijn die per station groeimogelijkheden voor de deelnemers zichtbaar maakte, maar niet (te) demotiverend zou moeten zijn (b.v. dat iedereen met deze maatlat uiteindelijk op alle stations onvoldoende zou scoren).

Om te toetsen of met 75% overeenstemming een aanvaardbare verzameling kernitems ontstond, werd besloten met de resultaten van deze consensusprocedure de toetsscores van de meest recente opleiderstoets te benaderen. ‘Aanvaardbaar’ betekent in dit verband een zodanige slaag/zakverdeling dat meer mensen slagen dan zakken.

Tabel 3 Percentage dat het item als kernitem beoordeelt in station 2.
Tabel 4 Percentage dat het item als kernitem beoordeelt in station 3.
Tabel 5 Percentage dat het item als kernitem beoordeelt in station 4.

Resultaten

De respons na de tweede ronde varieert per groep van 59-88% (zie tabel 1). De voornaamste redenen voor de non-respons waren ziekte en vakantie.

Tabel 1 Aantal aangeschrevenen en respons in de eerste en tweede ronde.

De tabellen 2 tot en met 5 geven het percentage respondenten weer per groep dat het betreffende item na de tweede ronde als kernitem beoordeelt. In de laatste kolom is het gemiddelde van de vier groepen weergeven.

Tabel 2 Percentage dat het item als kernitem beoordeelt in station 1.

Wanneer bij het bepalen van het afkappunt gerekend wordt met 75% overeenstemming (gemiddeld over de vier groepen), blijkt dat van de in totaal 25 items er 14 als kernitem worden geïdentificeerd. Worden nu de scores van de deelnemers op de toets van najaar 2004 met deze norm benaderd, dan blijkt dat op de verschillende stations 56-78% van de deelnemers alle kernitems heeft gehaald en dus de vaardigheid volgens deze norm op voldoende niveau beheerst (zie tabel 6). Slechts 4 van de 18 deelnemers hebben op alle stations alle kernitems gehaald.

Tabel 6 Aantal deelnemers met aantal kernitems voldoende/goed.

Conclusie en beschouwing

Het blijkt met deze procedure mogelijk een norm te stellen, die in elk station leidt tot een aanvaardbare verdeling van voldoendeonvoldoende.

Als de – op zich arbitraire – 75% grens als consensus-afkappunt wordt genomen, zijn in station 1 drie van de vier items kernitems. Voor station 2 geldt dat voor drie van de zeven items, voor station 3 voor vijf van de acht items, en voor station 4 voor drie van de zes items. Met de uitkomst dat 56-78% van de deelnemers in een recente toets de stations haalt, lijkt deze norm acceptabel en te passen bij het educatieve doel.

Elke opleider die nu aan deze toets meedoet, kan zich aan de norm spiegelen en beseft dat het onvoldoende scoren op één van de kernitems leidt tot een onvoldoende score op het gehele station. Dat is in educatieve zin een belangrijk gegeven: het gewenste opleidersgedrag is zo nog steviger neergezet. Daar kan de deelnemer zich in de voorbereiding op de toets en in zijn scholingstraject na de toets specifiek op richten.

Het stellen van deze norm is een experiment. Geen van de andere auteurs heeft dit tot nu toe gedaan, zo blijkt uit het literatuuroverzicht. Wij zullen de komende tijd ervaring opdoen met het toepassen van de kernitems in de PACT en ze bij de voorbereiding op de toets aan de deelnemers en observatoren bekend maken.

In de nabije toekomst zullen meer stations worden ontwikkeld, waarbij mogelijk van meet af aan al aan een kernitem-consensusprocedure kan worden gewerkt.