1 1. Doelstelling van de Richtlijn en het gebruik door verschillende doelgroepen

Doel van deze Richtlijn is het ondersteunen van aios en opleider (-team) bij het bespreken van de voortgang c.q. bij het nemen van beslissingen over de voortgang in de opleiding, en bij het gebruik van toetsresultaten in dit proces. De Richtlijn beoogt dit te doen door middel van:

  • Een beschrijving van de doelstellingen van toetsing in de medisch-specialistische vervolgopleiding en het gebruik van toetsresultaten in begeleidingsgesprekken (voortgangs- en beoordelingsgesprekken).

  • Een beschrijving van kwaliteitseisen bij toetsing en bij gebruik van toetsresultaten (met nadruk op werkplekbeoordelingen).

  • Een omschrijving van stappen in zorgvuldige besluitvorming.

  • Een samenvatting van een aantal randvoorwaarden bij gebruik van toetsresultaten ten behoeve van besluitvorming.

Vooraios en opleider (-teams) worden in de Richtlijn de belangrijkste aandachtspunten bij het gebruik van toetsresultaten (werkplekbeoordelingen) in voortgangsen beoordelingsgesprekken beschreven. De Richtlijn geeft een overzicht van de criteria aan de hand waarvan een inschatting gemaakt kan worden van de kwaliteit en bruikbaarheid van toetsresultaten,en waaraan de zorgvuldigheid in besluitvorming getoetst kan worden.

Vooropleiders en opleiderteams worden daarnaast een aantal richtlijnen beschreven voor de inrichting van de toetsing op de werkplek en de procedures ten behoeve van besluitvorming.

Vooropleidingsmanagers en kwaliteitszorgmedewerkers, tenslotte, worden in de Richtlijn de belangrijkste randvoorwaarden voor een goed toetssysteem beschreven. De Richtlijn is daarmee te gebruiken als basis voor een interne visitatie naar de kwaliteit van het toetssysteem op een afdeling c.q. binnen een instelling.

Deze Richtlijn is gebaseerd op literatuuronderzoek en best practices, zowel binnen de context van het medisch opleidingscontinuüm als binnen andere contexten waar leren en beoordelen op de werkplek een belangrijke plaats innemen.

2 2. Definities en begripsbepalingen

CanMEDS: een 7-tal algemene competenties die de bekwaamheid van de Nederlandse medisch specialist beschrijven. Zij vormen de generieke eindtermen voor alle medisch-specialistische vervolgopleidingen in Nederland en zijn afgeleid van de door ‘the Royal College of Physicians and Surgeons of Canada’ geformuleerde ‘CanMEDSroles’.((http://knmg.artsennet.nl/)).

Competentie: de bekwaamheid om op basis van kennis, vaardigheden, oordeelsvermogen, houdingen (opvattingen, visies) en persoonskenmerken, keuzes te maken uit een handelingsrepertoire die tot resultaat hebben dat de taken die zich in een specifieke beroepscontext voordoen, adequaat worden aangepakt, conform rol en verantwoordelijkheid.

Competentieprofiel: profielbeschrijving van de individuele aios die inzicht geeft in de mate van bekwaamheid voor de verschillendeCanMEDS competenties.

Halo: bepaalde kenmerken van de beoordeelde of bepaalde aspecten in het functioneren worden overbelicht en hebben een onterechte (positieve of negatieve) invloed op de beoordeling van andere kenmerken of aspecten in het functioneren.

KBS: Kritische BeroepsSituatie / Kenmerkende BeroepsSituatie.

KPB: Korte PraktijkBeoordeling; vorm van werkplekbeoordeling. Kortdurende evaluatie van het functioneren van de aios op basis van directe observatie, bij het uitvoeren van een authentieke taak.

Leniency: neiging tot geven van milde oordelen; score-inflatie.

Opleidingsplan: een door de betreffende wetenschappelijke vereniging opgesteld en door het Centraal College Medische Specialismen (CCMS) vastgesteld plan dat de structuur en inhoud van de opleiding tot medisch specialist beschrijft en dat de basis vormt voor het individuele opleidingsplan.

OSATS: Objective Structured Assessment of Technical Skills; vorm van werkplekbeoordeling. Oorspronkelijk ontwikkeld ten behoeve van evaluatie van met name technische vaardigheden bij operatieve ingrepen.

POP: Persoonlijk OntwikkelPlan, ook wel Individueel OpleidingPlan (IOP). In het Persoonlijk Ontwikkelplan beschrijft de aios wat hij/zij wil bereiken gedurende een bepaalde periode (persoonlijk leerplan), aan de hand vanSMART geformuleerde doelen.Een POP wordt opgesteld op basis van sterkte-zwakteanalyse, individuele leerwensen van de aios en van de mogelijkheden die in betreffende periode geboden worden.Een POP wordt gedurende de opleiding regelmatig geëvalueerd en bijgesteld.

Portfolio: persoonlijk dossier, verzamelin - strument al dan niet digitaal, dat informatie bevat op basis waarvan het leerproces van de aios inzichtelijk wordt gemaakt.

Het portfolio in de medisch-specialistische vervolgopleiding vervult verschillende functies, met nadruk op ontwikkeling en reflectie. Daarnaast vormt de informatie in het portfolio ‘bewijsmateriaal’ bij het nemen van beslissingen ten aanzien van bekwaamheid.

SMART: acroniem ter aanduiding van de eisen die aan goed geformuleerde leerdoelen gesteld kunnen worden. Leerdoelen dienen liefst Specifiek, Meetbaar, Acceptabel, Realiseerbaar/Realistisch en Tijdgebonden te zijn.

Sterkte-zwakteanalyse: analyse van het eigen functioneren waarbij in kaart wordt gebracht waar de sterke punten liggen in het functioneren en waar verbetering noodzakelijk/wenselijk is.

Themaprofiel: profielbeschrijving van de individuele aios die inzicht geeft in de mate van bekwaamheid voor de verschillende in het opleidingsplan gedefinieerde thema’s.

Toetsing: systematische en structurele evaluatie van en feedback op het functioneren van de aios, met formatieve en/of summatieve doeleinden.

Werkplekbeoordeling: beoordeling van het functioneren van de aios op de werkplek.

3 3. Doelstellingen van toetsing – algemene inleiding

3.1 A. Rol van toetsen in de opleiding

Toetsen kunnen binnen opleidingen een aantal functies vervullen1-4:

  1. 1.

    Bevorderen van het leren en ondersteunen van effectieve en efficiënte ontwikkeling van (beroeps)competenties. Toetsing motiveert, bekrachtigt en stuurt de professionele ontwikkeling van de aios, door:

    1. a.

      het expliciet maken van de eisen die op bepaalde momenten in de opleiding aan de aios gesteld worden,

    2. b.

      feedback op functioneren, gerelateerd aan de doelstellingen van de opleiding: zichtbaar maken van sterke en minder sterke kanten in het functioneren.

  2. 2.

    Onderbouwen/verantwoording van selectie-/promotiebeslissingen:

    Toetsresultaten geven inzicht in het bereikte niveau van competentieontwikkeling en de kwaliteit van functioneren van de aios en vormen daarmee een belangrijke basis voor het toekennen van bekwaamheidsverklaringen, certificering en registratie.

  3. 3.

    Bewaken van opleidingskwaliteit:

    1. a.

      toetsresultaten geven informatie over de effectiviteit van de opleiding,

    2. b.

      bescherming van publiek tegen onbekwame professionals.

Er wordt onderscheid gemaakt tussen formatief en summatief gebruik van toetsresultaten.

Formatieve toetsing heeft met name ten doel de aios feedback te verschaffen over de voortgang in het eigen leerproces, op basis daarvan reflectie te stimuleren en leeractiviteiten te sturen. De formatieve functie van toetsen staat centraal in de regelmatig terugkerende, formele beoordelingen van het functioneren op de werkplek in de vorm vanKPB,OSATS of360 graden feedback. Ook in voortgangsgesprekken ligt de nadruk op formatief gebruik van toetsresultaten.

Vansummatief gebruik van toetsresultaten wordt gesproken als toetsresultaten de basis vormen voor het nemen van beslis - singen over voortgang c.q. certificering.

Summatief gebruik van toetsresultaten staat centraal in beoordelingsgesprekken. Beslissingen over bekwaamheid respectievelijk registratie/certificering worden altijd genomen op basis van informatie over het functioneren van de aios die gedurendelangere tijd, min of meersystematisch, wordt verzameld, bijvoorbeeld in een portfolio. Een enkele werkplekbeoordeling (mo - ment op name) vormt nooit de enige en unieke basis voor het nemen van summatieve beslissingen!

Zowel ten behoeve van voortgangsgesprekken als ten behoeve van beoordelingen moeten toetsresultaten eenaccuraat engeloofwaardig beeld geven van hetleerproces, competentieontwikkeling en van de bekwaamheden van de aios. Dit kan alleen als de informatie op basis waarvan beslissingen worden genomen aan specifieke voorwaarden voldoet (zie hoofdstuk 4).

3.2 B. Toetsen in de medisch-specialistische vervolgopleiding: competentie- en themagericht toetsprogramma

Toetsresultaten geven inzicht in het functioneren van de aios. Zowel bij het formuleren van individuele ontwikkelingsplannen, als bij het nemen van gemotiveerde beslissingen over professionele bekwaamheid is het noodzakelijk om een gedetailleerd beeld te hebben van de ontwikkeling van de aios, gerelateerd aan de specifieke eindtermen van de opleiding. Een holistisch, algemeen beeld van het functioneren van de aios is daarbij meestal niet voldoende.

In het kader van de vernieuwing van de medisch-specialistische vervolgopleidingen zijn de eindtermen van de opleiding langs verschillende invalshoeken gedefinieerd. Enerzijds worden ten behoeve van de competentieontwikkeling van de aios een 7-tal algemene competentiedomeinen onderscheiden die vastgelegd zijn in deCanMEDS rollen:

  1. 1.

    Medisch handelen

  2. 2.

    Communicatie

  3. 3.

    Samenwerking

  4. 4.

    Organisatie

  5. 5.

    Professionaliteit

  6. 6.

    Maatschappelijk handelen

  7. 7.

    Kennis en wetenschap

Anderzijds zijn vanuit vakinhoudelijk perspectief specifieke (specialisme-gebonden) einddoelen beschreven in een aantal verschillende thema’s en/of kenmerkende c.q. kritische beroepssituaties (taken, clusters van taken of verrichtingen).

De professionele ontwikkeling van de aios vindt enerzijds plaats binnen elk van de zevenCanMEDS competenties, anderzijds binnen de verschillende thema’s van het vakgebied. Bij het bespreken c.q. beoordelen van de voortgang van de aios moet zo goed mogelijk in beeld gebracht worden hoe het staat met:

  • de ontwikkeling van de aios in de verschillendeCanMEDS competenties(competentieprofiel),

  • de ervaringen en bekwaamheden van de aios binnen de verschillende thema’s (themaprofiel).

Analoog hieraan richt toetsing van de aios zich dus enerzijds op de competentieontwikkeling (over de verschillende thema’s heen), anderzijds op de themagebonden bekwaamheden (over de verschillende competentiedomeinen heen).

Uitspraken over competenties worden altijd afgeleid uit beoordelingen van het functioneren op verschillende taken in de beroepsuitoefening. Een aios is immers alleen in staat om de relevante beroepstaken adequaat uit te oefenen indien hij beschikt over een aantal competenties.1-5 Op deze manier ontstaat voor elk thema een matrix van relevante taken en competenties, zoals uitgewerkt in onderstaande voorbeelden (Thema A respectievelijk B).

Uit de gehanteerde definitie van professionele competentie en de opleidingsspecifieke thema-competentiematrices volgt dat in de medisch-specialistische vervolgopleiding eencompleet toetsprogramma minimaal omvat:

  1. A.

    Beoordelingen van performance op relevante taken uit de beroepspraktijk:

    1. a.

      beoordeling van de kwaliteit van handelen (proces) en

    1. b.

      beoordeling van de uitkomst van het handelen (= outcomes).

  2. B.

    Beoordeling van de verantwoording van gemaakte keuzes en van reflectie op handelen.

  3. C.

    Beoordeling van ervaring met specifieke taken uit het vak (registratie van ervaringen/verrichtingen).

A-C betreffen voornamelijk registratie en beoordeling van functioneren in de praktijk (werkplekbeoordelingen). Het leren van de aios in de medisch-specialistische vervolgopleiding vindt voor 90-95% plaats op de werkplek. Evaluaties c.q. beoordelingen van het functioneren op de werkplek vormen dan ook de kern van het toetsprogramma in de medisch-specialistische vervolgopleiding. Bij het doen van uitspraken over professionele competentie is vaak behoefte aan aanvullend ‘bewijsmateriaal’, omdat het onmogelijk is om alle facetten van het vak in de praktijk voldoende breed te toetsen.6-7 Aanvullend bewijsmateriaal kan verkregen worden op basis van:

  1. D.

    Beoordeling van gevolgde scholing/onderwijs/training.

  1. E.

    Beoordeling van kennis (kennistoetsing).

  1. F.

    Beoordeling van vaardigheden (met name relevant indien de praktijk te weinig mogelijkheden biedt om dit gedegen te doen; als beoordeling van vaardigheden in de praktijk lastig is in verband met weinig voorkomen óf als bewijs van beheersing noodzakelijk is in verband met patiëntveiligheid).

3.3 C. Portfolio als verzamelinstrument

Om te komen tot uitspraken over competenties c.q. functioneren van de aios is bewijsmateriaal nodig. Dit bewijs moet:

  • over langere tijd verzameld zijn,

  • afkomstig zijn van verschillende bronnen,

  • gemeten zijn met behulp van een verscheidenheid aan instrumenten.

Er zijn binnen de medisch-specialistische vervolgopleiding vele toetsvormen en -instrumenten beschikbaar. Elk van deze instrumenten levert specifieke informatie over specifieke deelaspecten van het professionele handelen van de aios2 (zie bijvoorbeeld ookwww.acgme.org/outcome/assess/toolbox.pdf;www.foundationprogramme.nhs.uk/pages/home/training-and-assessment). De informatie over het functioneren van aios kan in een (elektronisch) portfolio verzameld en gepresenteerd worden zodat voor elke aios een competentieprofiel c.q. een taakof themaprofiel opgesteld kan worden.

Door de informatie en toetsresultaten in het portfolio op een zorgvuldige manier te combineren en te wegen, is het mogelijk om enerzijds vast te stellen waar sterke c.q. zwakke kanten van de aios liggen voor wat betreft de zevenCanMEDS com-petenties en anderzijds vast te stellen hoe de aios in de verschillende inhoudelijke thema’s functioneert (met welke mate van zelfstandigheid, effectiviteit, efficiëntie, etc.). Op basis hiervan kunnen vervolgens onderbouwde beslissingen genomen worden ten aanzien van persoonlijke ontwikkelingsplannen, bekwaamheidsverklaringen, voortgang in de opleiding, etc.8

Table 1
Table 2

3.4 D. Gebruik van toetsresultaten in het voortgangsgesprek (formatief)

Een voortgangsgesprek is bedoeld voor de evaluatie van en reflectie op het functioneren van de aios in de afgelopen periode (drie-zes maanden), en voor het maken van specifieke afspraken voor de volgende periode.

Het Persoonlijk OntwikkelingsPlan (POP) van de aios vormt de basis voor de inhoud van het voortgangsgesprek. In hetPOP staan specifieke leerdoelen beschreven.

Aan de hand van alle voorliggende informatie in het portfolio wordt zowel de voortgang in het leerproces als de mate waarin leerdoelen in de afgelopen periode zijn bereikt, geëvalueerd. De formatieve functie van toetsing staat in het voortgangsgesprek centraal. Toetsresultaten/ beoordelingen helpen om sterke en minder sterke kanten in het functioneren te identificeren. Op basis hiervan kunnen concrete afspraken voor de volgende opleidingsperiode worden gemaakt. Hierbij is het belangrijk duidelijk af te spreken op welke manier getoetst kan en zal worden of de aios succesvol aan zijn leerdoelen heeft voldaan. Toetsresultaten zijn vooral bruikbaar voor het (bij)sturen van het leerproces als ze aan bepaalde voorwaarden voldoen (zie hoofdstuk 4).

3.5 E. Gebruik van toetsresultaten in het beoordelingsgesprek (summatief)

In het beoordelingsgesprek staat de vraag centraal of de betreffende aios voldoet aan de (minimum)eisen die op dat moment gesteld worden. Hieraan gekoppeld wordt de vraag beantwoord of het verantwoord is om de aios te laten doorstromen naar een volgende fase van de opleiding c.q. loopbaan.

De basis voor het gesprek wordt gevormd door de aan de aios te stellen eisen enerzijds, en door de in het portfolio beschikbare informatie over het functioneren van de aios anderzijds. De minimumeisen waaraan een aios op specifieke mo men ten in de opleiding moet voldoen staan deels omschreven in het opleidingsplan zoals opgesteld door de betreffende wetenschappelijke vereniging, en zijn uitgewerkt in het regionale opleidingsplan.

Het portfolio, met de daarin opgenomen toetsresultaten, vormt het belangrijkste bewijsmateriaal ter onderbouwing van de te nemen beslissing. De beslissing is alleen geloofwaardig en verdedigbaar als bewijsmateriaal en besluitvormingsproces aan specifieke voorwaarden voldoen (zie hoofdstukken 4-5).

Elke bekwaamheidsverklaring die wordt afgegeven betreffende deelaspecten van thema’s (bijvoorbeeld een specifieke verrichting) kan beschouwd worden als eensummatief toetsmoment. Er wordt dan vastgelegd dat de aios aan de minimumvoorwaarden voldoet om de betreffende verrichting zonder directe supervisie uit te voeren (bijvoorbeeld het zelfstandig uitvoeren van een vacuümextractie). Werkplekbeoordelingen en expertoordelen van het opleiderteam vormen ook bij dergelijke beslissingen het belangrijkste bewijsmateriaal.

4 4. Interpretatie van toetsresultaten: kwaliteit en kwantiteit van werkplekbeoordelingen

Een toetsmeet (een deel van) het functioneren van de aios. Met behulp van verschillende toetsen (verscheidenheid vantoetsinstrumenten en beoordelaars) worden toetsresultaten verkregen die worden gebruikt ter onderbouwing vanbeslissingen. Deze beslissingen kunnen betrekking hebben op (bij)sturing van het leerproces ofwel op voortgang in de opleiding (selectie). Beslissingen kunnen pas genomen worden nainterpretatie van de verkregen meetresultaten.Bij het nemen van beslissingen op basis van toetsresultaten gaan we vaak uit van een aantal impliciete aannames. Zie voor een voorbeeldBox 1. De vraag is hoe gerechtvaardigd al deze aannames en conclusies zijn. Zijn de kandidaten met de hoogste scores ook het meest competent, en functioneren zij het best op de werkvloer?

De mate waarin de interpretatie van de toetsscores en de zak/slaagbeslissingen kloppen, hangt samen met de mate waarin de aannames over de toets terecht zijn. Bij meer bewijs dat de aannames terecht zijn, is de geldigheid van de conclusies die we aan de toetsresultaten verbinden groter. De basisgegevens, de meetresultaten, moeten dus aan een aantal kwaliteitseisen voldoen.9-10 Deze basiseisen worden hierna beschreven, met een specifieke nadruk op implicaties voor werkplekbeoordelingen.

4.2 A. Toetsresultaten zijn accuraat

De toetsresultaten moeten een precieze (betrouwbare) indicatie vormen voor het prestatieniveau op de toets c.q. te beoordelen taak. Zij moeten precieze informatie geven over sterke en zwakke kanten in het functioneren van de aios. Verschillen in toetsresultaten bij vergelijking van verschillende aios horen dus uitsluitend het gevolg te zijn van daadwerkelijke (verschillen in) bekwaamheid van aios en niet beïnvloed te worden door andere, min of meer toevallige factoren. Mogelijke en veel voorkomende foutenbronnen zijn bijvoorbeeld:

  • extreme vermoeidheid of ziekte bij de kandidaat,

  • onduidelijke scoringssystematiek,

  • verkeerd gebruik van scoringsmodellen,

  • een toets bestaande uit extreem moeilijke of gemakkelijke taken.

Accutaresse van werkplekbeoordelingen in de praktijk

Uit onderzoek blijkt dat werkplekbeoordelingen in het algemeen niet erg accuraat zijn, vergeleken met scores die verkregen worden uit meer ‘objectieve’ of gestandaardiseerde toetsvormen.11-13 Typische kenmerken van werkplekbeoordelingen in de klinische setting zijn onder andere:

  • leniency (score-inflatie): beoordelaars zijn geneigd om mild en optimistisch te oordelen,14

  • halo-effecten: de algemene indruk over de aios is bepalend voor het oordeel op deelcompetenties, of één aspect in het functioneren bepaalt oordelen over andere onderdelen van het functioneren,15

  • verschillen in de manier waarop beoordelaars de kwaliteit van waargenomen functioneren interpreteren en omzetten in een score: sommige beoordelaars kunnen het eens zijn over kwaliteit van functioneren en dit toch anders scoren, terwijl andere beoordelaars van mening verschillen over de waargenomen kwaliteit en toch hetzelfde scoren.16-17

Verschillende oorzaken kunnen hieraan ten grondslag liggen:

  • Dubbelrol van de beoordelaar: Beoordelaars (staf) hebben vaak een langdurige, min of meer intensieve werkrelatie met de aios en vervullen naast de rol van beoordelaar ook de rol van coach-supervisor. Onderzoek toont tamelijk consistent aan dat het vervullen van deze dubbelrol het geven van eerlijke en volledige feedback belemmert. Met name het toekennen van ‘negatieve’ beoordelingen en feedback wordt ervaren als lastig, en weinig motiverend voor betrokkenen.

  • Gebrek aan directe observatie: Oordelen met betrekking tot specifieke vaardigheden als communicatie in de artspatiëntrelatie, of systematiek in anamnese en fysisch-diagnostisch onderzoek komen vaak tot stand op basis van indirecte informatie zoals verslaglegging in de status, of worden afgeleid uit de manier waarop de aios de patiëntcasus presenteert. Concrete feedback op en beoordeling van bepaalde klinische vaardigheden is zonder directe observatie niet mogelijk.16

  • Niet (tijdig)documenteren van observaties: Door niet te scoren/schrijven tijdens de observaties, maar vaak (veel) later achteraf te documenteren treedt informatieverlies en -vervorming op.18-20

  • Eenzijdige focus op kwaliteit van medisch (technisch) handelen: De beoordeling van de kwaliteit van medisch-technisch handelen bepaalt in sterke mate de scores op andere competenties.

  • Gebrek aan training en onderlinge afstemming tussen beoordelaars, leidend tot

    • onzekerheid bij beoordelaars over eigen competentie als beoordelaar,

    • gebrek aan consensus over kwaliteit van performance en te hanteren standaarden,

    • gebrek aan consensus over hoe het scoresysteem te gebruiken.

Geschreven, aanvullende opmerkingen over het functioneren van de aios, waarin een aantal sterke en minder sterke punten concreet gemaakt worden, zijn daarom veel belangrijker en informatiever dan numerieke scores.

4.3 B. Toetsresultaten zijn generaliseerbaar

Bij de interpretatie van toetsscores wil men meestal niet alleen uitspraken doen over het presteren van de aios op die ene geobserveerde taak of toets, maar conclusies trekken over verwachte prestaties in een veel groter domein van vergelijkbare taken (criteriumdomein). Meer concreetbetekent dit dat in de medisch-specialistische vervolgopleiding de vraag gesteld moet worden in hoeverre de toetsresultaten een betrouwbare indicatie vormen voor:

  • beheersing van de betreffende Can-MEDS competentie (bij de uitoefening van uiteenlopende beroepstaken) en/of

  • de beheersing van alle vergelijkbare taken/toetsen in het betreffende thema of vakgebied.

Anders gezegd: in hoeverre zijn behaalde toetsresultaten reproduceerbaar bij herhaalde meting met andere (maar vergelijkbare) taken en beoordelaars? Uit onderzoek blijkt dat van alle factoren die van invloed zijn op de generaliseerbaarheid van toetsresultaten, de zogenoemde ‘inhoudsspecificiteit’ de belangrijkste is.21-22 Hiermee wordt bedoeld dat de kwaliteit van functioneren nogal variabel is, en sterk afhankelijk van de specifieke inhoud van de taak of van het probleem waarmee iemand wordt geconfronteerd. Dat wil zeggen dat de prestatie op taak 1 niet of nauwelijks voorspellend is voor de prestatie op taak 2 uit hetzelfde inhoudelijke taakgebied.Zo is de kwaliteit van klinisch redeneren bij het oplossen van een patiëntprobleem sterk afhankelijk van de inhoud van dat specifieke probleem.

Het probleem van de inhoudsspecificiteit doet zich voor bij alle vormen van toetsing, zowel bij meer objectieve, gestandaardiseerde toetsen (zoals multiple choice examens) als bij beoordelingen op de werkplek (zoalsKPB ofOSATS). Behaalde toetsresultaten worden daarmee sterk afhankelijk van de toevallige keuze van taken of toetsitems. Dit impliceert dat, om betrouwbare uitspraken te kunnen doen over functioneren in een bepaald domein, een grote steekproef getrokken moet worden uit het betreffende (taak)domein. Hoe breder het domein waarnaar we uitspraken willen generaliseren, hoe groter de steekproef van te beoordelen taken dient te zijn.23-24

Een andere factor die generaliseerbaarheid kan beïnvloeden wordt gevormd door beoordelaars.Zo kunnen beoordelaars soms sterk van elkaar verschillen in de manier waarop ze geobserveerd gedrag interpreteren en waarderen. Er zijn strenge en milde beoordelaars, maar er bestaat vaak ook een verschil in opvatting over wat in welke fase van de opleiding beheerst moet worden of wat belangrijk is voor geleverde kwaliteit van zorg.De opzet van het scoresysteem en het beoordelingssysteem vormt een andere factor die van invloed is op betrouwbaarheid van toetsresultaten. Indien er ruimte voor subjectiviteit in de interpretatie van criteria bestaat zal de betrouwbaarheid strikt genomen afnemen. Ook hierbij geldt dat betrouwbaarheid positief beïnvloed wordt door een grotere steekproef: oordelen over aios zijn meer betrouwbaar naarmate meer verschillende examinatoren betrokken zijn bij de totstandkoming ervan. Onderzoek toont echter consistent aan dat laatstgenoemde factoren bij zorgvuldig ontworpen beoordelingsinstrumenten en goed getrainde beoordelaars van (veel) minder belang zijn dan de inhoudsspecificiteit.25

Generaliseerbaarheid van werkplekbeoordelingen in de praktijk

Werkplekbeoordelingen zijn arbeidsintensief en niet eenvoudig te realiseren. Uitspraken over het functioneren van de aios zijn daarom vaak gebaseerd op een zeer beperkt aantal beoordelingen, bij een beperkt aantal taken en door een beperkt aantal verschillende beoordelaars. Dit maakt het doen van gegeneraliseerde uitspraken vaak lastig. Onderzoek toont aan dat voor werkplekbeoordelingen, gebaseerd op individuele patiëntcasus, in grote lijn geldt dat 6-11 zijn om te komen tot betrouwbare oordelen over professionele competentie.11 26-27 Onderzoek toont daarbij overigens aan dat het aantal benodigde beoordelingen afhankelijk is van het te beoordelen domein en van de te beoordelen competenties.11

Wat betreft het aantal beoordelaars dat nodig is om te komen tot betrouwbare, generaliseerbare oordelen, geldt ten aanzien van werkplekbeoordelingen dat 6-10 beoordelaars nodig zijn om van betrouwbare oordelen te kunnen spreken. Indien gebruik wordt gemaakt van patiëntoordelen, zijn grotere aantallen noodzakelijk.11-12

360 graden feedbackprocedure en betrouwbaarheid van oordelen

In de context van360 graden feedback verdienen verschillen tussen beoordelaars specifieke aandacht. In het algemeen geldt dat medisch specialisten/stafleden de belangrijkste groep beoordelaars vormen bij het beoordelen van aios op de werkplek. Kenmerkend voor 360 graden feedback is dat verschillende beoordelaargroepen in de procedure betrokken worden. Deze beoordelaargroepen hebben op verschillende manieren en in verschillende situaties met aios te maken, en verschillen ook meestal van elkaar wat betreft de manier waarop ze het functioneren van een aios waarderen en beoordelen. Verpleegkundigen bijvoorbeeld, observeren niet alleen ander gedrag van een aios dan patiënten of stafleden, zij zullen mogelijk ook ander gewicht toekennen aan bepaalde gedragingen en dus anders oordelen. Dit betekent echter niet dat deze – verschillende – beoordelingen daarom niet betrouwbaar zijn. De verschillende invalshoeken waarmee naar het functioneren van de aios wordt gekeken vormen de belangrijkste basis voor het gebruik van 360 graden feedback. Het betrekken van verschillende groepen beoordelaars verrijkt de informatie op basis waarvan conclusies getrokken kunnen worden.28

4.4 C. Toetsresultaten zijn transferabel/ extrapoleerbaar

In het algemeen zijn we minder geïnteresseerd in de bekwaamheid van de aios met betrekking tot het beantwoorden van meerkeuzevragen, of met betrekking tot het uitvoeren van een technische handeling op een dummy in een simulatietoets. Belangrijk is in hoeverre de toetsresultaten een relevante indicatie vormen voor feitelijk functioneren in de praktijk. De toetsscore moet vertaalbaar zijn naar de situatie waarin datgene wat we meten praktisch relevant is. Naarmate toetsing meer plaatsvindt op basis van levensechte, authentieke taken, uitgevoerd in de context van de alledaagse beroepspraktijk, is extrapoleren van resultaten gemakkelijker, en vormen toetsresultaten een meer ‘directe’ aanwijzing en bewijs voor gedrag waarin we uiteindelijk geïnteresseerd zijn.

Transferabiliteit/extrapoleerbaarheid van werkplekbeoordelingen in de praktijk

Extrapoleerbaarheid van werkplekbeoordelingen lijkt in eerste instantie geen problemen op te leveren: immers het geobserveerde en beoordeelde gedrag is identiek aan gedrag dat in de praktijk van alledag getoond wordt. Extrapoleerbaarheid van werkplekbeoordelingen kan echter worden beïnvloed door een aantal factoren:

  • Directe observatie (zeker indien gevolgd door een beoordeling) kan van invloed zijn op het functioneren van de aios. Een aios kan in een dergelijke situatie ófwel beter ófwel slechter presteren dan hij/zij normaal gesproken gewoon is te doen.

  • Werkplekbeoordelingen geven informatie over wat een aios in de dagelijkse praktijk doet. Het beoordelen van func-tioneren op de werkplek aan de hand van een (gestructureerd/gestandaardi -seerd) beoordelingsformulier betekent niet automatisch dat de uiteindelijke scores een goed beeld geven van het feitelijke functioneren van de aios. Zo kunnen bijvoorbeeld de items op het beoordelingsformulier meer of minder relevant en representatief zijn voor wat we feitelijk willen meten. In andere woorden: de manier waarop geobserveerd gedrag wordt vertaald in scores en wordt vastgelegd op een formulier, bepaalt de informatiewaarde van de werkplekbeoordeling.

In het algemeen geldt het volgende. Op basis van een enkele werkplekbeoordeling wordtspecifieke informatie verkregen: specifieke informatie over functioneren met betrekking tot betreffende taak, in betreffende specifieke situatie. Gegeneraliseerde uitspraken (over competentie, bekwaamheid van de aios) zijn slechts mogelijk indien voldoende gevarieerde meetgegevens uit een domein beschikbaar zijn. Dit neemt echter niet weg dat separate (taak)beoordelingen een indicatie kunnen vormen voor specifieke sterke c.q. minder sterke kanten in het functioneren van de aios.

In het algemeen geldt bij het interpreteren van toetsscores dat het trekken van een juiste en verdedigbare conclusie over de competentie c.q. bekwaamheid van een aios alleen mogelijk is als de toetsscores zowel accuraat, generaliseerbaar als transferabel/ extrapoleerbaar zijn. Helaas voldoet geen enkel toetsinstrument volledig aan deze eisen. Het gebruik van verschillende instrumenten die door ieder meer dan eens worden ingezet is daarom een absolute noodzaak. Dit palet van toetsen en beoordelingen vormt een toetsprogram ma. Het portfolio dient hierbij als verzamelinstrument.

5 5. Gebruik van toetsresultaten: verdedigbaarheid van beslissingen

Zorgvuldig gebruik van toetsresultaten vereist een hoge kwaliteit van het besluitvormingsproces. Dit proces moet trans - parant, traceerbaar, geloofwaardig en rechtvaardig zijn. Beslissingen moeten gefundeerd zijn en gemotiveerd kunnen worden. Interpretatie en gebruik van toetsresultaten zou plaats moeten vinden aan de hand van overeengekomenstandaarden (dit kunnen leerdoelen, opleidingsdoelstellingen of minimaal vereiste bekwaamheidsniveaus zijn) en van tevoren vastgesteldeprocedures.

5.1 A. Werkplekbeoordelingen en kwaliteit van standaarden

De gehanteerde standaarden en cesuur moeten verdedigbaar zijn. Een groot probleem op dit moment is het ontbreken van duidelijke en evidence-based standaarden waaraan een aios op specifieke momenten in de opleiding moet voldoen. Hiervoor zijn een aantal oorzaken aan te wijzen:

  1. 1.

    Voor een aantal algemene competentiedomeinen, zoals communicatie, professionaliteit of samenwerken, zijn nog geen absolute standaarden vastgesteld. Hoewel dit niet eenvoudig lijkt, zullen ook voor deze competenties standaarden ontwikkeld moeten worden.

  2. 2.

    Bij werkplekbeoordelingen is sprake van een hoge mate van leniency (score-inflatie). Uit onderzoek in de V.S. blijkt dat het merendeel (> 80%) van de arts-assistenten beoordeeld wordt als ‘excellent’ of ‘very good’.14 Een score ‘good’ of ‘satisfactory’ zou dan wel eens geïnterpreteerd moeten worden als ‘twijfelachtig’ respectievelijk ‘onvoldoende’.

  3. 3.

    Er bestaan soms grote verschillen in beoordelingssystematiek bij vergelijking van verschillende opleidingszie-kenhuizen, als gevolg van verschillen in gehanteerde scoresystemen (instrumenten), verschillen in opleidingsklimaat, verschillen in opvattingen en afspraken over toetsing, verschillen in patiëntaanbod, etc.

Op grond van het bovenstaande kan geconcludeerd worden dat het ontwikkelen van goed onderbouwde standaarden alleen mogelijk is indien aandacht wordt besteed aan training van beoordelaars, er een onderlinge afstemming van beoordelingssystemen is en indien systematisch, en over een langere tijdsperiode, gegevens over functioneren van aios op de werkplek, in verschillende fasen van de opleiding en in verschillende settings, worden verzameld en toegankelijk worden gemaakt. Systematische documentatie van werkplekbeoordelingen is daarbij een noodzakelijke randvoorwaarde.20

5.2 B. Zorgvuldige besluitvorming

Verdedigbaarheid van besluiten vraagt om zorgvuldigheid in het besluitvormingsproces. Van zorgvuldige besluitvorming kan worden gesproken indien minimaal is voldaan aan een aantal randvoorwaarden.29-31

  1. 1.

    Adequate notice (transparantie): Voor de medisch-specialistische vervolgopleiding betekent dit dat aios tijdig geïnformeerd zijn over de opzet en inhoud van het beoordelingsproces (instrumenten en procedures, beoordelingscriteria, standaarden c.q. te bereiken doelstellingen) en dat er regelmatig en tijdig tussentijdse feedback gegeven is over het functioneren (met eventueel mogelijkheid tot remediatie).

  2. 2.

    Fair hearing: Zorgvuldige besluitvorming berust niet alleen op input van voldoende geloofwaardige beoordelaars, maar ook van beoordeelde zelf. Dit betekent dat de aios in staat gesteld moet worden om input te leveren in het beoordelingsproces, bijvoorbeeld in de vorm van zelfbeoordeling, reflectie. In elk geval dient hij/zij tijdig in de gelegenheid gesteld te worden om verkregen (voorgenomen) beoordelingen te becommentariëren. Regelmatig ingeplande (formele) voortgangsgesprekken en andere feedbacksessies maken deel uit van een ‘fair’ systeem van beoordelen. Daarnaast horen aios voldoende geschoold/getraind te zijn in het voeren van feedbackgesprekken, voortgangsgesprekken en beoordelingsgesprekken.

  3. 3.

    Beslissingen worden volgens vastgestelde procedures genomen: Er wordt een duidelijk onderscheid gemaakt tussen formatief en summatief gebruik van beoordelingsresultaten. Beslissingen (summatief) zijn altijd gebaseerd op geaggregeerde, dat wil zeggen over langere tijd en op basis van verschillende instrumenten verzamelde informatie. Beslissingen berusten daarbij op input van voldoende beoordelaars, en worden genomen door een daartoe verantwoordelijk gestelde groep (bijvoorbeeld de opleidergroep). De kwaliteit van de besluitvorming neemt hierdoor toe.32-33

  4. 4.

    Beslissingen worden gemotiveerd en onderbouwd: Besluitvorming moet zoveel als mogelijk ‘evidence-based’ zijn. Zorgvuldige en volledige documentatie van feedback gedurende de opleiding is belangrijk, zowel voor het leerproces van de aios, als voor de besluitvorming. Documentatie van positieve feedback heeft een sterk motiverend en bekrachtigend effect op het leren door de aios.34-36 Uit onderzoek blijkt dat het ontbreken van documentatie een belangrijke reden kan vormen voor het uitstellen van negatieve beslissingen.37

  5. 5.

    Training, coaching van beoordelaars: Beoordelaars moeten voldoende ver-trouwd zijn met de achtergronden en doelstellingen van het beoordelingssysteem, en getraind zijn in het gebruik van instrumenten.38-39

Effectief gebruik van werkplekbeoordelingen (toetsresultaten) vereist een beoordelingssysteem dat door alle betrokkenen ervaren wordt als rechtvaardig en zinvol. Doorslaggevend daarbij zijn vertrouwen in opzet en procedures, veiligheid, training, coaching en in gezamenlijk gevoelde verantwoordelijkheid.13 31 40-41

6 6. Randvoorwaarden en algemene aanbevelingen

Opleidergroep

  • Zorg voor scholing van opleiderteam en bij opleiden betrokken beoordelaars. Faciliteer coaching ‘on-the-job’, bijvoorbeeld door een senior-staflid en/ of onderwijskundige.42

  • Formaliseer procedures, waar nodig. Maak duidelijke afspraken over taken en verantwoordelijkheden wat betreft begeleiding en toetsing van aios.

  • Draag als opleidergroepgezamenlijk verantwoordelijkheid voor de kwaliteit van toetsing.

  • Zorg voor duidelijke standaarden (consensus) en communiceer deze. Maak duidelijk wat op welk moment van de aios wordt verwacht.

  • Evalueer regelmatig alsgroep het functioneren vanalle aios aan de hand van portfolio’s.

  • Neem alsgroep besluiten over aios.

  • Bespreek ‘probleem-aios’ en stel zonodig een remediëringsprogramma vast.

Instrumenten afgestemd op doelstellingen van toetsing

  • Gebruik instrumenten die inzicht geven in ontwikkeling/groei met betrekking totCanMEDS competenties.

  • Gebruik instrumenten die inzicht geven in ontwikkeling/groei met betrekking tot opleidingsspecifieke thema’s.

  • Zorg voor verzamelen van voldoende kwalitatieve informatie (narratieve feedback), naast kwantitatieve informatie.

Faciliteer en bewaak zorgvuldige en volledige dossiervoering (portfolio)

  • Zorg voor een gebruikersvriendelijk systeem (web-based).

  • Zorg voor systematische en structurele evaluatie van aios op alle relevante (deel)competenties en thema’s.

  • Organiseer, waar nodig, de toetsing op de werkplek. Zorg voor inbedding van werkplekbeoordelingen in de dagelijkse werkroutine.

  • Faciliteer directe observatie en documentatie van performance. Plan werkplekbeoordelingen, waar nodig, in.

  • Zorg voor brede sampling.

  • Betrek verschillende beoordelaargroepen in het proces.

Systematische en structurele monitoring van performance van grote groepen aios(referentiegroepen)

  • Zorg voor documentatie van performance.

  • Verzamel gegevens van aios over een langere periode en in verschillende opleidingsinstellingen.

Training/professionalisering van aios

  • Zorg voor scholing van aios met betrekking tot voeren van feedbackgesprekken (geven en ontvangen van feedback; omzetten van feedback in concrete acties).

  • Zorg voor scholing van aios in het voeren van voortgangs- en beoordelingsgesprekken.

7 7. Samenvattende overzichten

7.1 A. Toetsresultaten in begeleidingsgesprekken

Table 3 Voortgangsgesprek
Table 4 Beoordelingsgesprek

7.2 B. Kwaliteit en kwantiteit van werkplekbeoordelingen

Het gebruik van het portfolio, hetzij bij het coachen of sturen van het leerproces, hetzij bij het nemen van beslissingen, veronderstelt dat de in het portfolio verzamelde informatie een representatief beeld geeft van het feitelijke functioneren van de aios in de opleiding. De informatie in het portfolio dient daartoe aan een aantal kwaliteitseisen te voldoen.

Algemeen geldt bij het interpreteren van toetsscores dat het trekken van een juiste en verdedigbare conclusie over de competentie c.q. bekwaamheid van een aios alleen mogelijk is als de scores zowelaccuraat, generaliseerbaar en transferabel/ extrapoleerbaar zijn. Helaas voldoet geen enkel toetsinstrument volledig aan deze eisen. Het gebruik van verschillende instrumenten die door ieder meer dan eens worden ingezet is daarom een absolute noodzaak.

Meer specifiek voor werkplekbeoor - delingen gelden aandachtspunten van accuratesse, generaliseerbaarheid en extrapoleerbaarheid. Deze zijn in de hierna volgende boxen toegelicht

7.3 C. Verdedigbaarheid van beslissingen: standaarden en besluitvormingsproces