Inleiding

Binnen het medisch onderwijs wordt steeds meer aandacht besteed aan de kwaliteit van klinische docenten. De minister van VWS wil in het kader van de subsidieregeling van artsen in opleiding tot specialist (aios) de resultaten van ‘tevredenheids-onderzoek’ onder aios zelfs als parameter gebruiken hij de toewijzing van gelden. Het is dan ook belangrijk om bij de beoordeling van kwaliteit van docenten goede en gevalideerde onderzoeksinstrumenten te gebruiken. Eén van de vragenlijsten die daarvoor in toenemende mate wordt gebruikt is het (Cleveland) Clinical Teaching Effectiveness Instrument (de CTEI).1 Deze lijst, ontwikkeld door Copeland en Hewson in de jaren negentig, bestaat uit 15 items en is voor het Engels taaldomein uitgebreid gevalideerd en betrouwbaar bevonden. In de Nederlandse situatie is door Van der Hem een betrouwbaarheidsonderzoek gedaan.2 Sinds die tijd wordt de lijst ook in Nederland veel gebruikt.3-5 De CTEI wordt voor zowel formatieve beoordelingen (evaluatie van docenten met het doel hen van feedback te voorzien; vaststellen van de kwaliteit van een groep docenten van een bepaalde afdeling) als voor summatieve beoordeling van docenten gebruikt.6-7

Probleem

Bij het gebruik van deze lijst vermoedden wij een storende factor omdat dat de antwoordcategorieën in de gebruikte vijf-punts Likertschaal een combinatie vormen van een kwantitatief en kwalitatief oordeel. Antwoordmogelijkheden zijn bijvoorbeeld: ‘always/superb’ en ‘never/poor’.

Inmiddels heeft Bierer in 2005 uitgebreid onderzoek gedaan naar het gebruik van de CTEI als summatief instrument met web-based invulmogelijkheid.6-7 Zij gaat daarbij uit van het gegeven dat de lijst valide is. De antwoordcategorieën stelt zij echter niet ter discussie. Maar in een eerder artikel van Copeland en Hewson van 2000 zit al enige zorg: ‘the largest source of error was due to trainees' interpreting items differently’.1 Een aanvullend, specifiek voor Nederland, probleem is dat zowel in de Nederlandstalige als Engelstalige publicaties van Nederlandse onderzoekers de letterlijke antwoordrubrieken niet eenduidig zijn (zie box 1). De dubbele antwoordmogelijk-heid leidde bij ons tot grote twijfel over de interpretatie en daarmee over de validiteit van de uitkomsten van dit meetinstrument. Om hierover meer duidelijkheid te krijgen verrichtten wij een pilot-onderzoek.

Vraagstelling

De vraagstelling van het pilot-onderzoek was of een aanpassing van de CTEI met onderscheid tussen kwalitatieve en kwantitatieve antwoordcategorieën duidelijk maakt dat de CTEI in de oorspronkelijke vorm niet eenduidig kan worden ingevuld.

Methode

De antwoordcategorieën van de oorspronkelijke CTEI vragenlijst werden aangepast om de bovenstaande vraag te toetsen. Er werd een scheiding gemaakt tussen frequentie en kwaliteit van opleidersgedrag. In één vraag werd de frequentieaanduiding verwijderd (‘geeft regelmatig feedback, zowel positief als negatief’).

Aan de hand van deze aangepaste CTEI beoordeelden negen aios het docentgedrag van zes klinische docenten. De relatie tussen frequentie en kwaliteit van opleidergedrag werd statistisch getoetst (Wil-coxon-test).

Resultaten

Alle scores beschouwend, was er overeenstemming bij 292 van de 509 scores (57%) in de twee aangepaste versies van de CTEI. Bij 43% was er echter een discrepantie tussen de scores van de twee versies: bij 153/509 (30%) scoorde de vraag hoger in de op kwaliteit aangepaste versie dan in de op frequentie aangepaste vraag. In 64/509 (13%) was dat andersom en scoorde de op frequentie aangepaste vraag hoger dan de op kwaliteit aangepaste vraag. Voor vijf van de 15 vragen was dat verschil tussen beide versies van de CTEI statistisch significant (p<.01).

Conclusies

Er is inderdaad sprake van een probleem bij het interpreteren van de CTEI. Degenen die de lijst gebruikten zijn logischerwijs afgegaan op het feit dat de lijst één van de weinige gevalideerde lijsten is op dit gebied. Mogelijkerwijs is bij het valideringsonder-zoek aan de deelnemers niet de indeling van de antwoordcategorieën voorgelegd. Wannneer de lijst gebruikt wordt als instrument voor het meten van kwalilteit van docenten waarbij op individueel niveau feedback aan docenten wordt gegeven, dan is het van groot belang of er door de invuller(s) op kwaliteit of op kwantiteit is gescoord. Een docent kan immers weinig frequent (seldom) uitstekend (superb) onderwijsgedrag vertonen en omgekeerd! Om de docent echter in staat te stellen zijn /haar gedrag te wijzigen, moet de feedback zo concreet mogelijk zijn.

We beseffen dat de steekproef bij ons pilot-onderzoek bijzonder klein is, maar toch lijkt dit steun te geven aan het door ons vermoede probleem. Het verdient daarom o.i. vooralsnog aanbeveling de lijst te gebruiken in zowel een frequentieals een kwaliteitsvariant. Slechts dan is het mogelijk om concrete suggesties voor verbetering van het docentgedrag te formuleren op basis van de uitkomsten.

Daarnaast is een bijkomend probleem dat de verschillende auteurs ook afwijken van de oorspronkelijke antwoordcategorieën (zie box 1). Dit maakt het onderling vergelijken van uitkomsten van de verschillende onderzoeken riskant.

Tenslotte: de kwaliteit van clinical teachers gaat ons aan het hart. Wij willen graag specifieke en concrete feedback aan onze docenten geven; de CTEI kan daarbij helpen mits de resultaten eenduidig te interpreteren zijn. Wij proberen met dit bericht een richting te wijzen voor een effectiever gebruik van de CTEI.

P.M. Boendermaker en P. Remmelts

De auteurs:

P.M. Boendermaker, P. Remmelts zijn beiden senior stafmedewerker Wenckebach Instituut, Postgraduate School of Medicine, UMCG Groningen.