Inleiding

In het laatste jaar van de medische opleiding (vóór het artsexamen) aan de Katholieke Universiteit Leuven (K.U. Leuven) worden gedurende acht weken een 70-tal probleemoplossingsgerichte klinische colleges (POKC’s) gegeven, met als doel het klinisch redeneren te oefenen.1- 3 Vóór elk college worden één of meer realistische casussen in kleine groep bestudeerd en worden de bijhorende opdrachten uitgevoerd. Individuele bestudering van de literatuur is vaak noodzakelijk. Deze zelfstudie en groepswerk vormen de voorbereiding op het plenaire college dat door één of twee docenten wordt begeleid. Gedurende deze interactieve sessies presenteren de studenten de antwoorden vanhun groep en de denkpaden die ze gevolgd hebben om deze te bereiken. De studenten ondervragen elkaar en discussiëren over de voorgestelde oplossingen. In de plenaire sessie staat dus het hypothetischdeductief redeneerproces centraal dat leidt naar verschillende plausibele oplossingen. Elke reeks POKC’s wordt beëindigd met een examen dat bestaat uit 200 extended-matching (EM) meerkeuzevragen. Tijdens de colleges worden voorbeelden van vragen besproken.

Een extended-matching set omvat vier componenten:

  1. 1.

    Een thema.

  2. 2.

    Een lijst met antwoordmogelijkheden.

  3. 3.

    Een inleidende bewering of vraag.

  4. 4.

    Ten minste twee itemstammen of casussen (zie box 1).4

Box 1. Een voorbeeld van een extended-matching set.

Thema:

Dubbelzien

Opties:

a. internucleaire oftalmoplegie

 

b. monoc-ulaire diplopie

 

c. myasthenia gravis

 

d. myositis

 

e. syndroom van de sinus cavemosus

 

f. thyroïd oftalmopathie

 

g. verlamming van de M. obliquus superior

 

h. verlamming van de M. rectus externus

 

i. verlamming van de N. oculomotorius

 

j. verlamming van de N. trochlearis beiderzijds

Opdracht:

Selecteer de meest waarschijnlijke diagnose voor deze diplopie.

Ziektegeschiedenissen:

1. Een man van 52 jaar heeft sedert maanden last van dubbelzicht. Hij vertoont een licht vernauwde oogspleet links en een grotere pupil links. Tevens zijn adductie, abductie, elevatie en depressie beperkt aan dit oog. Er is ook een verminderde corneasensibiliteit.

 

2. Een man van 54 jaar heeft plots diplopie ontwikkeld. Hij heeft vooral last bij het afdalen van trappen en bij het lezen met zijn bifocale bril. Hij heeft de neiging het hoofd wat naar de linkerschouder te buigen. Hij lijdt aan diabetes.

In dit onderzoek werd een variant gebruikt met slechts één itemstam en 7 à 26 antwoordmogelijkheden. Extended-matching vragen (EM-vragen) vormen een betrouwbare en valide toetsvorm.5-9 Wass en co-auteurs toonden aan dat EM-vragen het klinisch probleemoplossen meten omdat ze hoog correleerden met klinische toetsen (stationsproef en lange casussen) en probleemoplossingstoetsen (kort-antwoordvragen), matig met een feitenkennistoets (juist-fout vragen) en laag met een schriftelijke presentatie (essay).8 Coderre en medewerkers vroegen 20 gastroenterologen (experts) en 20 laatstejaars studenten geneeskunde (niet-experts) om vier meerkeuze- en vier EM-vragen over gastrointestinale problemen op te lossen. Na beantwoording van de acht vragen legden de respondenten uit hoe zij tot de diagnose zijn gekomen. Bij het oplossen van de EM-vragen rapporteerden de nietexperts meer een beroep te doen op hypothetisch-deductief redeneren (achterwaarts redeneren) en minder op patroonherkenning (voorwaarts redeneren). Bij het hypothetisch deductief redeneren worden, voordat de meest waarschijnlijke diagnose geselecteerd wordt, één voor één de antwoordalternatieven geanalyseerd. In patroonherkenning is er sprake van een enkele diagnose met hoogstens een vluchtige blik op de alternatieven.9 Beullens et al. onderzochten het redeneren van 20 laatstejaars studenten en 20 assistenten die zich specialiseerden in inwendige geneeskunde bij het hardop oplossen van 20 EM-vragen. Tien EM-vragen hadden betrekking op interne geneeskunde en tien op andere medische disciplines. Binnen hun domein van expertise (inwendige geneeskunde) hanteerden de assistenten vaak het voorwaarts redeneren, terwijl ze buiten hun domein van expertise (andere medische disciplines) meestal overschakelden op het achterwaarts redeneren. Vergeleken met de studenten redeneerden zij bij het oplossen van de vragen uit inwendige geneeskunde meer voorwaarts en minder achterwaarts.10 Dit leidt tot de conclusie dat EM-vragen het klinisch redeneren meten hetgeen tot uiting komt in het nemen van klinische beslissingen.

Voortbouwend op het onderzoek naar de evolutie van het klinisch redeneren van novice tot expert hebben Bordage, Grant en Marsden (1990) een vragenlijst ontworpen die het klinisch redeneren in kaart brengt: de Diagnostic Thinking Inventory (DTI).11 Twee aspecten van het diagnostisch denken worden gemeten: de flexibiliteit in het denken en de structuur van de kennis in het geheugen. De Vragenlijst Diagnostisch Denken (VDD) is een letterlijke vertaling van de DTI. Bordage, Grant en Marsden vergeleken de scores op de DTI van twee groepen studenten geneeskunde met zeven groepen ervaren clinici. Ze vonden slechts twee significante verschillen. De eerste- en derdejaars studenten hadden lagere scores dan de overige groepen. Binnen deze laatste zeven groepen verschilden slechts twee groepen van elkaar. Dit betekent dat alleen verschillen werden gevonden tussen groepen die tenminste één trainingsjaar van elkaar verschilden.11 Round liet de DTI invullen door vierdejaars studenten geneeskunde die al (experimentele groep) dan niet (controlegroep) deelnamen aan een interventie van twee uur rond klinisch redeneren.12 De interventiegroep scoorde significant hoger op de DTI. De DTI was echter vóór de interventie niet afgenomen. Het is dus niet uitgesloten dat de experimentele groep initieel reeds een hoger redeneerniveau had. Indien de POKC’s het klinisch redeneren aanscherpen, verwachten wij een toename van de score op de VDD nadien in vergelijking met voordien.

Sobral onderzocht bij studenten die een stage inwendige geneeskunde liepen het verband tussen klinisch redeneren en kennis.13 De DTI-score correleerde 0.19 met de examenuitslag en 0.34 met de score op een probleemoplossingstoets. Deze coëfficiënten waren weliswaar zwak maar significant. Het verband was sterker met de probleemoplossingstoets dan met de examenuitslag en gold meer voor Structuur dan voor Flexibiliteit.13 Als het EM-examen het klinisch redeneren meet, dan verwachten wij een verband tussen VDD-scores en examenuitslag.

De onderzoekshypothesen zijn dus:

  1. 1.

    De VDD-scores zijn significant hoger na de POKC’s dan daarvoor.

  2. 2.

    De correlaties tussen VDD-scores en examenuitslagen zijn significant positief.

Methode

Deelnemers

In het academisch jaar 2003-2004 werden drie reeksen POKC’s georganiseerd voor drie verschillende groepen studenten: in september – oktober, in november – december en in februari – maart. Elke reeks startte met een introductiesessie waarin de studenten een boek met ziektegeschiedenissen en de vragenlijst kregen. Hen werd verzocht de vragenlijst in te vullen en te retourneren.Tijdens een informatiesessie over het examen, die een week vóór het examen plaatsvond, werd dezelfde vragenlijst opnieuw uitgedeeld met het verzoek deze ingevuld in te leveren op de dag van het examen.

Instrument

De Diagnostic Thinking Inventory (DTI) bestaat uit 41 items: 21 items meten de graad van flexibiliteit in het denken en 20 items meten de graad van kennisstructuur in het geheugen. Het instrument is gebaseerd op onderzoek over de ontwikkeling van het klinisch redeneren van novice tot expert.14- 17 De DTI is een betrouwbare en valide test. Bordage, Grant en Marsden vonden Cronbach alfa’s van respectievelijk 0.72 voor Flexibiliteit, 0.74 voor Structuur en 0.83 voor de Totaalscore.11

Elk item omvat een stam, twee vergezellende beweringen en een meetschaal in de vorm van zes hokjes. De respondent moet een kruisje zetten in het hokje dat het best zijn standpunt op het continuüm tussen de beweringen weergeeft.

Flexibiliteit betreft de mate waarin betekenissen of processen toegepast kunnen worden tijdens het diagnostisch proces. Voorbeelden van items zijn opgenomen in tabel 1.

figure 1

Structuur betreft de beschikbaarheid van de in het geheugen opgeslagen kennis tijdens het diagnostisch proces. Itemvoorbeelden zijn vermeld in tabel 1.

Extended-matching examen

Een extended-matching set bestaat uit vier componenten: een thema of probleem, een lijst met opties of antwoordalternatieven, een inleidende bewering of vraag en itemstammen in de vorm van ziektegeschiedenissen.4 Om correctie voor het raden te vermijden is het minimum aantal opties gesteld op 7; het maximum aantal is 26. Voor eenzelfde thema, optielijst en vraag kunnen verschillende casussen aangeboden worden. Wij hebben echter vragen gebruikt met slechts één itemstam of casus. Hoewel ook andere aspecten aan bod komen zoals behandeling, beleid, onderzoek of preventie betreffen de meeste examenvragen de diagnose.

Statistische analyse

De VDD-score werd berekend door getallen van 1 tot 6 toe te kennen aan de hokjes. Voor de gehele vragenlijst en de subschalen Flexibiliteit en Structuur werden gemiddelden en standaarddeviaties berekend. Voordat begonnen werd met het analyseren van de data, werd de interne consistentie gemeten met behulp van de Cronbach alfa. Verschillen tussen voormeting en nameting werden getoetst met de Wilcoxon signed rank test. Het verband tussen VDD-scores en examenuitslagen werd nagegaan met de Pearson correlatiecoëfficiënt. Bij de beoordeling van verschillen werd het 5%-significantieniveau gebruikt.

Resultaten

De eerste stap bij de berekening van de examenuitslagen was een itemanalyse. Items die negatief correleerden met de totaalscore werden geschrapt. In de drie examens werden respectievelijk 18, 13 en 18 items geschrapt. De interne consistentie, gemeten met de Cronbach alfa, bedroeg 0.88 in de eerste reeks, 0.87 in de tweede en 0.82 in de derde reeks. Het gemiddelde percentage correcte antwoorden bedroeg respectievelijk 74.92 (met een SD van 8.14), 71.64 (SD 8.03) en 76.21 (SD 6.65). Aangezien de gemiddelden significant verschilden werden deze teruggebracht tot een gemeenschappelijk gemiddelde van 73%.

De respons was hoog. Aan de eerste reeks POKC’s namen 110 studenten deel; 107 daarvan namen deel aan het extended-matchingexamen (97%), 109 aan de VDD-voormeting (99%) en 104 aan de nameting (95%). In de tweede reeks waren de aantallen respectievelijk: 120 studenten in de colleges, 118 bij het examen (98%), 114 bij de voormeting (95%) en 116 bij de nameting (97%). In de kleinere derde reeks bedroegen de aantallen: 39 studenten in de POKC’s, 39 legden het examen af (100%), 35 vulden de voormeting in (90%) en 36 de nameting (92%).

Betrouwbaarheid

De interne consistentie bedroeg 0.64 voor de subschaal Flexibiliteit, 0.71 voor de subschaal Structuur en 0.80 voor de gehele schaal.

Vergelijking voormeting – nameting

De scores van de drie afnames samen waren na de POKC’s significant hoger dan voordien (zie tabel 2).

Tabel 2. Gemiddelde VDD-scores vóór en na de POKC’s (in het totaal en de drie reeksen afzonderlijk).

Bestudering van de afzonderlijke afnames liet zien dat de scores na de POKC’s significant hoger waren dan voordien behalve voor Flexibiliteit in de eerste reeks (alleen een tendens) en in de tweede reeks (niet significant; zie tabel 2).

Correlatie met EM-examen

De Pearson correlaties tussen VDD-scores en examenuitslagen waren aan de lage kant maar toch significant (met uitzondering van Structuur in de nameting) als de drie afnames samen worden genomen (zie tabel 3).

Tabel 3. Correlaties tussen VDD-scores en examenuitslagen (in het totaal en de drie reeksen afzonderlijk).

Bij elk van de afnames afzonderlijk waren de correlaties tussen VDD-scores en het examen laag tot matig (0.03- 0.48). Ze waren in elke reeks wat hoger dan in de voorgaande: 0.03-0.12 in de eerste reeks, 0.15-0.25 in de tweede en 0.26-0.48 in de derde. Er waren geen significante correlaties tussen de VDD-scores en de examenuitslag behalve die in de voormeting van de tweede reeks (uitgezonderd voor Flexibiliteit) en die in de nameting van de derde reeks (zie tabel 3).

Discussie

De respons was uitstekend: 90% of meer. De betrouwbaarheid van de gehele schaal was hoog en de alfa’s van de subschalen volstonden voor onderzoeksdoeleinden.

De voormetingscores in dit onderzoek (totaalscore 168.1, Flexibiliteit 85.9 en Structuur 82.2) waren hoger dan die van de derdejaars studenten geneeskunde in de studie van Bordage, Grant en Marsden (totaalscore 158.3, Flexibiliteit 81.6 en Structuur 76.7).11 Onze nametingscores (172.1, 87.0 en 85.1) waren gelijk aan die van huisartsen in opleiding in de studie van Bordage (172.2, 88.1 en 84.1).11 Onze studenten, die allen zouden starten met een opleiding huisartsgeneeskunde of een andere medische specialistenopleiding, hadden even hoge scores als huisartsen in opleiding.

De eerste hypothese werd bevestigd: de meeste nameting VDD-scores waren significant hoger dan die van de voormeting. Deelname aan de POKC’s resulteerde tot een meer flexibel denken en een beter gestructureerde kennis in het geheugen. Bordage en medewerkers vergeleken de DTI-scores van negen groepen van studenten en afgestudeerden en vonden slechts twee significante verschillen tussen groepen die minstens één studiejaar van elkaar verschilden.11 Een significante toename van de scores na twee maanden in onderhavig onderzoek is bijgevolg relevant. De intensieve training tijdens de probleemoplossingsgerichte klinische colleges heeft hiertoe bijgedragen. Immers, gedurende acht weken volgden de studenten elke dag twee klinische colleges, waarin van de gepresenteerde casussen het klinisch redeneren, resulterend in plausibele oplossingen, werd besproken. Gezien het ontbreken van een controlegroep kan echter niet uitgesloten worden dat het effect een tijdseffect is.

Als elke reeks echter afzonderlijk wordt beschouwd, blijkt de toename alleen te gelden voor Structuur, niet voor Flexibiliteit. De subschaal Flexibiliteit heeft echter een lage betrouwbaarheid en dit zou de niet-significante resultaten kunnen verklaren. De POKC’s vormen dus een efficiënte onderwijsleeractiviteit die op korte termijn de structuur van het geheugen kan verbeteren. Het verschil tussen voor-en nameting is echter niet spectaculair. Andere onderzoeken bevestigen dat kennisherstructurering plaats vindt tijdens de medische opleiding.18- 19 Twee wijzen van herstructurering kunnen worden onderscheiden: ‘kennisinkapseling’ en ‘ziektescript’-vorming. Volgens de kennisinkapselingshypothese bij de vorming van een medisch expert, verminderen de biomedische begrippen in het klinisch redeneren omdat deze omgezet worden in concepten van een hoger niveau, die wel toenemen. In het ziektescriptmodel is een script een netwerk van relevante kennis en ervaring, die ‘enabling conditions’ bevat (kenmerken verbonden met de verwerving van de aandoening), ‘faults’ (misfuncties) en ’consequences’ (tekenen en symptomen). Boshuizen heeft aangetoond dat over een stageperiode van twee jaar de klinische ervaring van studenten geneeskunde resulteerde in een inkapseling van de gedetailleerde biomedische begrippen.18 Uit een onderzoek van Boshuizen en Schmidt blijkt dat vierdejaars studenten geneeskunde uitgewerkte biomedische kennis toepassen bij pogingen de diagnose te stellen bij een casus, terwijl vijfdejaars studenten op het einde van hun stageperiode hele ziektescripts activeren in plaats van biomedische concepten.19 In het vijfde jaar bevorderde de klinische ervaring dus de herstructurering van kennis in het geheugen. De resultaten in onderhavig onderzoek suggereren dat een uitgebreide bestudering van papieren casussen ook de herstructurering van de kennis initieert.

Het denken van de expert wordt ook gekenmerkt door flexibiliteit. Inderdaad, ziektescripts zijn dynamische structuren, die aangepast worden na elk onderhoud met een nieuwe patiënt.20 In onderhavige studie vonden wij geen toename van flexibiliteit binnen de reeks. Mogelijk hebben echte gesprekken met patiënten meer invloed op de flexibiliteit van het denken dan papieren casussen. Op basis van de onderzoeksresultaten kunnen wij ons de vraag stellen of de verwerving van ziektescripts een voorwaarde is voor de verwerving van flexibiliteit of omgekeerd. Meer onderzoek is vereist om deze vraag op te lossen. Het vergelijken van de VDD-scores in dit onderzoek met de scores van studenten met meer of minder klinische ervaring kan de rol van de flexibiliteit van het denken en van de kennisstructuur in de ontwikkeling van het klinisch redeneren onthullen.

Indien de scores over de drie reeksen colleges werden samengenomen, vonden wij dat de correlaties met een probleemoplossingsgericht EM-examen laag maar significant waren (0.13-0.20). Sobral vond eveneens significante maar zwakke correlaties van 0.14-0.21 tussen DTI-score en examenuitslag en van 0.27-0.35 met de score op een probleemoplossingstoets.13 De lage correlaties in beide onderzoeken suggereren dat de DTI-metingen veeleer perceptie van probleemoplossen betreffen dan puur probleemoplossen. Indien de scores van de drie collegereeksen echter afzonderlijk beschouwd werden, waren de correlaties tussen VDD en examen zelden significant. De correlaties waren enigszins hoger in elke reeks. De studenten in de laatste reeks hadden intussen hun klinisch co-assistentschap volbracht. De toename van de correlaties zou dus een toename in klinische ervaring kunnen weerspiegelen. Over het geheel genomen werd de tweede hypothese eveneens bevestigd.

Dit onderzoek vertoont enkele methodologische tekorten. De retrospectieve perceptie van het proces van het stellen van een diagnose zou kunnen verschillen van het reële denkproces. Verder missen de VDD-subscores een hoge betrouwbaarheid.

Conclusie

De bevindingen van de eerste hypothese tonen aan dat de probleemoplossinggerichte klinische colleges gepaard gaan met een toename in VDD-scores. De resultaten van de tweede hypothese suggereren dat de EM-vragen een aspect van competentie meten dat verbonden is met het klinisch redeneren.