, Volume 44, Issue 9, pp 924-928

Testing the raters: inter-rater reliability of standardized anaesthesia simulator performance

Abstract

Purpose

Assessment of physician performance has been a subjective process. An anaesthesia simulator could be used for a more structured and standardized evaluation but its reliability for this purpose is not known. We sought to determine if observers witnessing the same event in an anaesthesia simulator would agree on their rating of anaesthetist performance.

Methods

The study had the approval of the research ethics board. Two one-hour clinical scenarios were developed, each containing five anaesthetic problems. For each problem, a rating scale defined the appropriate score (no response to the situation: score=0; compensating intervention defined as physiological correction: score= 1; corrective treatment: defined as definitive therapy score=2). Video tape recordings, for assessment of inter-rater reliability, were generated through role-playing with recording of the two scenarios three times each resulting in a total of 30 events to be evaluated. Two clinical anaesthetists, uninvolved in the development of the study and the clinical scenarios, reviewed and scored each of the 30 problems independently. The scores produced by the two observers were compared using the kappa statistic of agreement.

Results

The raters were in complete agreement on 29 of the 30 items. There was excellent inter-rater reliability (=0.96, P < 0.001).

Conclusion

The use of videotapes allowed the scenarios to be scored by reproducing the same event for each observer. There was excellent inter-rater agreement within the confines of the study. Rating of video recordings of anaesthetist performance in a simulation setting can be used for scoring of performance. The validity of the scenarios and the scoring system for assessing clinician performance have yet to be determined.

Résumé

Objectif

En médecine, 1’évaluation de la performance demeure subjective. En anesthésie, un simulateur peut être utilisé pour foumir une évaluation mieux structure et standardisée mais on n’en connaît pas la fiabilité. Nous avons cherché à déterminer si, en anesthésie, les observateurs d’un phénomène simulé pouvaient s’entendre sur leur appréciation de la performance de I’anesthesiste.

Methodes

Le comité d’éthique avait approuvé cette étude. Deux scénarios cliniques d’une durée d’une heure comportant cinq problèmes anesthésiques ont été élaborés. Une échelle de cotation accordant un score à chacun (aucune réponse à ta situation =0, une intervention déftnie comme une correction physiologique = 1; une intervention thérapeutique considérée comme le traitement défmitif = 2). Des enregistrements sur vidéocassettes ont servi à évaluer la concordance entre les évaluateurs. Ces enregistrements témoignaient du rôle joué pendant les deux scénarios exécutés trois fois pour un total de 30 événements. Deux anesthésistes, ignorant le déroulement de l’étude et le contenu des scénanos, ont révisé et coté indépendamment les 30 problèmes. Les deux observateurs ont comparé les scores obtenus à l’aide de la méthode statistique d’accord kappa.

Résultats

Les évaluateurs s’accordaient completement sur 29 des 30 sujets. La fiabilité entre évaluateurs était excellente (=0.96, P < 0,001).

Conclusion

L’utilisation des vidéocassettes a permis de coter les scénanos en reproduisant le même événement devant chacun des observateurs. Dans le cadre de l’étude, l’accord entre les évaluateurs était excellent. On peut utiliser 1’évaluation de (a performance d’un anesthésiste à l’aide d’enregistrements sur vidéocassette au cours d’une simulation. La validite des scénarios et du système de cotation reste à déterminer.