Zusammenfassung
Hintergrund
Empirische Modelle sind seit Einführung der SRK(Sanders-Retzlaff-Kraff)-Formel im klinischen Alltag der Augenheilkunde etabliert. Rezente Entwicklungen im Bereich des statistischen Lernens („künstliche Intelligenz“ [KI]) ermöglichen jetzt ein empirisches Vorgehen für vielfältigste ophthalmologische Fragestellungen bei bislang unerreichter Präzision.
Fragestellung
Welche Kriterien müssen für die Bewertung von Arbeiten zum Thema KI in der Augenheilkunde berücksichtigt werden?
Material und Methoden
Es erfolgen die beispielhafte Vorhersage des Visus (stetige Zielgröße) und Klassifikation von gesunden und kranken Augen (diskrete Zielgröße) anhand von retrospektiven optischen Kohärenztomographiebilddaten (50 Augen von 50 Patienten, 50 gesunde Augen von 50 Probanden). Die Daten wurden mit verschachtelter Kreuzvalidierung (zur Lernalgorithmusauswahl und Hyperparameteroptimierung) analysiert.
Ergebnisse
Durch verschachtelte Kreuzvalidierung ließ sich der Visus im separaten Testdatensatz mit einem mittleren absoluten Fehler (MAE, [95 %-CI, Konfidenzintervall]) von 0,142 LogMAR [0,077; 0,207] vorhersagen. Kranke und gesunde Augen ließen sich im Testdatensatz mit einer Konkordanz von (Kappa nach Cohen) 0,92 klassifizieren. Die beispielhafte inkorrekte Lernalgorithmus- und Variablenauswahl resultierte in einem MAE von 0,229 LogMAR [0,150; 0,309] für den Testdatensatz. Erst durch Vergleich mit dem MAE des Nullmodells (0,235 LogMAR [0,148; 0,322]) wurde die Überanpassung offensichtlich.
Schlussfolgerungen
Die Auswahl einer ungeeigneten Kennzahl für die Anpassungsgüte, inadäquate Validierung oder Unterschlagen eines Null- oder Referenzmodells kann die tatsächliche Anpassungsgüte von KI-Modellen verschleiern. Die illustrierten Fallstricke können Klinikern und Forschern helfen, solche Unzulänglichkeiten zu erkennen.
Abstract
Background
Empirical models have been an integral part of everyday clinical practice in ophthalmology since the introduction of the Sanders-Retzlaff-Kraff (SRK) formula. Recent developments in the field of statistical learning (artificial intelligence, AI) now enable an empirical approach to a wide range of ophthalmological questions with an unprecedented precision.
Objective
Which criteria must be considered for the evaluation of AI-related studies in ophthalmology?
Material and methods
Exemplary prediction of visual acuity (continuous outcome) and classification of healthy and diseased eyes (discrete outcome) using retrospectively compiled optical coherence tomography data (50 eyes of 50 patients, 50 healthy eyes of 50 subjects). The data were analyzed with nested cross-validation (for learning algorithm selection and hyperparameter optimization).
Results
Based on nested cross-validation for training, visual acuity could be predicted in the separate test data-set with a mean absolute error (MAE, 95% confidence interval, CI of 0.142 LogMAR [0.077; 0.207]). Healthy versus diseased eyes could be classified in the test data-set with an agreement of 0.92 (Cohen’s kappa). The exemplary incorrect learning algorithm and variable selection resulted in an MAE for visual acuity prediction of 0.229 LogMAR [0.150; 0.309] for the test data-set. The drastic overfitting became obvious on comparison of the MAE with the null model MAE (0.235 LogMAR [0.148; 0.322]).
Conclusion
Selection of an unsuitable measure of the goodness-of-fit, inadequate validation, or withholding of a null or reference model can obscure the actual goodness-of-fit of AI models. The illustrated pitfalls can help clinicians to identify such shortcomings.
Literatur
Altman DG, Bland JM (1994) Diagnostic tests 3: receiver operating characteristic plots. BMJ 309:188. https://doi.org/10.1136/bmj.309.6948.188
Ambroise C, McLachlan GJ (2002) Selection bias in gene extraction on the basis of microarray gene-expression data. Proc Natl Acad Sci 99:6562–6566. https://doi.org/10.1073/pnas.102102699
Ayhan MS, Kuehlewein L, Aliyeva G et al (2019) Expert-validated estimation of diagnostic uncertainty for deep neural networks in diabetic retinopathy detection. medRxiv. https://doi.org/10.1101/19002154
Bach M, Heinrich SP (2019) Acuity VEP: improved with machine learning. Doc Ophthalmol 139:113–122. https://doi.org/10.1007/s10633-019-09701-x
Berens P, Waldstein SM, Ayhan MS et al (2020) Potenzial von Methoden der künstlichen Intelligenz für die Qualitätssicherung. Ophthalmologe. https://doi.org/10.1007/s00347-020-01063-z
Bland JM, Altman DG (1986) Statistical methods for assessing agreement between two methods of clinical measurement. Lancet 1:307–310
Bogunović H, Waldstein SM, Schlegl T et al (2017) Prediction of anti-VEGF treatment requirements in neovascular AMD using a machine learning approach. Invest Ophthalmol Vis Sci 58:3240–3248. https://doi.org/10.1167/iovs.16-21053
Collins GS, Moons KGM (2019) Reporting of artificial intelligence prediction models. Lancet 393:1577–1579. https://doi.org/10.1016/S0140-6736(19)30037-6
Collins GS, Reitsma JB, Altman DG, Moons KGM (2015) Transparent reporting of a multivariable prediction model for individual prognosis or diagnosis (TRIPOD): the TRIPOD statement. BMJ 350:g7594. https://doi.org/10.1136/bmj.g7594
Connell BJ, Kane JX (2019) Comparison of the Kane formula with existing formulas for intraocular lens power selection. BMJ, Open Ophthalmol https://doi.org/10.1136/bmjophth-2018-000251
Davis J, Goadrich M (2006) The relationship between precision-recall and ROC curves. In: Proc. 23rd Int. Conf. Mach. Learn. Association for Computing Machinery,, New York, S 233–240
Decencière E, Zhang X, Cazuguel G et al (2014) Feedback on a publicly distributed image database: The messidor database. Image Anal Stereol 33:231–234. https://doi.org/10.5566/ias.1155
Demšar J (2006) Statistical comparisons of classifiers over multiple data sets. J Mach Learn Res 7:1–30
Efron B, Hastie T (2016) Computer age statistical inference. Cambridge University Press, Cambridge
von der Emde L, Pfau M, Dysli C et al (2019) Artificial intelligence for morphology-based function prediction in neovascular age-related macular degeneration. Sci Rep 9:11132. https://doi.org/10.1038/s41598-019-47565-y
von der Emde L, Pfau M, Thiele S et al (2019) Mesopic and dark-adapted two-color fundus-controlled perimetry in choroidal neovascularization secondary to age-related macular degeneration. Transl Vis Sci Technol 8:7. https://doi.org/10.1167/tvst.8.1.7
Faes L, Liu X, Wagner SK et al (2020) A clinician’s guide to artificial intelligence: how to critically appraise machine learning studies. Transl Vis Sci Technol 9:7
De Fauw J, Ledsam JR, Romera-Paredes B et al (2018) Clinically applicable deep learning for diagnosis and referral in retinal disease. Nat Med 24:1342–1350. https://doi.org/10.1038/s41591-018-0107-6
Fernández-Delgado M, Cernadas E, Barro S, Amorim D (2014) Do we need hundreds of classifiers to solve real world classification problems? J Mach Learn Res 15:3133–3181
Geman S, Bienenstock E, Doursat R (1992) Neural networks and the bias/variance dilemma. Neural Comput 4:1–58
Goodfellow I, Bengio Y, Courville A (2016) Deep learning. MIT Press, Cambridge, MA
Gorgi Zadeh S, Wintergerst MWM, Wiens V et al (2017) CNNs enable accurate and fast segmentation of Drusen in optical coherence Tomography BT. In: Cardoso MJ, Arbel T, Carneiro G et al (Hrsg) Deep Learning in Medical Image Analysis and Multimodal Learning for Clinical Decision Support, Third International Workshop, DLMIA 2017, and 7th International Workshop, ML-CDS 2017, Held in Conjunction with MICCAI 2017, Québec City, QC, Canada, September 14, Proceedings, Springer, Cham, S 65–73
Guyon I, Weston J, Barnhill S, Vapnik V (2002) Gene selection for cancer classification using support vector machines. Mach Learn 46:389–422. https://doi.org/10.1023/A:1012487302797
Hastie T, Tibshirani R, Friedman J (2009) The elements of statistical learning: data mining, inference, and prediction. Springer, Berlin
Hill DC, Sudhakar S, Hill CS et al (2017) Intraoperative aberrometry versus preoperative biometry for intraocular lens power selection in axial myopia. J Cataract Refract Surg 43:505–510
James G, Witten D, Hastie T, Tibshirani R (2013) An introduction to statistical learning. Springer, Berlin
Kihara Y, Heeren TFC, Lee CS et al (2019) Estimating retinal sensitivity using optical coherence Tomography with deep-learning algorithms in macular telangiectasia type 2. Jama Netw Open 2:e188029. https://doi.org/10.1001/jamanetworkopen.2018.8029
Kuhn M, Johnson K (2013) Applied predictive modeling. Springer, Berlin
LeCun Y, Bengio Y, Hinton G (2015) Deep learning. Nature 521:436–444. https://doi.org/10.1038/nature14539
Liu X, Faes L, Calvert MJ, Denniston AK (2019) Extension of the CONSORT and SPIRIT statements. Lancet 394:1225. https://doi.org/10.1016/S0140-6736(19)31819-7
Maloca PM, Lee AY, de Carvalho ER et al (2019) Validation of automated artificial intelligence segmentation of optical coherence tomography images. PLoS ONE 14:e220063
Pfau M, von der Emde L, Dysli C et al (2020) Determinants of cone- and rod-function in geographic atrophy: aI-based structure-function correlation. Am J Ophthalmol. https://doi.org/10.1016/j.ajo.2020.04.003
Pfau M, Lindner M, Gliem M et al (2018) Mesopic and dark-adapted two-color fundus-controlled perimetry in patients with cuticular, reticular, and soft drusen. Eye 32:1819–1830. https://doi.org/10.1038/s41433-018-0183-3
Pfau M, Lindner M, Goerdt L et al (2018) Prognostic value of shape-descriptive factors for the progression of geographic atrophy secondary to age-related macular degeneration. Retina 39:1527–1540. https://doi.org/10.1097/IAE.0000000000002206
Pfau M, Moller PT, Kunzel SH et al (2019) Type 1 choroidal neovascularization is associated with reduced localized progression of atrophy in age-related macular degeneration. Ophthalmol Retin. https://doi.org/10.1016/j.oret.2019.09.016
Pfau M, Müller PL, von der Emde L et al (2020) Mesopic and dark-adapted two-color fundus-controlled perimetry in geographic atrophy secondary to age-related macular degeneration. Retina 40:169–180. https://doi.org/10.1097/IAE.0000000000002337
Poplin R, Varadarajan AV, Blumer K et al (2018) Prediction of cardiovascular risk factors from retinal fundus photographs via deep learning. Nat Biomed Eng 2:158–164. https://doi.org/10.1038/s41551-018-0195-0
R Core Team (2019) R: a language and environment for statistical computing
Rohm M, Tresp V, Muller M et al (2018) Predicting visual acuity by using machine learning in patients treated for neovascular age-related macular degeneration. Ophthalmology 125:1028–1036. https://doi.org/10.1016/j.ophtha.2017.12.034
Ronneberger O, Fischer P, Brox T (2015) U‑net: convolutional networks for biomedical image segmentation. In: Navab N, Hornegger J, Wells WM, Frangi AF (Hrsg) Med. Image Comput. Comput. Interv.—MICCAI 2015. Springer, Cham, S 234–241
Samuel AL (1959) Some studies in machine learning using the game of checkers. IBM J Res Dev 3:210–229. https://doi.org/10.1147/rd.33.0210
Sanders DR, Retzlaff J, Kraff MC (1983) Comparison of empirically derived and theoretical aphakic refraction formulas. Arch Ophthalmol 101:965–967. https://doi.org/10.1001/archopht.1983.01040010965024
Schmidt-Erfurth U, Bogunovic H, Sadeghipour A et al (2018) Machine learning to analyze the prognostic value of current imaging biomarkers in neovascular age-related macular degeneration. Ophthalmol Retin 2:24–30. https://doi.org/10.1016/j.oret.2017.03.015
Schmidt-Erfurth U, Sadeghipour A, Gerendas BS et al (2018) Artificial intelligence in retina. Prog Retin Eye Res 67:1–29. https://doi.org/10.1016/j.preteyeres.2018.07.004
Tibshirani RJ, Tibshirani R (2009) A bias correction for the minimum error rate in cross-validation. Ann Appl Stat 3:822–829. https://doi.org/10.1214/08-AOAS224
Ting DSW, Peng L, Varadarajan AV et al (2019) Deep learning in ophthalmology: The technical and clinical considerations. Prog Retin Eye Res 72:100759. https://doi.org/10.1016/j.preteyeres.2019.04.003
Varma S, Simon R (2006) Bias in error estimation when using cross-validation for model selection. Bmc Bioinform 7:91. https://doi.org/10.1186/1471-2105-7-91
Wolpert DH (1996) The Lack of A Priori Distinctions Between Learning Algorithms. Neural Comput 8:1341–1390. https://doi.org/10.1162/neco.1996.8.7.1341
Danksagung
Wir danken Prof. Dr. Michael Bach für die detaillierte Begutachtung.
Förderung
Deutsche Forschungsgemeinschaft (DFG) Stipendium PF950/1‑1 an M. Pfau und MU4279/2‑1 an P.L. Müller. Wissenschaftspreis 2020 des Vereins Rheinisch-Westfälischer Augenärzte an M. Pfau. PRO RETINA-Stiftung Forschungsstipendium an L. von der Emde. BONFOR GEROK Programm, Medizinische Fakultät, Universität Bonn, Fördernummer O‑137.0028 (MWMW).
Author information
Authors and Affiliations
Corresponding author
Ethics declarations
Interessenkonflikt
M. Pfau: Forschungsförderung von Carl Zeiss Meditec, Heidelberg Engineering, Optos, CenterVue. L. von der Emde: Forschungsförderung von Carl Zeiss Meditec, Heidelberg Engineering, Optos, CenterVue. M. Fleckenstein: Forschungsförderung von Novartis, Heidelberg Engineering. Beratung von Novartis, Roche/Genentech, Ophthalmo Update GmbH. Patent US20140303013A1 (application pending). K. Kortüm: Inhaber eyedata Deutschland GmbH. S.H. Künzel: Forschungsförderung von Carl Zeiss Meditec, Heidelberg Engineering, Optos, CenterVue. P.L. Müller: Forschungsförderung von Carl Zeiss Meditec, Heidelberg Engineering, Optos, CenterVue. P.M. Maloca: Berater Roche, Novartis, Bayer, Mediconsult, MIMO AG. S.M. Waldstein: Beratung für Novartis, Forschungsförderung von Bayer und Genentech. M.W.M. Wintergerst: Forschungsförderung von Carl Zeiss Meditec, Heidelberg Engineering, Optos, CenterVue. Finanzielle Unterstützung (Reisekostenerstattung) durch DigiSight Technologies, Heine Optotechnik GmbH, ASKIN & CO GmbH und Berlin-Chemie AG, Forschungsförderung von Heine Optotechnik und Berlin-Chemie AG, Bildgebungsgeräte von D‑EYE Srl, DigiSight Technologies und Heine Optotechnik GmbH, Berater von Heine Optotechnik GmbH, kostenlose Bildanalysen von Eyenuk Inc. S. Schmitz-Valckenberg: Forschungsförderung von Acucela, Alcon/Novartis, Allergan, Bayer, Bioeq/Formycon, Carl Zeiss Meditec CenterVue, Heidelberg Engineering, Katairo, Optos, Roche/Genentech, Topcon. Honorar als Referent von Alcon/Novartis, Bayer, Carl Zeiss Meditec, Heidelberg Engineering, Optos, Qunitiles, Roche/Genentech. Beratungstätigkeit Alcon/Novartis, Allergan, Bayer, Bioeq/Formycon, Galimedix, Genentech/Roche. R.P. Finger: Beratung und Forschungsförderung: Novartis; Beratung: Bayer, Roche/Genentech, Allergan, Alimera, Böhringer-Ingelheim, Opthea, Inositec, Ellex. F.G. Holz: Forschungsförderung und Beratung von Genentech/Roche, Bayer, Boehringer-Ingelheim, Novartis, Allergan, Heidelberg Engineering, Kanghong; Beratung von Apellis, Lin BioSience; Forschungsförderung von Nightstar, CenterVue, Optos, Acucela, Alcon; Advisory Boards: Acucela, Allergan, Avalanche, Bayer, Genentech, Heidelberg Engineering, Johnson & Johnson, Lin BioScience, Novartis, Ophthotech, Roche, Oxurion. G. Walther, P. Berens, L. Faes und T.F.C. Heeren geben an, dass kein Interessenkonflikt besteht.
Die Erhebung der Daten erfolgte nach Konsultation der zuständigen Ethikkommission und im Einklang mit nationalem Recht (Ethikvotum: 191/16).
Additional information
Anmerkung
Der Quelltext für die Analysen dieser Arbeit sowie die extrahierten Bildgebungsmerkmale und Visuswerte als Tabelle werden zur Nachvollziehbarkeit als Jupyter Notebook auf der GitHub-Seite des Erstautors veröffentlicht (https://github.com/maximilianpfau).
Rights and permissions
About this article
Cite this article
Pfau, M., Walther, G., von der Emde, L. et al. Künstliche Intelligenz in der Augenheilkunde. Ophthalmologe 117, 973–988 (2020). https://doi.org/10.1007/s00347-020-01209-z
Published:
Issue Date:
DOI: https://doi.org/10.1007/s00347-020-01209-z