Skip to main content
Log in

Künstliche Intelligenz in der Augenheilkunde

Leitfaden für Ärzte zur kritischen Bewertung von Studien

Artificial intelligence in ophthalmology

Guidelines for physicians for the critical evaluation of studies

  • Leitthema
  • Published:
Der Ophthalmologe Aims and scope Submit manuscript

Zusammenfassung

Hintergrund

Empirische Modelle sind seit Einführung der SRK(Sanders-Retzlaff-Kraff)-Formel im klinischen Alltag der Augenheilkunde etabliert. Rezente Entwicklungen im Bereich des statistischen Lernens („künstliche Intelligenz“ [KI]) ermöglichen jetzt ein empirisches Vorgehen für vielfältigste ophthalmologische Fragestellungen bei bislang unerreichter Präzision.

Fragestellung

Welche Kriterien müssen für die Bewertung von Arbeiten zum Thema KI in der Augenheilkunde berücksichtigt werden?

Material und Methoden

Es erfolgen die beispielhafte Vorhersage des Visus (stetige Zielgröße) und Klassifikation von gesunden und kranken Augen (diskrete Zielgröße) anhand von retrospektiven optischen Kohärenztomographiebilddaten (50 Augen von 50 Patienten, 50 gesunde Augen von 50 Probanden). Die Daten wurden mit verschachtelter Kreuzvalidierung (zur Lernalgorithmusauswahl und Hyperparameteroptimierung) analysiert.

Ergebnisse

Durch verschachtelte Kreuzvalidierung ließ sich der Visus im separaten Testdatensatz mit einem mittleren absoluten Fehler (MAE, [95 %-CI, Konfidenzintervall]) von 0,142 LogMAR [0,077; 0,207] vorhersagen. Kranke und gesunde Augen ließen sich im Testdatensatz mit einer Konkordanz von (Kappa nach Cohen) 0,92 klassifizieren. Die beispielhafte inkorrekte Lernalgorithmus- und Variablenauswahl resultierte in einem MAE von 0,229 LogMAR [0,150; 0,309] für den Testdatensatz. Erst durch Vergleich mit dem MAE des Nullmodells (0,235 LogMAR [0,148; 0,322]) wurde die Überanpassung offensichtlich.

Schlussfolgerungen

Die Auswahl einer ungeeigneten Kennzahl für die Anpassungsgüte, inadäquate Validierung oder Unterschlagen eines Null- oder Referenzmodells kann die tatsächliche Anpassungsgüte von KI-Modellen verschleiern. Die illustrierten Fallstricke können Klinikern und Forschern helfen, solche Unzulänglichkeiten zu erkennen.

Abstract

Background

Empirical models have been an integral part of everyday clinical practice in ophthalmology since the introduction of the Sanders-Retzlaff-Kraff (SRK) formula. Recent developments in the field of statistical learning (artificial intelligence, AI) now enable an empirical approach to a wide range of ophthalmological questions with an unprecedented precision.

Objective

Which criteria must be considered for the evaluation of AI-related studies in ophthalmology?

Material and methods

Exemplary prediction of visual acuity (continuous outcome) and classification of healthy and diseased eyes (discrete outcome) using retrospectively compiled optical coherence tomography data (50 eyes of 50 patients, 50 healthy eyes of 50 subjects). The data were analyzed with nested cross-validation (for learning algorithm selection and hyperparameter optimization).

Results

Based on nested cross-validation for training, visual acuity could be predicted in the separate test data-set with a mean absolute error (MAE, 95% confidence interval, CI of 0.142 LogMAR [0.077; 0.207]). Healthy versus diseased eyes could be classified in the test data-set with an agreement of 0.92 (Cohen’s kappa). The exemplary incorrect learning algorithm and variable selection resulted in an MAE for visual acuity prediction of 0.229 LogMAR [0.150; 0.309] for the test data-set. The drastic overfitting became obvious on comparison of the MAE with the null model MAE (0.235 LogMAR [0.148; 0.322]).

Conclusion

Selection of an unsuitable measure of the goodness-of-fit, inadequate validation, or withholding of a null or reference model can obscure the actual goodness-of-fit of AI models. The illustrated pitfalls can help clinicians to identify such shortcomings.

This is a preview of subscription content, log in via an institution to check access.

Access this article

Price excludes VAT (USA)
Tax calculation will be finalised during checkout.

Instant access to the full article PDF.

Abb. 1
Abb. 2
Abb. 3
Abb. 4
Abb. 5

Literatur

  1. Altman DG, Bland JM (1994) Diagnostic tests 3: receiver operating characteristic plots. BMJ 309:188. https://doi.org/10.1136/bmj.309.6948.188

    Article  CAS  PubMed  PubMed Central  Google Scholar 

  2. Ambroise C, McLachlan GJ (2002) Selection bias in gene extraction on the basis of microarray gene-expression data. Proc Natl Acad Sci 99:6562–6566. https://doi.org/10.1073/pnas.102102699

    Article  CAS  PubMed  Google Scholar 

  3. Ayhan MS, Kuehlewein L, Aliyeva G et al (2019) Expert-validated estimation of diagnostic uncertainty for deep neural networks in diabetic retinopathy detection. medRxiv. https://doi.org/10.1101/19002154

    Book  Google Scholar 

  4. Bach M, Heinrich SP (2019) Acuity VEP: improved with machine learning. Doc Ophthalmol 139:113–122. https://doi.org/10.1007/s10633-019-09701-x

    Article  PubMed  Google Scholar 

  5. Berens P, Waldstein SM, Ayhan MS et al (2020) Potenzial von Methoden der künstlichen Intelligenz für die Qualitätssicherung. Ophthalmologe. https://doi.org/10.1007/s00347-020-01063-z

    Article  PubMed  Google Scholar 

  6. Bland JM, Altman DG (1986) Statistical methods for assessing agreement between two methods of clinical measurement. Lancet 1:307–310

    Article  CAS  Google Scholar 

  7. Bogunović H, Waldstein SM, Schlegl T et al (2017) Prediction of anti-VEGF treatment requirements in neovascular AMD using a machine learning approach. Invest Ophthalmol Vis Sci 58:3240–3248. https://doi.org/10.1167/iovs.16-21053

    Article  CAS  PubMed  Google Scholar 

  8. Collins GS, Moons KGM (2019) Reporting of artificial intelligence prediction models. Lancet 393:1577–1579. https://doi.org/10.1016/S0140-6736(19)30037-6

    Article  PubMed  Google Scholar 

  9. Collins GS, Reitsma JB, Altman DG, Moons KGM (2015) Transparent reporting of a multivariable prediction model for individual prognosis or diagnosis (TRIPOD): the TRIPOD statement. BMJ 350:g7594. https://doi.org/10.1136/bmj.g7594

    Article  PubMed  Google Scholar 

  10. Connell BJ, Kane JX (2019) Comparison of the Kane formula with existing formulas for intraocular lens power selection. BMJ, Open Ophthalmol https://doi.org/10.1136/bmjophth-2018-000251

    Book  Google Scholar 

  11. Davis J, Goadrich M (2006) The relationship between precision-recall and ROC curves. In: Proc. 23rd Int. Conf. Mach. Learn. Association for Computing Machinery,, New York, S 233–240

    Google Scholar 

  12. Decencière E, Zhang X, Cazuguel G et al (2014) Feedback on a publicly distributed image database: The messidor database. Image Anal Stereol 33:231–234. https://doi.org/10.5566/ias.1155

    Article  Google Scholar 

  13. Demšar J (2006) Statistical comparisons of classifiers over multiple data sets. J Mach Learn Res 7:1–30

    Google Scholar 

  14. Efron B, Hastie T (2016) Computer age statistical inference. Cambridge University Press, Cambridge

    Book  Google Scholar 

  15. von der Emde L, Pfau M, Dysli C et al (2019) Artificial intelligence for morphology-based function prediction in neovascular age-related macular degeneration. Sci Rep 9:11132. https://doi.org/10.1038/s41598-019-47565-y

    Article  CAS  PubMed  PubMed Central  Google Scholar 

  16. von der Emde L, Pfau M, Thiele S et al (2019) Mesopic and dark-adapted two-color fundus-controlled perimetry in choroidal neovascularization secondary to age-related macular degeneration. Transl Vis Sci Technol 8:7. https://doi.org/10.1167/tvst.8.1.7

    Article  PubMed  Google Scholar 

  17. Faes L, Liu X, Wagner SK et al (2020) A clinician’s guide to artificial intelligence: how to critically appraise machine learning studies. Transl Vis Sci Technol 9:7

    Article  Google Scholar 

  18. De Fauw J, Ledsam JR, Romera-Paredes B et al (2018) Clinically applicable deep learning for diagnosis and referral in retinal disease. Nat Med 24:1342–1350. https://doi.org/10.1038/s41591-018-0107-6

    Article  CAS  PubMed  Google Scholar 

  19. Fernández-Delgado M, Cernadas E, Barro S, Amorim D (2014) Do we need hundreds of classifiers to solve real world classification problems? J Mach Learn Res 15:3133–3181

    Google Scholar 

  20. Geman S, Bienenstock E, Doursat R (1992) Neural networks and the bias/variance dilemma. Neural Comput 4:1–58

    Article  Google Scholar 

  21. Goodfellow I, Bengio Y, Courville A (2016) Deep learning. MIT Press, Cambridge, MA

    Google Scholar 

  22. Gorgi Zadeh S, Wintergerst MWM, Wiens V et al (2017) CNNs enable accurate and fast segmentation of Drusen in optical coherence Tomography BT. In: Cardoso MJ, Arbel T, Carneiro G et al (Hrsg) Deep Learning in Medical Image Analysis and Multimodal Learning for Clinical Decision Support, Third International Workshop, DLMIA 2017, and 7th International Workshop, ML-CDS 2017, Held in Conjunction with MICCAI 2017, Québec City, QC, Canada, September 14, Proceedings, Springer, Cham, S 65–73

  23. Guyon I, Weston J, Barnhill S, Vapnik V (2002) Gene selection for cancer classification using support vector machines. Mach Learn 46:389–422. https://doi.org/10.1023/A:1012487302797

    Article  Google Scholar 

  24. Hastie T, Tibshirani R, Friedman J (2009) The elements of statistical learning: data mining, inference, and prediction. Springer, Berlin

    Book  Google Scholar 

  25. Hill DC, Sudhakar S, Hill CS et al (2017) Intraoperative aberrometry versus preoperative biometry for intraocular lens power selection in axial myopia. J Cataract Refract Surg 43:505–510

    Article  Google Scholar 

  26. James G, Witten D, Hastie T, Tibshirani R (2013) An introduction to statistical learning. Springer, Berlin

    Book  Google Scholar 

  27. Kihara Y, Heeren TFC, Lee CS et al (2019) Estimating retinal sensitivity using optical coherence Tomography with deep-learning algorithms in macular telangiectasia type 2. Jama Netw Open 2:e188029. https://doi.org/10.1001/jamanetworkopen.2018.8029

    Article  PubMed  PubMed Central  Google Scholar 

  28. Kuhn M, Johnson K (2013) Applied predictive modeling. Springer, Berlin

    Book  Google Scholar 

  29. LeCun Y, Bengio Y, Hinton G (2015) Deep learning. Nature 521:436–444. https://doi.org/10.1038/nature14539

    Article  CAS  PubMed  Google Scholar 

  30. Liu X, Faes L, Calvert MJ, Denniston AK (2019) Extension of the CONSORT and SPIRIT statements. Lancet 394:1225. https://doi.org/10.1016/S0140-6736(19)31819-7

    Article  PubMed  Google Scholar 

  31. Maloca PM, Lee AY, de Carvalho ER et al (2019) Validation of automated artificial intelligence segmentation of optical coherence tomography images. PLoS ONE 14:e220063

    Article  CAS  Google Scholar 

  32. Pfau M, von der Emde L, Dysli C et al (2020) Determinants of cone- and rod-function in geographic atrophy: aI-based structure-function correlation. Am J Ophthalmol. https://doi.org/10.1016/j.ajo.2020.04.003

    Article  PubMed  Google Scholar 

  33. Pfau M, Lindner M, Gliem M et al (2018) Mesopic and dark-adapted two-color fundus-controlled perimetry in patients with cuticular, reticular, and soft drusen. Eye 32:1819–1830. https://doi.org/10.1038/s41433-018-0183-3

    Article  PubMed  PubMed Central  Google Scholar 

  34. Pfau M, Lindner M, Goerdt L et al (2018) Prognostic value of shape-descriptive factors for the progression of geographic atrophy secondary to age-related macular degeneration. Retina 39:1527–1540. https://doi.org/10.1097/IAE.0000000000002206

    Article  Google Scholar 

  35. Pfau M, Moller PT, Kunzel SH et al (2019) Type 1 choroidal neovascularization is associated with reduced localized progression of atrophy in age-related macular degeneration. Ophthalmol Retin. https://doi.org/10.1016/j.oret.2019.09.016

    Article  Google Scholar 

  36. Pfau M, Müller PL, von der Emde L et al (2020) Mesopic and dark-adapted two-color fundus-controlled perimetry in geographic atrophy secondary to age-related macular degeneration. Retina 40:169–180. https://doi.org/10.1097/IAE.0000000000002337

    Article  PubMed  Google Scholar 

  37. Poplin R, Varadarajan AV, Blumer K et al (2018) Prediction of cardiovascular risk factors from retinal fundus photographs via deep learning. Nat Biomed Eng 2:158–164. https://doi.org/10.1038/s41551-018-0195-0

    Article  PubMed  Google Scholar 

  38. R Core Team (2019) R: a language and environment for statistical computing

    Google Scholar 

  39. Rohm M, Tresp V, Muller M et al (2018) Predicting visual acuity by using machine learning in patients treated for neovascular age-related macular degeneration. Ophthalmology 125:1028–1036. https://doi.org/10.1016/j.ophtha.2017.12.034

    Article  PubMed  Google Scholar 

  40. Ronneberger O, Fischer P, Brox T (2015) U‑net: convolutional networks for biomedical image segmentation. In: Navab N, Hornegger J, Wells WM, Frangi AF (Hrsg) Med. Image Comput. Comput. Interv.—MICCAI 2015. Springer, Cham, S 234–241

    Google Scholar 

  41. Samuel AL (1959) Some studies in machine learning using the game of checkers. IBM J Res Dev 3:210–229. https://doi.org/10.1147/rd.33.0210

    Article  Google Scholar 

  42. Sanders DR, Retzlaff J, Kraff MC (1983) Comparison of empirically derived and theoretical aphakic refraction formulas. Arch Ophthalmol 101:965–967. https://doi.org/10.1001/archopht.1983.01040010965024

    Article  CAS  PubMed  Google Scholar 

  43. Schmidt-Erfurth U, Bogunovic H, Sadeghipour A et al (2018) Machine learning to analyze the prognostic value of current imaging biomarkers in neovascular age-related macular degeneration. Ophthalmol Retin 2:24–30. https://doi.org/10.1016/j.oret.2017.03.015

    Article  Google Scholar 

  44. Schmidt-Erfurth U, Sadeghipour A, Gerendas BS et al (2018) Artificial intelligence in retina. Prog Retin Eye Res 67:1–29. https://doi.org/10.1016/j.preteyeres.2018.07.004

    Article  PubMed  Google Scholar 

  45. Tibshirani RJ, Tibshirani R (2009) A bias correction for the minimum error rate in cross-validation. Ann Appl Stat 3:822–829. https://doi.org/10.1214/08-AOAS224

    Article  Google Scholar 

  46. Ting DSW, Peng L, Varadarajan AV et al (2019) Deep learning in ophthalmology: The technical and clinical considerations. Prog Retin Eye Res 72:100759. https://doi.org/10.1016/j.preteyeres.2019.04.003

    Article  PubMed  Google Scholar 

  47. Varma S, Simon R (2006) Bias in error estimation when using cross-validation for model selection. Bmc Bioinform 7:91. https://doi.org/10.1186/1471-2105-7-91

    Article  CAS  Google Scholar 

  48. Wolpert DH (1996) The Lack of A Priori Distinctions Between Learning Algorithms. Neural Comput 8:1341–1390. https://doi.org/10.1162/neco.1996.8.7.1341

    Article  Google Scholar 

Download references

Danksagung

Wir danken Prof. Dr. Michael Bach für die detaillierte Begutachtung.

Förderung

Deutsche Forschungsgemeinschaft (DFG) Stipendium PF950/1‑1 an M. Pfau und MU4279/2‑1 an P.L. Müller. Wissenschaftspreis 2020 des Vereins Rheinisch-Westfälischer Augenärzte an M. Pfau. PRO RETINA-Stiftung Forschungsstipendium an L. von der Emde. BONFOR GEROK Programm, Medizinische Fakultät, Universität Bonn, Fördernummer O‑137.0028 (MWMW).

Author information

Authors and Affiliations

Authors

Corresponding author

Correspondence to Maximilian Pfau.

Ethics declarations

Interessenkonflikt

M. Pfau: Forschungsförderung von Carl Zeiss Meditec, Heidelberg Engineering, Optos, CenterVue. L. von der Emde: Forschungsförderung von Carl Zeiss Meditec, Heidelberg Engineering, Optos, CenterVue. M. Fleckenstein: Forschungsförderung von Novartis, Heidelberg Engineering. Beratung von Novartis, Roche/Genentech, Ophthalmo Update GmbH. Patent US20140303013A1 (application pending). K. Kortüm: Inhaber eyedata Deutschland GmbH. S.H. Künzel: Forschungsförderung von Carl Zeiss Meditec, Heidelberg Engineering, Optos, CenterVue. P.L. Müller: Forschungsförderung von Carl Zeiss Meditec, Heidelberg Engineering, Optos, CenterVue. P.M. Maloca: Berater Roche, Novartis, Bayer, Mediconsult, MIMO AG. S.M. Waldstein: Beratung für Novartis, Forschungsförderung von Bayer und Genentech. M.W.M. Wintergerst: Forschungsförderung von Carl Zeiss Meditec, Heidelberg Engineering, Optos, CenterVue. Finanzielle Unterstützung (Reisekostenerstattung) durch DigiSight Technologies, Heine Optotechnik GmbH, ASKIN & CO GmbH und Berlin-Chemie AG, Forschungsförderung von Heine Optotechnik und Berlin-Chemie AG, Bildgebungsgeräte von D‑EYE Srl, DigiSight Technologies und Heine Optotechnik GmbH, Berater von Heine Optotechnik GmbH, kostenlose Bildanalysen von Eyenuk Inc. S. Schmitz-Valckenberg: Forschungsförderung von Acucela, Alcon/Novartis, Allergan, Bayer, Bioeq/Formycon, Carl Zeiss Meditec CenterVue, Heidelberg Engineering, Katairo, Optos, Roche/Genentech, Topcon. Honorar als Referent von Alcon/Novartis, Bayer, Carl Zeiss Meditec, Heidelberg Engineering, Optos, Qunitiles, Roche/Genentech. Beratungstätigkeit Alcon/Novartis, Allergan, Bayer, Bioeq/Formycon, Galimedix, Genentech/Roche. R.P. Finger: Beratung und Forschungsförderung: Novartis; Beratung: Bayer, Roche/Genentech, Allergan, Alimera, Böhringer-Ingelheim, Opthea, Inositec, Ellex. F.G. Holz: Forschungsförderung und Beratung von Genentech/Roche, Bayer, Boehringer-Ingelheim, Novartis, Allergan, Heidelberg Engineering, Kanghong; Beratung von Apellis, Lin BioSience; Forschungsförderung von Nightstar, CenterVue, Optos, Acucela, Alcon; Advisory Boards: Acucela, Allergan, Avalanche, Bayer, Genentech, Heidelberg Engineering, Johnson & Johnson, Lin BioScience, Novartis, Ophthotech, Roche, Oxurion. G. Walther, P. Berens, L. Faes und T.F.C. Heeren geben an, dass kein Interessenkonflikt besteht.

Die Erhebung der Daten erfolgte nach Konsultation der zuständigen Ethikkommission und im Einklang mit nationalem Recht (Ethikvotum: 191/16).

Additional information

Anmerkung

Der Quelltext für die Analysen dieser Arbeit sowie die extrahierten Bildgebungsmerkmale und Visuswerte als Tabelle werden zur Nachvollziehbarkeit als Jupyter Notebook auf der GitHub-Seite des Erstautors veröffentlicht (https://github.com/maximilianpfau).

Rights and permissions

Reprints and permissions

About this article

Check for updates. Verify currency and authenticity via CrossMark

Cite this article

Pfau, M., Walther, G., von der Emde, L. et al. Künstliche Intelligenz in der Augenheilkunde. Ophthalmologe 117, 973–988 (2020). https://doi.org/10.1007/s00347-020-01209-z

Download citation

  • Published:

  • Issue Date:

  • DOI: https://doi.org/10.1007/s00347-020-01209-z

Schlüsselwörter

Keywords

Navigation