Skip to main content

Von zeichenketten- zu vektorbasierten Verfahren zur Bewertung der Qualität von Systemen zur maschinellen Übersetzung und von maschinell übersetzten Texten

  • Chapter
  • First Online:
Übersetzen im Wandel

Zusammenfassung

Der vorliegende Beitrag befasst sich mit Verfahren zur automatischen Qualitätsbewertung von Systemen zur maschinellen Übersetzung (MÜ) und von maschinell übersetzten Texten. Zu Beginn des Beitrags wird zunächst kurz die praktische Relevanz der MÜ-Qualitätsbewertung im professionellen MÜ-gestützten Fachübersetzungsprozess diskutiert und die entsprechende MÜ-bezogene Teilkompetenz im Professional Machine Translation Literacy Framework von Krüger (2022) verortet. Nach einer kurzen Gesamtbetrachtung des Feldes der MÜ-Qualitätsbewertung werden dann zunächst einige gängige zeichenkettenbasierte Bewertungsverfahren diskutiert. Im Anschluss werden die technischen Grundlagen vektorbasierter Verfahren zur MÜ-Qualitätsbewertung erläutert, die Progression von traditionellen zeichenketten- zu modernen vektorbasierten Verfahren zur MÜ-Qualitätsbewertung skizziert und die grundlegenden Unterschiede zwischen den beiden Ansätzen herausgearbeitet. Zum Abschluss des Beitrags wird die potenziell höhere Leistungsfähigkeit dieser vektorbasierten Verfahren anhand einiger fachübersetzungsrelevanter Beispiele in der Übersetzungsrichtung Englisch → Deutsch illustriert.

This is a preview of subscription content, log in via an institution to check access.

Access this chapter

eBook
USD 24.99
Price excludes VAT (USA)
  • Available as EPUB and PDF
  • Read on any device
  • Instant download
  • Own it forever
Softcover Book
USD 34.99
Price excludes VAT (USA)
  • Compact, lightweight edition
  • Free shipping worldwide - see info

Tax calculation will be finalised at checkout

Purchases are for personal use only

Institutional subscriptions

Notes

  1. 1.

    Ich unterscheide an dieser Stelle bewusst zwischen einer Qualitätsbewertung von Systemen zur maschinellen Übersetzung und einer Qualitätsbewertung des von solchen Systemen erzeugten Outputs, um zu Beginn der Diskussion einmal deutlich zu machen, dass ein maschinell übersetzter Text in bestimmen Anwendungsszenarien lediglich als Indikator für die MÜ-Systemqualität dient (beispielsweise im Rahmen der MÜ-Systementwicklung) und der Fokus der Qualitätsbewertung demnach auf dem MÜ-System liegt, in anderen Szenarien dagegen einem solchen Text ein von dem MÜ-System losgelöster Verwendungszweck zukommt (z. B. die Steigerung der Übersetzungsproduktivität durch ein Post-Editing dieses Textes) und der Fokus der Qualitätsbewertung demnach auf diesem Text liegt. Selbstverständlich sind diese beiden Betrachtungen eng miteinander verknüpft, denn von einem qualitativ hochwertigen MÜ-System ist – eine gute Passung zwischen den Trainingsdaten dieses Systems und den damit zu übersetzenden Texten vorausgesetzt – i. d. R. auch ein entsprechend hochwertiger Output zu erwarten. Nachdem ich hier einmal auf diese potenziell unterschiedlichen Perspektiven hingewiesen habe, werde ich sie im Folgenden unter dem Ausdruck MÜ-Qualitätsbewertung zusammenfassen.

  2. 2.

    Auch wenn dieser Zusammenhang zwischen Qualität des MÜ-Outputs und Post-Editing-Aufwand/Übersetzungsproduktivität keinesfalls linear ist, vgl. ausführlicher hierzu Zouhar et al. (2021: 10212).

  3. 3.

    Die Jupyter Notebooks sind in folgendem GitHub-Repository verfügbar: https://github.com/ITMK/MT_Teaching.

  4. 4.

    Die Lernressourcen des DataLitMT-Projekts sind unter folgendem Link verfügbar: https://itmk.github.io/The-DataLitMT-Project/.

  5. 5.

    Das Post-Editing von maschinell übersetzten Texten mit anschließender HTER-Berechnung ist streng genommen eine Mischform zwischen manueller und automatischer MÜ-Qualitätsbewertung, da die Berechnung der Human-Targeted Translation Edit Rate ein rein maschineller Prozess ist (der aber wohl eine vorgelagerte menschliche Handlung in Form eines Post-Editings voraussetzt). Die Translation Edit Rate wird in Abschn. 3.1 noch ausführlicher besprochen.

  6. 6.

    Verfahren zur manuellen MÜ-Qualitätsbewertung werden u. a. in Koehn (2010: 218 ff.) und in Koehn (2020: 45 ff.) ausführlich erörtert. Im aktuellen Beitrag komme ich in Abschn. 4.3 im Kontext von vektorbasierten Verfahren zur MÜ-Qualitätsbewertung, die menschliche Qualitätsurteile berücksichtigen, noch einmal darauf zu sprechen.

  7. 7.

    Vektorbasierte Verfahren zur automatischen MÜ-Qualitätsprognose werden in Abschn. 5 zur Leistungsfähigkeit moderner MÜ-Qualitätsbewertungsverfahren im Kontext der Fachübersetzung noch einmal aufgegriffen.

  8. 8.

    Als Begleitdokumentation zu den folgenden Ausführungen kann das Jupyter Notebook „MT Quality Score Calculator for Metrics Based on String Matching“ gelesen werden, das unter folgendem Link verfügbar ist: https://colab.research.google.com/drive/19Mub2IJV6SoyuvvsyjSeaGiSQ1q433jD?usp=sharing (vgl. auch Krüger 2021a). Das Notebook enthält detailliertere Informationen zur Funktionsweise unterschiedlicher Textproximitätsmaße sowie Funktionen zur Berechnung dieser Maße für beliebige MÜ-Output-Referenzübersetzungspaare.

  9. 9.

    Wird eine solche Referenzübersetzung als Goldstandard zugrunde gelegt, so ist die automatische MÜ-Qualitätsbewertung natürlich unmittelbar abhängig von der Qualität dieser Referenzübersetzung (u. a. Federmann et al. 2022: 22).

  10. 10.

    Von Translation Edit Rate (TER) wird i. d. R. gesprochen, wenn die Referenzübersetzung bereits unabhängig von dem MÜ-Output vorliegt und dann die Distanz zwischen den beiden Zeichenketten gemessen wird. Von der Human-Targeted Translation Edit Rate (HTER) wird i. d. R. dann gesprochen, wenn die Referenzübersetzung nicht unabhängig von dem MÜ-Output vorliegt, sondern erst durch das Post-Editing dieses Outputs entsteht.

  11. 11.

    Distanzmaße werden bisweilen auch als Unähnlichkeitsmaße bezeichnet (Weitz 2017: 23).

  12. 12.

    Eine hohe Korrelation zwischen einem automatischen MÜ-Qualitätsscore und menschlichen Qualitätsurteilen für einen gegebenen MÜ-Output gilt als Gütesiegel für die Fähigkeit dieses Scores, die Qualität des MÜ-Outputs korrekt zu bewerten (u. a. Koehn 2021: 229 ff.).

  13. 13.

    Als Begleitdokumentation zu den folgenden Ausführungen kann das Jupyter Notebook „Understanding Word Embeddings for Neural Machine Translation – Fundamentals“ gelesen werden, das unter folgendem Link verfügbar ist: https://colab.research.google.com/drive/1UUteTlvULD8mSh94Hd6pmL5OudP8l9bc?usp=sharing (vgl. auch Krüger 2021a). Das Notebook enthält detailliertere Informationen zur Funktionsweise von Wortvektoren sowie Funktionen zur Erzeugung eigener Wortvektoren für beliebige Wörter, zur Visualisierung von solchen Vektoren sowie zur Ermittlung semantischer Ähnlichkeiten zwischen verschiedenen Wortvektoren.

  14. 14.

    Als Begleitdokumentation zu den folgenden Ausführungen zu vektorbasierten MÜ-Qualitätsbewertungsverfahren kann das Jupyter Notebook „MT Quality Score Calculator for Embedding-Based Metrics“ gelesen werden, das unter folgendem Link verfügbar ist: https://colab.research.google.com/drive/1pK479-xhDSDHrJA4OTfU1tXV6Pwp_G4f?usp=sharing (vgl. auch Krüger 2021a). Das Notebook enthält detailliertere Informationen zur Funktionsweise vektorbasierter Verfahren sowie eine Implementierung von BERTScore (vgl. Abschn. 4.2) und von COMET (vgl. Abschn. 4.3) mit der Möglichkeit, eigene Scores für beliebige MÜ-Output-/Referenzpaare zu berechnen.

  15. 15.

    Vgl. zum Unterschied zwischen dekontextualisierten und kontextualisierten Word Embeddings auch die populärwissenschaftlichen Erläuterungen in Krüger (2021b: 283 ff.).

  16. 16.

    Recall, Precision und F-Measure werden in dem bereits verlinkten Notebook „MT Quality Score Calculator for Metrics Based on String Matching“ genauer erläutert.

  17. 17.

    Da bei dem obigen Beispiel für BLEU lediglich eine 1-Gramm-Übereinstimmung in Form des Fragezeichens und darüber hinaus keine Zwei-, Drei- oder Vierwortübereinstimmung vorhanden ist, greift hier ein Glättungsalgorithmus, der verhindert, dass der gesamte BLEU-Score in diesem Fall auf 0 fällt. Dieses Verfahren wird in dem bereits verlinkten Jupyter Notebook „MT Quality Score Calculator for Metrics Based on String Matching“ genauer erläutert. Mit diesem Notebook kann auch die BLEU- und TER-Berechnung für das obige MÜ-Output-/Referenzpaar nachvollzogen werden.

  18. 18.

    Die BERTScore-Berechnung kann anhand des bereits verlinkten Jupyter Notebooks „MT Quality Score Calculator for Embedding-Based Metrics“ nachvollzogen werden.

  19. 19.

    Der Output von MÜ-Systemen wird in der MÜ-Forschung häufig als hypothesis (wie in Abb. 7) oder als candidate translation (wie in Abb. 6) bezeichnet.

  20. 20.

    In dem linken COMET-Modell in Abb. 7 wurde zunächst ein Basismodell auf Grundlage von Direct-Assessment-Bewertungen vortrainiert und dieses Basismodell dann anhand von MQM-Bewertungen feinjustiert (Rei et al. 2021: 1030).

  21. 21.

    In dem ursprünglichen COMET-Paper von Rei et al. (2020) wurde als eine Quelle für menschliche Qualitätsurteile noch das QT21-Korpus bestehend aus Ausgangssätzen, menschlichen Referenzübersetzungen, maschinellen Übersetzungen und posteditierten Referenzübersetzungen genutzt, HTER-Scores für maschinelle Übersetzung und posteditierte Referenzübersetzung berechnet und anhand dieser Datenbasis dann ein Estimator-Modell trainiert (ebd.: 2688). In der aktuellen COMET-Übersicht in Unbabel (2020) ist dieses Modell nicht mehr zu finden, daher ist es in Abb. 7 als „frühes COMET-Modell“ aufgeführt.

  22. 22.

    Die hier diskutierten Referenzübersetzungen sind das Ergebnis eines Post-Editings des ursprünglichen DeepL-Outputs. Dabei habe ich sämtliche Defekte aus der DeepL-Übersetzung mit Ausnahme des jeweils fokussierten Phänomens übernommen (in Beispiel 1 konkret: „In diesem Bericht wird … erzählt“), um sicherzustellen, dass mögliche Unterschiede zwischen den COMET-Qualitätsprognosescores auf dieses Phänomen und nicht auf mögliche weitere Optimierungen an dem DeepL-Output zurückzuführen sind.

  23. 23.

    Die Scores sind hier relativ zueinander und nicht absolut auf einer Skala von 0 bis 1 zu interpretieren. Weitere Informationen zur Interpretation der verschiedenen COMET-Scores finden sich unter folgendem Link: https://unbabel.github.io/COMET/html/faqs.html.

  24. 24.

    Allerdings haben die COMET-Erfinder vor diesem Hintergrund mit COMETinho bereits ein kleineres Modell entwickelt, das ohne nennenswerte Qualitätseinbuße um das 19-fache schneller arbeitet als das COMET-Basismodell (Rei et al. 2021: 1030).

  25. 25.

    In jüngster Zeit wurden zudem Studien vorgelegt, die mit Blick auf die emergenten Eigenschaften von Large Language Models wie beispielsweise den GPT-Modellen zeigen, dass solche universellen Modelle – ebenso wie Spezialmodelle wie BERTScore oder COMET – grundsätzlich auch zu einer automatischen Qualitätsbewertung von Texten im Allgemeinen (GPTScore, Fu et al. 2023) oder von (maschinell) übersetzten Texten im Speziellen (GEMBA, GPT Estimation Metric Based Assessment, Kocmi und Federmann 2023) in der Lage sind. Hochperformante Large Languge Models werden in Zukunft angesichts ihrer vielfältigen sprachbezogenen Fähigkeiten sicherlich noch einmal zu einer umfangreichen Neukonfiguration der Mensch-Maschine/KI-Interaktion im rechnergestützten Fachübersetzungsprozess führen.

Literatur

  • Amrhein, C., Sennrich, R.: Identifying weaknesses in machine translation metrics through minimum Bayes risk decoding: A case study for COMET. In: He, Y., Ji, H., Li, S., Liu, Y., Chang, C.-H. (Hrsg.) Proceedings of the 2nd Conference of the Asia-Pacific Chapter of the Association for Computational Linguistics and the 12th International Joint Conference on Natural Language Processing (Volume 1: Long Papers), 1125–1141. Association for Computational Linguistics (2022).

    Google Scholar 

  • Bannerjee, S., Lavie, A.: METEOR: An automatic metric for MT evaluation with improved correlation with human judgements. In: Goldstein, J., Lavie, A., Lin, C.-Y., Voss, C. (Hrsg.): Proceedings of the ACL Workshop on Intrinsic and Extrinsic Evaluation Measures for Machine Translation and/or Summarization, 65–72. Association for Computational Linguistics (2005).

    Google Scholar 

  • Bentivogli, L., Bisazza, A., Cettolo, M., Federico, M.: Neural versus phrase-based machine translation quality: A case study. In: Su, J., Duh, K., Carreras, X. (Hrsg.) Proceedings of the 2016 Conference on Empirical Methods in Natural Language Processing, 257–267. Association for Computational Linguistics (2016).

    Google Scholar 

  • Bowker, L., Ciro, J. B.: Machine Translation and Global Research: Towards Improved Machine Translation Literacy in the Scholarly Community. Emerald Publishing, Bingley (2019).

    Google Scholar 

  • Conneau, A., Khandelwal, K., Goyal, N., Chaudhary, V., Wenzek, G., Guzmán, F., Grave, E., Ott, M., Zettlemoyer, L., Stoyanov, V.: Unsupervised cross-lingual representation learning at scale. In: Jurafsky, D., Chai, J., Schluter, N., Tetreault, J. (Hrsg.) Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics, 8440–8451. Association for Computational Linguistics (2020).

    Google Scholar 

  • Denkowski, M., Lavie, A.: Meteor Universal: Language specific translation evaluation for any target language. In: Bojar, O., Buck, C., Federmann, C., Haddow, B., Koehn, P., Monz, C., Post, M., Specia, L. (Hrsg.) Proceedings of the Ninth Workshop on Statistical Machine Translation, 376–380. Association for Computational Linguistics (2014).

    Google Scholar 

  • Devlin, J., Chang, M.-W., Lee, K., Toutanova, K.: BERT: Pre-training of deep bidirectional transformers for language understanding. In: Burstein, J., Doran, C., Solorio, T. (Hrsg.) Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long and Short Papers), 4171–4186. Association for Computational Linguistics (2019).

    Google Scholar 

  • ELIS Research: European language industry survey 2022, https://elis-survey.org, letzter Zugriff: 24.01.2023.

  • EU Institutions: EU host paper: New technologies and artificial intelligence in the field of language and conference services (2019), https://ec.europa.eu/education/knowledge-centre-interpretation/en/news/eu-host-paper-new-technologies-and-artificial-intelligence-field-language-and-conference, letzter Zugriff: 24.01.2023.

  • Federmann, C., Kocmi, T., Xin, Y.: NTREX-128 – News test references for MT evaluation of 128 languages. In: Ahuja, K., Anastasopoulos, A., Patra, B., Neubig, G., Choudhury, M., Dandapat, S., Sitaram, S., Chaudhary, V. (Hrsg.) Proceedings of the First Workshop on Scaling Up Multilingual Evaluation, 21–24. Association for Computational Linguistics (2022).

    Google Scholar 

  • Freitag, M., Rei, R., Mathur, N., Lo, C.-k., Stewart, C., Foster, G., Lavie, A., Bojar, O.: Results of the WMT21 metrics shared task: Evaluating metrics with expert-based human evaluations on TED and news domain. In: Barrault, L., Bojar, O., Bougares, F., Chatterjee, R., Costa-jussa, M. R., Federmann, C., Fishel, M., Fraser, A., Freitag, M., Graham, Y., Grundkiewicz, R., Guzman, P., Haddow, B., Huck, M., Jimeno Yepes, A., Koehn, P., Kocmi, T., Martins, A., Morishita, M., Monz, C. (Hrsg.) Proceedings of the Sixth Conference on Machine Translation, 733–774. Association for Computational Linguistics (2021).

    Google Scholar 

  • Fu, J., Ng, S.-K., Jiang, Z., Liu, P.: GPTScore: Evaluate as you desire. arXiv (2023).

    Google Scholar 

  • Göpferich, S.: Textsorten in Naturwissenschaften und Technik. Pragmatische Typologie – Kontrastierung – Translation. Narr, Tübingen (1995).

    Google Scholar 

  • Göpferich, S.: Textproduktion im Zeitalter der Globalisierung. Entwicklung einer Didaktik des Wissenstransfers. Narr, Tübingen (2002).

    Google Scholar 

  • Kirchner, G.: Insights from gathering MT productivity metrics at scale. In: Martins, A., Moniz, H., Fumega, S., Martins, B., Batista, F., Coheur, L., Parra, C., Trancoso, I., Turchi, M., Bisazza, A., Moorkens, J., Guerberof, A., Nurminen, M., Marg, L., Forcada, M. L. (Hrsg.) Proceedings of the 22nd Annual Conference of the European Association for Machine Translation, 353–362. European Association for Machine Translation (2020).

    Google Scholar 

  • Kit, C., Wong, B. T.-M.: Evaluation in machine translation and computer-aided translation. In: Chan, S.-W. (Hrsg.) The Routledge Encyclopedia of Translation Technology, 213–236. Routledge, London/New York (2015).

    Google Scholar 

  • Kocmi, T., Federmann, C.: Large language models are state-of-the-art evaluators of translation quality. arXiv (2023).

    Google Scholar 

  • Koehn, P.: Statistical Machine Translation. University Press, Cambridge (2010).

    Google Scholar 

  • Koehn, P.: Neural Machine Translation. University Press, Cambridge (2020).

    Book  Google Scholar 

  • Krüger, R.: An online repository of Python resources for teaching machine translation to translation students. Current Trends in Translation Teaching and Learning E, 4–30 (2021a).

    Google Scholar 

  • Krüger, R.: Die Transformer-Architektur für Systeme zur neuronalen maschinellen Übersetzung – eine popularisierende Darstellung. trans-kom 14(2), 278–324 (2021b).

    Google Scholar 

  • Krüger, R.: Integrating professional machine translation literacy and data literacy. Lebende Sprachen 67(2), 247–282 (2022).

    Article  Google Scholar 

  • Krüger. R., Hackenbuchner, J.: Outline of a didactic framework for combined data literacy and machine translation literacy teaching. Current Trends in Translation Teaching and Learning E, 375–432 (2022).

    Google Scholar 

  • Lavie, A.: COMET: A neural framework for state-of-the-art MT evaluation. LTI Colloquium 2020–21. Carnegie Mellon University. Language Technologies Institute (2021).

    Google Scholar 

  • Lommel, A.: Metrics for translation quality assessment: A case for standardizing error typologies. In: Moorkens, J., Castilho, S., Gaspari, F., Doherty, S. (Hrsg.) Translation Quality Assessment. From Principles to Practice, 109–127. Springer, Cham (2018).

    Google Scholar 

  • Macketanz, V., Avramidis, E., Burchardt, A., Wang, H., Ai, R., Manakhimova, S., Strohriegel, U., Möller, S., Uszkoreit, H.: A linguistically motivated test suite to semi-automatically evaluate German–English machine translation output. In: Calzolari, N., Béchet, F., Blache, P., Choukri, K., Cieri, C., Declerck, T., Goggi, S., Isahara, H., Maegaard, B., Mariani, J., Mazo, H., Odijk, J., Piperidis, S. (Hrsg.) Proceedings of the Thirteenth Language Resources and Evaluation Conference, 936–947. European Language Resources Association (2022).

    Google Scholar 

  • Mikolov, T., Chen, K., Corrado, G., Dean, J.: Efficient estimation of word representations in vector space. arXiv (2013).

    Google Scholar 

  • Nunziatini, M., Alfieri, A.: A synthesis of human and machine: Correlating “new” automatic evaluation metrics with human assessments. In: Campbell, J., Huyck, B., Larocca, S., Marciano, J., Savenkov, K., Yanishevsky, A. (Hrsg.) Proceedings of Machine Translation Summit XVIII: Users and Providers Track, 440–465. Association for Machine Translation in the Americas (2021).

    Google Scholar 

  • OpenAI (2023). Research index, https://openai.com/research, letzter Zugriff: 18.05.2023.

  • Papineni, K., Roukos, S., Ward, T., Zhu, W.-J.: BLEU: A method for automatic evaluation of machine translation. In: Isabelle, P., Charniak, E., Lin, D. (Hrsg.) Proceedings of the 40th Annual Meeting of the Association for Computational Linguistics, 311–318. Association for Computational Linguistics (2002).

    Google Scholar 

  • Post, M.: A call for clarity in reporting BLEU scores. In: Bojar, O., Chatterjee, R., Federmann, C., Fishel, M., Graham, Y., Haddow, B., Huck, M., Jimeno Yepes, A., Koehn, P., Monz, C., Negri, M., Névéol, A., Neves, M., Post, M., Specia, L., Turchi, M., Verspoor, K. (Hrsg.) Proceedings of the Third Conference on Machine Translation: Research Papers, 186–191. Association for Computational Linguistics (2018).

    Google Scholar 

  • Rei, R., Farinha, A. C., Zerva, C., van Stigt, D., Stewart, C., Ramos, P., Glushkova, T., Martins, A. F. T., Lavie, A.: Are references really needed? Unbabel-IST 2021 submission for the metrics shared task. In: Barrault, L., Bojar, O., Bougares, F., Chatterjee, R., Costa-jussa, M. R., Federmann, C., Fishel, M., Fraser, A., Freitag, M., Graham, Y., Grundkiewicz, R., Guzman, P., Haddow, B., Huck, M., Jimeno Yepes, A., Koehn, P., Kocmi, T., Martins, A., Morishita, M., Monz, C. (Hrsg.) Proceedings of the Sixth Conference on Machine Translation, 1030–1040. Association for Computational Linguistics (2021).

    Google Scholar 

  • Rei, R., Stewart, C., Farinha, A. C., Lavie, A.: COMET: A neural framework for MT evaluation. In: Webber, B., Cohn, T., He, Y., Liu, Y. (Hrsg.) Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP), 2685–2702. Association for Computational Linguistics (2020).

    Google Scholar 

  • Saunders, D.: Domain Adaptation for Neural Machine Translation. Dissertation, University of Cambridge (2021).

    Google Scholar 

  • Schmitt, P. A.: Translation und Technik, Narr, Tübingen (1999).

    Google Scholar 

  • Snover, M., Dorr, B., Schwartz, R., Micciulla, L., Makhoul, J.: A Study of translation edit rate with targeted human annotation. In: Proceedings of the 7th Conference of the Association for Machine Translation in the Americas: Technical Papers, 223–231. Association for Machine Translation in the Americas (2006).

    Google Scholar 

  • Specia, L., Shah, K.: Machine translation quality estimation: Applications and future perspectives. In: Moorkens, J., Castilho, S., Gaspari, F., Doherty, S. (Hrsg.) Translation Quality Assessment. From Principles to Practice, 201–235. Springer, Cham (2018).

    Google Scholar 

  • Sun, S.: Measuring difficulty in translation and post-editing: A review. In: Li, D., Lei, V., Lai, C., He, Y. (Hrsg.) Researching Cognitive Processes of Translation, 139–168. Springer, Singapur (2019).

    Google Scholar 

  • Translated.net: Translated measured the speed to singularity in AI using trends in machine translation (2022), https://translated.com/singularity-in-AI-impact-on-translation-industry, letzter Zugriff: 25.01.2023.

  • Unbabel: COMET documentation. COMET metrics. (2020), https://unbabel.github.io/COMET/html/models.html, letzter Zugriff: 28.01.2023.

  • Vardaro, J., Schaeffer, M., Hansen-Schirra, S.: Translation quality and error recognition in professional neural machine translation post-editing. Informatics 6(3), 1–29 (2019).

    Article  Google Scholar 

  • Vashee, K.: The problem with BLEU and neural machine translation. eMpTy Pages (2017).

    Google Scholar 

  • Weitz, M.: Optimierung kommerzieller Translation-Memory-Systeme durch Integration morphosyntaktischer Analyseverfahren. Universitätsverlag des Saarlandes, Saarbrücken (2017).

    Google Scholar 

  • Zhang, T., Kishore, V., Wu, F., Weinberger, K. Q., Artzi, Y.: BERTScore: Evaluating text generation with BERT. arXiv (2020).

    Google Scholar 

  • Zouhar, V., Popel, M., Bojar, O., Tamchyna, A.: Neural machine translation quality and post-editing performance. In: Moens, M.-F., Huang, X., Specia, L., Yih, S. W.-t. (Hrsg.) Proceedings of the 2021 Conference on Empirical Methods in Natural Language Processing, 10204–10214. Association for Computational Linguistics (2021).

    Google Scholar 

Download references

Author information

Authors and Affiliations

Authors

Corresponding author

Correspondence to Ralph Krüger .

Editor information

Editors and Affiliations

Rights and permissions

Reprints and permissions

Copyright information

© 2024 Der/die Autor(en), exklusiv lizenziert an Springer Fachmedien Wiesbaden GmbH, ein Teil von Springer Nature

About this chapter

Check for updates. Verify currency and authenticity via CrossMark

Cite this chapter

Krüger, R. (2024). Von zeichenketten- zu vektorbasierten Verfahren zur Bewertung der Qualität von Systemen zur maschinellen Übersetzung und von maschinell übersetzten Texten. In: Rösener, C., Canfora, C., Dörflinger, T., Hoberg, F., Varga, S. (eds) Übersetzen im Wandel. Springer Vieweg, Wiesbaden. https://doi.org/10.1007/978-3-658-42903-4_2

Download citation

Publish with us

Policies and ethics