IT pp 162-184 | Cite as

Multilinguale Spracherkennung und Sprachsynthese

  • Volker Fischer
  • Markus Klehr
  • Siegfried Kunzmann

4.2.4 Zusammenfassung und Ausblick

Im hinter uns liegenden Kapitel haben wir zunächst den zunehmenden Ein satz von Sprachverarbeitungstechnologien zur ortsungebundenen Interaktion zwischen Mensch und Computer skizziert und die mathematisch-technischen Grundlagen heutiger Spracherkennungs- und -synthesesysteme knapp umrissen. Die Entwicklung von deren Kernkomponenten hat sich uns dabei als ein für viele Sprachen weitgehend einheitlicher, maschineller Lernprozess dargestellt, bei dem die freien Parameter eines stochastischen Modells der menschlichen Sprachproduktion anhand großer Mengen von sprachen- und anwendungsspezifischen Trainingsdaten ermittelt werden.

Die Charakterisierung von Hidden-Markov-Modellen als conditio sine qua non sowohl für die Spracherkennung als auch zur akkuraten Zuordnung von Sprachsegmenten und Lautinventar in der konkatenativen Sprachsynthese hat uns anschließend zum Kern dieses Kapitels, der multilingualen akustischen Modellierung, geführt. Als Hauptanliegen derartiger Bemühungen haben wir eine sprachübergreifende Verwendung von vorhandenen Trainingsstichproben zur raschen Entwicklung von Spracherkennern für neue Zielsprachen, aber auch die Erweiterung und Verbesserung von bereits vorhandenen ASR- und TTS-Systemen beschrieben; Stichworte waren hier beispielsweise die Steigerung der Erkennungsleistung für Nichtmuttersprachler oder eine verbesserte Erkennung und Synthese von Fremdwörtern.

Als Grundlage unserer Arbeiten zur multilingualen Sprachverarbeitung haben wir schließlich zwei Varianten eines — bezüglich des Spektrums der abgedeckten Sprachen wohl weitgehend einmaligen — universellen Phonemalphabets vorgestellt und dessen Einsatz anhand zweier Fallbeispiele, der Entwicklung eines Spracherkenners für eine neue Zielsprache sowie der Konstruktion bilingualer TTS-Systeme, studiert.

Wurden die Vorteile des sprachübergreifenden Modellierungsansatzes bereits in den beschriebenen informationsabfragenden Szenarien deutlich, so dürfen wir einen noch größeren Nutzen erwarten, wenn wir an Anwendungen denken, bei denen die computerbasierte Unterstützung zwischenmenschlicher Kommunikation im Vordergrund steht, insbesondere natürlich in der maschinellen übersetzung gesprochener Sprache. Zwar harren hier noch zahlreiche Teilprobleme einer endgültigen Behandlung — denken wir nur an die korrekte Synthese von flektierten Fremdwörtern oder an eine multilinguale linguistische Modellierung, die den Benutzer vom starren Korsett einer vorgegebenen Satzgrammatik befreit —, vielversprechende Lösungsansätze sind jedoch in industrieller wie auch universitärer Forschung vorhanden. Die weitere Untersuchung und das Zusammenführen dieser Ansätze mag aufgrund notwendiger Investitionen zwar mitunter als unpopulär erscheinen, sollte aber schließlich mit einer einfacheren Positionierung von leistungsfähigeren und kostengünstigeren Sprachverarbeitungssystemen in einem wachsenden globalen Markt belohnt werden.

Preview

Unable to display preview. Download preview PDF.

Unable to display preview. Download preview PDF.

Literatur

  1. 1.
    S. Kunzmann: VoiceType: A Multi-Lingual, Large Vocabulary Speech Recognition System for a PC, in Proc. of the 2nd SQEL Workshop on Multi-Lingual Information Retrieval Dialogs, Pilsen, 1997.Google Scholar
  2. 2.
    Proceedings of the IEEE International Conference on Acoustics, Speech, and Signal Processing, 1976–2006.Google Scholar
  3. 3.
    Proceedings of the European Conference on Speech Communication and Technology, 1989–2005.Google Scholar
  4. 4.
    Proceedings of the International Conference on Spoken Language Processing, 1990–2006.Google Scholar
  5. 5.
    Proceedings of the IEEE Workshop on Automatic Speech Recognition and Understanding, 1999–2005.Google Scholar
  6. 6.
    E.G. Schukat-Talamazzini: Automatische Spracherkennung. Grundlagen, statistische Modelle und effiziente Algorithmen, Vieweg Verlag, Braunschweig, 1995.Google Scholar
  7. 7.
    F. Jelinek: Statistical Methods for Speech Recognition, The MIT Press, Cambridge, Ma., 1997.Google Scholar
  8. 8.
    M. Ostendorf, I. Bulyko: The Impact of Speech Recognition on Speech Synthesis, in Proc. of the IEEE 2002 Workshop on Speech Synthesis, Santa Monica, Ca., 2002.Google Scholar
  9. 9.
    P. Ladefoged: A Course in Phonetics, Harcourt, Brace, Jovanovic, Orlando, 1975.Google Scholar
  10. 10.
    K. Kohler: Einführung in die Phonetik des Deutschen, Erich Schmidt Verlag, Berlin, 1977.Google Scholar
  11. 11.
    International Phonetic Association: Handbook of the International Phonetic Association, Cambridge University Press, Cambridge, 1999.Google Scholar
  12. 12.
    C.J. Wells: Computer-coded Phonemic Notation of Individual Languages of the European Community, Journal of the International Phonetic Association, vol. 19, pp. 32–54, 1989.MathSciNetCrossRefGoogle Scholar
  13. 13.
    SAMPA: Computer Readable Phonetic Alphabet, http://www.phon.ucl.ac.uk/home/sampa/home.htm, 1999.Google Scholar
  14. 14.
    H. Niemann: Pattern Analysis and Understanding, Second Edition, Number 4 in Springer Series in Information Sciences. Springer-Verlag, Berlin, 1990.MATHGoogle Scholar
  15. 15.
    S. Davis, P. Mermelstein: Comparison of Parametric Representation for Monosyllabic Word Recognition in Continuously Spoken Sentences, IEEE Trans. on Acoustics, Speech, and Signal Processing, vol. ASSP-28, no. 4, pp. 357–366, 1980.CrossRefGoogle Scholar
  16. 16.
    R. Sproat, Ed.: Multilingual Text-to-Speech Synthesis. The Bell Labs Approach, Kluwer Academic Publishers, Dordrecht, Boston, London, 1998.Google Scholar
  17. 17.
    D. Klatt: Review of Text-to-Speech Conversion for English, Journal of the Acoustic Society of America, vol. 82, no. 3, pp. 737–793, 1987.CrossRefADSGoogle Scholar
  18. 18.
    A. Hunt, A. Black: Unit Selection in a Concatenative Speech Synthesis System using a Large Speech Database, in Proc. of the IEEE Int. Conf. on Acoustics, Speech, and Signal Processing, Atlanta, 1996, vol. 1, pp. 373–376.CrossRefGoogle Scholar
  19. 19.
    R. Donovan, E. Eide: The IBM Trainable Speech Synthesis System, in Proc. of the 5th Int. Conf. on Spoken Language Processing, Sydney, 1998.Google Scholar
  20. 20.
    M. Beutnagel, A. Conkie, J. Schroeter, Y. Stylianou, A.K. Syrdal: The AT&T Next-Gen TTS System, in Proc. of the Joint Meeting of ASA, EAA, and DAGA, Berlin, Germany, 1999.Google Scholar
  21. 21.
    E. Moulines, F. Charpentier: Pitch Synchronous Waveform Processing Techniques for Text-to-Speech Synthesis using Diphones, Speech Communication, vol. 9, 1990.Google Scholar
  22. 22.
    J. Lucassen, R. Mercer: An Information Theoretic Apporach to the Automatic Determination of Phonemic Baseforms, in Proc. of the IEEE Int. Conference on Acoustics, Speech, and Signal Processing, San Diego, 1984, pp. 42.5.1–42.5.4.Google Scholar
  23. 23.
    E. Eide, A. Aaron, R. Bakis, P. Cohen, R. Donovan, W. Hamza, T. Mathes, M. Picheny, M. Polkosky, M. Smith, M. Viswanathan: Recent Improvements to the IBM Trainable Speech Synthesis System, in Proc. of the IEEE Int. Conf. on Acoustics, Speech, and Signal Processing, Hong Kong, 2003.Google Scholar
  24. 24.
    J. Köhler: Language Adaptation of Multilingual Phone Models for Vocabulary Independent Speech Recognition Tasks, in Proc. of the IEEE Int. Conf. on Acoustics, Speech, and Signal Processing, Seattle, 1998.Google Scholar
  25. 25.
    V. Fischer, J. Gonzalez, E. Janke, M. Villani, C. Waast-Richard: Towards Multilingual Acoustic Modeling for Large Vocabulary Continuous Speech Recognition, in Proc. of the IEEE Workshop on Multilingual Speech Communications, Kyoto, Japan, 2000.Google Scholar
  26. 26.
    T. Schultz: Multilinguale Spracherkennung: Kombination akustischer Modelle zur Portierung auf neue Sprachen, Dissertation. Universität Karlsruhe, Institut für Logik, Komplexität und Deduktionssysteme. 2000.Google Scholar
  27. 27.
    T. Schultz, A. Waibel: Language Independent and Language Adaptive Acoustic Modeling for Speech Recognition, Speech Communication, vol. 35, 2001.Google Scholar
  28. 28.
    V. Fischer, E. Janke, S. Kunzmann: Likelihood Combination and Recognition Output Voting for the Decoding of Non-native Speech with Multilingual HMMs, in Proc. of the 7th Int. Conf. on Spoken Language Processing, Denver, Colorado, 2002.Google Scholar
  29. 29.
    S. Kunzmann, V. Fischer, J. Gonzalez, O. Emam, C. Günther, E. Janke: Multilingual Acoustic Models for Speech Recognition and Synthesis, in Proc. of the IEEE Int. Conference on Acoustics, Speech, and Signal Processing, Montreal, 2004.Google Scholar
  30. 30.
    F. Palou Cambra, P. Bravetti, O. Emam, V. Fischer, E. Janke: Towards a common phone alphabet for multilingual speech recognition, in Proc. of the 6th Int. Conf. on Spoken Language Processing, Beijing, 2000.Google Scholar
  31. 31.
    V. Fischer, E. Janke, S. Kunzmann: Recent Progress in the Decoding of Non-native Speech with Multilingual Acoustic Models, in Proc. of the 8th Europ. Conf. on Speech Communication and Technology, Geneva, 2003.Google Scholar
  32. 32.
    L. Mayfield Tomokiyo, A. Black, K. Lenzo: Arabic in my Hand: Smallfootprint Synthesis of Egyptian Arabic, in Proc. of the 8th Europ. Conf. on Speech Communication and Technology, Geneva, 2003.Google Scholar
  33. 33.
    B. Pfister, H. Romsdorfer: Mixed-lingual Text Analysis for Polyglot TTS Synthesis, in Proc. of the 8th Europ. Conf. on Speech Communication and Technology, Geneva, 2003.Google Scholar
  34. 34.
    J. Botella Ordinas, V. Fischer, C. Waast-Richard: Multilingual Models in the IBM Bilingual Text-to-Speech Systems, in Proc. of the 9th Europ. Conf. on Speech Communication and Technology, Lisbon, 2005.Google Scholar
  35. 35.
    J. Marcadet, V. Fischer, C. Waast-Richard: A Transformation-Based Learning Approach to Language Identification for Mixed-Lingual Text-to-Speech Synthesis, in Proc. of the 9th Europ. Conf. on Speech Communication and Technology, Lisbon, 2005.Google Scholar
  36. 36.
    J. Prager: Linguini: Language Identification for Multilingual Documents, in Proc. of the 32nd Hawaii Int. Conf. on System Sciences, Hawaii, 1999, pp. 1–11.Google Scholar

Copyright information

© Springer-Verlag Berlin Heidelberg 2007

Authors and Affiliations

  • Volker Fischer
  • Markus Klehr
  • Siegfried Kunzmann

There are no affiliations available

Personalised recommendations