Advertisement

Spracheingabe

  • Klaus Fellbaum
Chapter

Zusammenfassung

Die Spracheingabe dient im Wesentlichen zwei Zielen: der Erkennung von Sprache und der Erkennung eines Sprechers. Beide Erkennungsformen basieren weitgehend auf den gleichen Prinzipien der Merkmalextraktion und Klassifikation (vgl. Kap.  7). Der Unterschied zwischen den beiden Formen kommt bereits im Namen zum Ausdruck. Die Spracherkennung versucht, eine gesprochene Äußerung zu erkennen bzw. zu verstehen, um sie dann z. B. in Text oder Steuerungskommandos umzusetzen. Die Sprechererkennung dient der Verifizierung oder Identifizierung des Sprechers. Typische Anwendungen dabei sind die telefonische Banktransaktion sowie die Identifizierung eines erpresserischen Anrufers.

Literatur

  1. Benesty J, Sondhi MM, Huang Y (Hrsg) (2008) Springer handbook of speech processing. Springer-Verlag, Berlin, HeidelbergGoogle Scholar
  2. Berton A (2004) Konfidenzmaße und deren Anwendungen in der automatischen Sprachverarbeitung (Diss.). w.e.b. Universitätsverlag, DresdenGoogle Scholar
  3. Bimbot F et al (Guest Editors) (1995) Special section on automatic speaker recognition, identification and verification. Speech Comm 17:1–2CrossRefGoogle Scholar
  4. Braun A (2011) Forensisch-phonetischer Stimmenvergleich. [Buchverf.] B.J. Kröger BJ, Birkholz P. Elektronische Sprachsignalverarbeitung, Tagungsband der 22. Konferenz, Aachen. TUDpress, DresdenGoogle Scholar
  5. Burges CJC (1998) A tutorial on support vector machines for pattern recognition. Data mining and knowledge discovery 2. frei verfügbar unter. http://www.umiacs.umd.edu/~joseph/support-vector-machines4.pdf.
  6. Campbell JP et al (2009) Forensic speaker recognition. Signal processing magazine, IEEE 26.2. 2009, über Internet verfügbar unter http://hdl.handle.net/1721.1/52318 Zugegriffen 9 Feb 2012
  7. Campbell JP (1997) Speaker recognition. A tutorial. Proc IEEE 85Google Scholar
  8. Carstensen K-U, u. a (2010) Computerlinguistik und Sprachtechnologie. Spektrum Akademischer Verlag, HeidelbergMATHCrossRefGoogle Scholar
  9. Chelba C, Hazen TJ (2007) Retrieval and browsing of spoken content. IEEE Signal Processing MagazineGoogle Scholar
  10. Doddington GR et al (2000) The NIST speaker recognition evaluation-overview, methodology, systems, results, perspective, vol. 31. Speech CommunGoogle Scholar
  11. Doddington GR (1985) Speaker recognition-identifying people by their voices. Proceedings of the IEEE 73(11)Google Scholar
  12. Fellbaum K (2010) Sprachtechnologie-Quo vadis? [Buchverf.] Martin R, Fingscheidt T ITG-Fachtagung Sprachkommunikation. s.n., BochumGoogle Scholar
  13. Fetter P (1998) Detection and transcription of out-of-vocabulary words in continuous-speech recognition. Dissertation TU Berlin, BerlinGoogle Scholar
  14. Fliegner L (1995) Textabhängige Sprecherverifizierung unter Berücksichtigung der Endpunktdetektion (Diss.). s.n., BerlinWissenschaft & Technik VerlagGoogle Scholar
  15. Gauvain JL, Lamel L (2000) Large-vocabulary continuous speech recognition: advances and applications. Proc IEEEGoogle Scholar
  16. Hampicke M (2004) Optimierung von Smart-Home-Umgebungen für den Wohnbereich. w.e.b. Universitätsverlag, DresdenGoogle Scholar
  17. Hardt D (2001) Textabhängige und phonetisch-basierte Sprecherverifizierung für den Einsatz in der Telekommunikation (Diss.). Wissenschaft&Technik Verlag, BerlinGoogle Scholar
  18. Hoffmeister J, u. a (2008) Sprachtechnologie in der Anwendung Sprachportale. Springer Verlag, Berlin, HeidelbergGoogle Scholar
  19. Jessen M (2008a) Forensische Sprechererkennung und Tonträgerauswertung in Praxis und Forschung. http://www.kriminalpolizei.de/articles,forensische_sprechererkennung_und_tontraegerauswertung_in_praxis_und_forschung,1,223.htm. [Online] 2008a. Zugegriffen 5 March 2012
  20. Jessen M (2008b) Forensic phonetics. Language and linguistics compassGoogle Scholar
  21. Juang BH (Hrsg) (1998) The past, present, and future of speech processing. IEEE Signal Processing Magazine 15(8)Google Scholar
  22. Jurafsky D, Martin JH (2009) Speech and language processing. Pearson Prentice-Hall, New JerseyGoogle Scholar
  23. Kinnunen T, Li H (2010) An overview of text-independent speaker recognition: From features to supervectors. Speech Commun 52Google Scholar
  24. Knopf I (1996) Sprecherverifikation unter Auswertung robuster akustischer und phonetischer Merkmale. Dissertation TU Dresden, DresdenGoogle Scholar
  25. Köster JP (2012) Transferstelle für Phonetik, Sprachverarbeitung und Akustische Mustererkennung. http://www.uni-trier.de/index.php?id = 23335. [Online] 2012. Zugegriffen 5 March 2012
  26. Kraiss K-F (Hrsg) (2006) Advanced man-machine interaction. Springer-Verlag, Berlin, HeidelbergGoogle Scholar
  27. Kratzer KP (1990) Neuronale Netze. Grundlagen und Anwendungen. Carl Hanser Verlag, München, WienGoogle Scholar
  28. Lamel LF, Gauvain JL (2000) Speaker verification over the telephone, Vol 31. Speech CommunGoogle Scholar
  29. Lee CH (2008) Principles of spoken language recognition. [Buchverf.] Benesty J, Sondhi MM, Huang Y. Springer handbook of speech processing. Springer Verlag, Berlin, HeidelbergGoogle Scholar
  30. Lee C-H, Soong FK, Paliwal KK (1996) Automatic speech and speaker recognition. Advanced Topics. Kluwer Academics, DordrechtCrossRefGoogle Scholar
  31. Martin A et al (1997) The DET curve assessment of detection task performance. Proc EUROSPEECHGoogle Scholar
  32. Martin A (2002) NIST 2002 Speaker recognition evaluation. Proc. NIST speaker recognition workshop USAGoogle Scholar
  33. Martin A, Pryzbocki M (2006) 2003 NIST language recognition evaluation. Linguistic Data Consortium, PhiladelphiaGoogle Scholar
  34. Matsui T, Furui S (1995) Likelihood normalization for speaker verification using a phoneme- and speaker-independent model, vol. 17. Speech CommunGoogle Scholar
  35. Müller C, Hoffmeister J, Westkämper E (2008) Sprachtechnologie in der Anwendung-Sprachportale. Springer Verlag, Berlin, Heidelberg, New YorkGoogle Scholar
  36. Neumerkel D (1991) Vergleichende Untersuchungen von algorithmischen und neuronalen Klassifikatoren für die automatische Spracherkennung. Dissertation TU Berlin, Berlin 83Google Scholar
  37. NIST. 2011. http://www.nist.gov/itl/iad/mig/sre.cfm. [Online] National Institute of Standards and Technology, 2011.
  38. Oglesby J (1995) What’s in a number? Moving beyond the equal error rate. vol. 17. Speech CommunGoogle Scholar
  39. Pallett DS, Lamel L (2002) Special issue on automatic transcription of broadcast news data. Speech Commun 37:1–2CrossRefGoogle Scholar
  40. Pfister B, Kaufmann T (2008) Sprachverarbeitung. Grundlagen und Methoden der Sprachsynthese und Spracherkennung. Springer Verlag, Berlin, HeidelbergGoogle Scholar
  41. Przybocki MA, Martin AF, Le AN (2007) NIST Speaker recognition evaluations utilizing the mixed corpora – 2004, 2005, 2006. IEEE Transactions on Audio, Speech and Language Processing 15(7)Google Scholar
  42. Rabiner L, Juang BH (1993) Fundamentals of speech recognition. Prentice-Hall, Englewood Cliffs, N.J.Google Scholar
  43. Renals S, Robinson T (Hrsg) (2000) Special issue on acessing information in spoken audio. Speech Commun 32:1–2Google Scholar
  44. Reynolds DA (1995) Speaker identification and verification using Gaussian mixture speaker models, vol 17. Speech CommunGoogle Scholar
  45. Rohlicek JR et al (1989) Continuous hidden Markov Modelling for speaker-independend word spotting. Proc of ICASSP-89Google Scholar
  46. Rohlicek JR (1995) Word spotting. s.l.: The Kluwer International Series in Eng. and Computer Sc., Vol. 327 Part 2Google Scholar
  47. Ruske G (1988) Automatische Spracherkennung. Methoden der KLassifikation und Merkmalsextraktion. R. Oldenbourg Verlag, München. WienGoogle Scholar
  48. Schaaf T (2004) Erkennen und Lernen neuer Wörter. Dissertation Universität Karlsruhe, KarlsruheGoogle Scholar
  49. Schenk J, Rigoll G (2010) Mensch-Maschine-Kommunikation. Springer Verlag, Berlin, HeidelbergCrossRefGoogle Scholar
  50. Schroeder J, Campbell J (Hrsg) (2000) Special issue: NIST 1999 speaker recognition workshop. Digital signal processing 10:1–3Google Scholar
  51. Schukat-Talamazzini EG (1995) Automatische Spracherkennung. Friedr. Vieweg&Sohn Verlagsgesellschaft mbH, BraunschweigGoogle Scholar
  52. Schürer T (1995) Sprecherunabhängige Ziffern- und Ziffernkettenerkennung über Telefonkanäle, Dissertation. TU Berlin D 83, BerlinGoogle Scholar
  53. Suhardi (1997) Wordspotting techniques using a multilayere perceptron combined with dynamic time warping and hidden Markov models. Dissertation TU Berlin, D83, BerlinGoogle Scholar
  54. Swets JA (Hrsg) (1964) Signal detection and recognition by human observers. J. Wiley&Sons Inc., s.l.Google Scholar
  55. Swets JA (1973) The relative operating charakteristic in psychology, vol 182, Issue 4116, ScienceGoogle Scholar
  56. Wang D (1993) Speech recognition with word spotting techniques. Dissertation TU Berlin, D83, BerlinGoogle Scholar
  57. Wilpon LR et al (1990) Automatic recognition of keywords in unconstrained speech using hidden Markov models. IEEE Trans Acoust Speech Signal Proc 38(11)Google Scholar
  58. Zhu M (1992) Sprecherunabhängige Erkennung von isoliert gesprochenen Einzelwörtern unter Verwendung der Vektorquantisierung und von Neuronalen Netzen. Dissertation TU Berlin, D 83, BerlinGoogle Scholar
  59. Zissman MA (1996) Comparison of four approaches to automatic language identification of telephone speech. IEEETrans Speech Audio ProcGoogle Scholar

Copyright information

© Springer-Verlag Berlin Heidelberg 2012

Authors and Affiliations

  1. 1.BerlinDeutschland

Personalised recommendations