Zusammenfassung
Die Spracheingabe dient im Wesentlichen zwei Zielen: der Erkennung von Sprache und der Erkennung eines Sprechers. Beide Erkennungsformen basieren weitgehend auf den gleichen Prinzipien der Merkmalextraktion und Klassifikation (vgl. Kap. 7). Der Unterschied zwischen den beiden Formen kommt bereits im Namen zum Ausdruck. Die Spracherkennung versucht, eine gesprochene Äußerung zu erkennen bzw. zu verstehen, um sie dann z. B. in Text oder Steuerungskommandos umzusetzen. Die Sprechererkennung dient der Verifizierung oder Identifizierung des Sprechers. Typische Anwendungen dabei sind die telefonische Banktransaktion sowie die Identifizierung eines erpresserischen Anrufers.
Access this chapter
Tax calculation will be finalised at checkout
Purchases are for personal use only
Literatur
Benesty J, Sondhi MM, Huang Y (Hrsg) (2008) Springer handbook of speech processing. Springer-Verlag, Berlin, Heidelberg
Berton A (2004) Konfidenzmaße und deren Anwendungen in der automatischen Sprachverarbeitung (Diss.). w.e.b. Universitätsverlag, Dresden
Bimbot F et al (Guest Editors) (1995) Special section on automatic speaker recognition, identification and verification. Speech Comm 17:1–2
Braun A (2011) Forensisch-phonetischer Stimmenvergleich. [Buchverf.] B.J. Kröger BJ, Birkholz P. Elektronische Sprachsignalverarbeitung, Tagungsband der 22. Konferenz, Aachen. TUDpress, Dresden
Burges CJC (1998) A tutorial on support vector machines for pattern recognition. Data mining and knowledge discovery 2. frei verfügbar unter. http://www.umiacs.umd.edu/~joseph/support-vector-machines4.pdf.
Campbell JP et al (2009) Forensic speaker recognition. Signal processing magazine, IEEE 26.2. 2009, über Internet verfügbar unter http://hdl.handle.net/1721.1/52318 Zugegriffen 9 Feb 2012
Campbell JP (1997) Speaker recognition. A tutorial. Proc IEEE 85
Carstensen K-U, u. a (2010) Computerlinguistik und Sprachtechnologie. Spektrum Akademischer Verlag, Heidelberg
Chelba C, Hazen TJ (2007) Retrieval and browsing of spoken content. IEEE Signal Processing Magazine
Doddington GR et al (2000) The NIST speaker recognition evaluation-overview, methodology, systems, results, perspective, vol. 31. Speech Commun
Doddington GR (1985) Speaker recognition-identifying people by their voices. Proceedings of the IEEE 73(11)
Fellbaum K (2010) Sprachtechnologie-Quo vadis? [Buchverf.] Martin R, Fingscheidt T ITG-Fachtagung Sprachkommunikation. s.n., Bochum
Fetter P (1998) Detection and transcription of out-of-vocabulary words in continuous-speech recognition. Dissertation TU Berlin, Berlin
Fliegner L (1995) Textabhängige Sprecherverifizierung unter Berücksichtigung der Endpunktdetektion (Diss.). s.n., BerlinWissenschaft & Technik Verlag
Gauvain JL, Lamel L (2000) Large-vocabulary continuous speech recognition: advances and applications. Proc IEEE
Hampicke M (2004) Optimierung von Smart-Home-Umgebungen für den Wohnbereich. w.e.b. Universitätsverlag, Dresden
Hardt D (2001) Textabhängige und phonetisch-basierte Sprecherverifizierung für den Einsatz in der Telekommunikation (Diss.). Wissenschaft&Technik Verlag, Berlin
Hoffmeister J, u. a (2008) Sprachtechnologie in der Anwendung Sprachportale. Springer Verlag, Berlin, Heidelberg
Jessen M (2008a) Forensische Sprechererkennung und Tonträgerauswertung in Praxis und Forschung. http://www.kriminalpolizei.de/articles,forensische_sprechererkennung_und_tontraegerauswertung_in_praxis_und_forschung,1,223.htm. [Online] 2008a. Zugegriffen 5 March 2012
Jessen M (2008b) Forensic phonetics. Language and linguistics compass
Juang BH (Hrsg) (1998) The past, present, and future of speech processing. IEEE Signal Processing Magazine 15(8)
Jurafsky D, Martin JH (2009) Speech and language processing. Pearson Prentice-Hall, New Jersey
Kinnunen T, Li H (2010) An overview of text-independent speaker recognition: From features to supervectors. Speech Commun 52
Knopf I (1996) Sprecherverifikation unter Auswertung robuster akustischer und phonetischer Merkmale. Dissertation TU Dresden, Dresden
Köster JP (2012) Transferstelle für Phonetik, Sprachverarbeitung und Akustische Mustererkennung. http://www.uni-trier.de/index.php?id = 23335. [Online] 2012. Zugegriffen 5 March 2012
Kraiss K-F (Hrsg) (2006) Advanced man-machine interaction. Springer-Verlag, Berlin, Heidelberg
Kratzer KP (1990) Neuronale Netze. Grundlagen und Anwendungen. Carl Hanser Verlag, München, Wien
Lamel LF, Gauvain JL (2000) Speaker verification over the telephone, Vol 31. Speech Commun
Lee CH (2008) Principles of spoken language recognition. [Buchverf.] Benesty J, Sondhi MM, Huang Y. Springer handbook of speech processing. Springer Verlag, Berlin, Heidelberg
Lee C-H, Soong FK, Paliwal KK (1996) Automatic speech and speaker recognition. Advanced Topics. Kluwer Academics, Dordrecht
Martin A et al (1997) The DET curve assessment of detection task performance. Proc EUROSPEECH
Martin A (2002) NIST 2002 Speaker recognition evaluation. Proc. NIST speaker recognition workshop USA
Martin A, Pryzbocki M (2006) 2003 NIST language recognition evaluation. Linguistic Data Consortium, Philadelphia
Matsui T, Furui S (1995) Likelihood normalization for speaker verification using a phoneme- and speaker-independent model, vol. 17. Speech Commun
Müller C, Hoffmeister J, Westkämper E (2008) Sprachtechnologie in der Anwendung-Sprachportale. Springer Verlag, Berlin, Heidelberg, New York
Neumerkel D (1991) Vergleichende Untersuchungen von algorithmischen und neuronalen Klassifikatoren für die automatische Spracherkennung. Dissertation TU Berlin, Berlin 83
NIST. 2011. http://www.nist.gov/itl/iad/mig/sre.cfm. [Online] National Institute of Standards and Technology, 2011.
Oglesby J (1995) What’s in a number? Moving beyond the equal error rate. vol. 17. Speech Commun
Pallett DS, Lamel L (2002) Special issue on automatic transcription of broadcast news data. Speech Commun 37:1–2
Pfister B, Kaufmann T (2008) Sprachverarbeitung. Grundlagen und Methoden der Sprachsynthese und Spracherkennung. Springer Verlag, Berlin, Heidelberg
Przybocki MA, Martin AF, Le AN (2007) NIST Speaker recognition evaluations utilizing the mixed corpora – 2004, 2005, 2006. IEEE Transactions on Audio, Speech and Language Processing 15(7)
Rabiner L, Juang BH (1993) Fundamentals of speech recognition. Prentice-Hall, Englewood Cliffs, N.J.
Renals S, Robinson T (Hrsg) (2000) Special issue on acessing information in spoken audio. Speech Commun 32:1–2
Reynolds DA (1995) Speaker identification and verification using Gaussian mixture speaker models, vol 17. Speech Commun
Rohlicek JR et al (1989) Continuous hidden Markov Modelling for speaker-independend word spotting. Proc of ICASSP-89
Rohlicek JR (1995) Word spotting. s.l.: The Kluwer International Series in Eng. and Computer Sc., Vol. 327 Part 2
Ruske G (1988) Automatische Spracherkennung. Methoden der KLassifikation und Merkmalsextraktion. R. Oldenbourg Verlag, München. Wien
Schaaf T (2004) Erkennen und Lernen neuer Wörter. Dissertation Universität Karlsruhe, Karlsruhe
Schenk J, Rigoll G (2010) Mensch-Maschine-Kommunikation. Springer Verlag, Berlin, Heidelberg
Schroeder J, Campbell J (Hrsg) (2000) Special issue: NIST 1999 speaker recognition workshop. Digital signal processing 10:1–3
Schukat-Talamazzini EG (1995) Automatische Spracherkennung. Friedr. Vieweg&Sohn Verlagsgesellschaft mbH, Braunschweig
Schürer T (1995) Sprecherunabhängige Ziffern- und Ziffernkettenerkennung über Telefonkanäle, Dissertation. TU Berlin D 83, Berlin
Suhardi (1997) Wordspotting techniques using a multilayere perceptron combined with dynamic time warping and hidden Markov models. Dissertation TU Berlin, D83, Berlin
Swets JA (Hrsg) (1964) Signal detection and recognition by human observers. J. Wiley&Sons Inc., s.l.
Swets JA (1973) The relative operating charakteristic in psychology, vol 182, Issue 4116, Science
Wang D (1993) Speech recognition with word spotting techniques. Dissertation TU Berlin, D83, Berlin
Wilpon LR et al (1990) Automatic recognition of keywords in unconstrained speech using hidden Markov models. IEEE Trans Acoust Speech Signal Proc 38(11)
Zhu M (1992) Sprecherunabhängige Erkennung von isoliert gesprochenen Einzelwörtern unter Verwendung der Vektorquantisierung und von Neuronalen Netzen. Dissertation TU Berlin, D 83, Berlin
Zissman MA (1996) Comparison of four approaches to automatic language identification of telephone speech. IEEETrans Speech Audio Proc
Author information
Authors and Affiliations
Corresponding author
Rights and permissions
Copyright information
© 2012 Springer-Verlag Berlin Heidelberg
About this chapter
Cite this chapter
Fellbaum, K. (2012). Spracheingabe. In: Sprachverarbeitung und Sprachübertragung. Springer, Berlin, Heidelberg. https://doi.org/10.1007/978-3-642-31503-9_8
Download citation
DOI: https://doi.org/10.1007/978-3-642-31503-9_8
Published:
Publisher Name: Springer, Berlin, Heidelberg
Print ISBN: 978-3-642-31502-2
Online ISBN: 978-3-642-31503-9
eBook Packages: Computer Science and Engineering (German Language)