Phonetisch-akustische Schläfrigkeitsdetektion

Eine Pilotstudie

Phonetic–acoustic sleepiness detection

A pilot study

Zusammenfassung

Das Ziel des vorliegenden Beitrags ist die Darstellung der Entwicklung und Validierung eines phonetisch-akustischen Messverfahrens zur stimmbasierten Schläfrigkeitsdetektion. Der Vorzug dieses automatisierten Messansatzes liegt in der belästigungsarmen, sensorapplikationsfreien Handhabung. Das hier gewählte Stimmanalyseprozedere folgt dem aus der Sprachemotionserkennung entlehnten Standardvorgehen: (1) Aufnahme des Testsatzes, (2) Berechnung von 170 Prosodie, Artikulation und Stimmqualität beschreibenden Kennzahlen, (3) maschinelles Lernen und (4) Evaluation. In einer Schlafdeprivationsstudie (n=32; 20.00–04.00 Uhr) wurden insgesamt 380 simulierte Fahrerassistenzsätze aufgezeichnet. Als externer Validierungsanker diente der aus einem Selbst- und 2 Fremdberichten gemittelte Karolinska-Schläfrigkeitsskala (KSS) Schläfrigkeitswert. Als besonders schläfrigkeitssensitiv erwiesen sich die Merkmalsfamilien der Cepstrum-Koeffizienten, Formantbandbreiten, Intensitäten und spektralen Kenngrößen. Das beste multivariate Verfahren, die „support vector machine“, erreichte eine signifikante Validitätskorrelation von r=0,46 in der Vorhersage von Schläfrigkeit auf ungesehene Sprecher.

Abstract

This paper describes the development and validation of a phonetic–acoustic measurement procedure for a speech-based detection of sleepiness. The advantages of this automatic real-time approach are that obtaining speech data is unobtrusive and free from sensor application and calibration efforts. The chosen measurement process follows the speech-adapted steps of pattern recognition: (1) recording speech, (2) computation of 170 features describing prosody, articulation, and voice quality, (3) machine learning, and (4) evaluation. In a sleep deprivation study, a total of 380 simulated driver assistance samples (n=32; 8:00 p.m.–4:00 a.m.) were recorded. One self and two observer assessments were used to obtain a Karolinska Sleepiness Scale (KSS) value, which served as an external validation reference. Features that proved to be especially sensitive to sleepiness are cepstral coefficients, formant bandwidth, intensity, and spectral measures. The best machine learning method, the support vector machine (SVM), achieved a significant validation correlation of r=0.46 in predicting sleepiness on unseen speakers.

This is a preview of subscription content, log in to check access.

Abb. 1
Abb. 2
Abb. 3

Literatur

  1. 1.

    Batliner A, Steidl S, Schuller B et al (2011) Whodunnit – searching for the most important feature types signalling emotion-related user states in speech. Computer Speech Language 25:4–28 (in press)

    Article  Google Scholar 

  2. 2.

    Batliner A, Steidl S, Nöth E (2008) Releasing a thoroughly annotated and processed spontaneous emotional database: The FAU Aibo Emotion Corpus. In: Devillers L, Martin J-C, Cowie R et al. (eds) Proc. of a satellite workshop of LREC 2008 on corpora for research on emotion and affect (Workshop on Corpora for Research on Emotion and Affect Marrakesh 26.5.2008). LREC 2008, Marrakesh, pp 28–31

  3. 3.

    Batliner A, Steidl S, Schuller B et al (2006) Combining efforts for improving automatic classification of emotional user states. In: Erjavec T, Gros JZ (Hrsg) Language technologies, IS-LTC 2006. Infornacijska Druzba, Ljubljana, Slovenia, S 240–245

  4. 4.

    Batliner A, Seppi D, Steidl S, Schuller B (2010) On the impact of childrens emotional speech on acoustic and language models. EURASIP J Audio Speech Music Process, doi:10.1155/2010/783954

  5. 5.

    Boersma P (2001) PRAAT, a system for doing phonetics by computer. Glot Int 5:341–345

    Google Scholar 

  6. 6.

    Davidson PR, Jones RD, Peiris MT (2007) EEG-based behavioral microsleep detection with high temporal resolution. IEEE Trans Biomed Eng 54:832–839

    PubMed  Article  Google Scholar 

  7. 7.

    Dittrich E, Brandenburg S, Thüring M (2009) Beobachtungsbasierte Erfassung von Müdigkeit im Kfz – die TUBS-Skala. In: Lichtenstein A, Stößel C, Clemens C (Hrsg) Der Mensch im Mittelpunkt technischer Systeme. 8. Berliner Werkstatt Mensch-Maschine-Systeme. VDI, Düsseldorf, S 123–128

  8. 8.

    Hammarberg B, Fritzell B, Gauffin J et al (1980) Perceptual and acoustic correlates of abnormal voice qualities. Acta Otolaryngol 90:441–451

    PubMed  Article  CAS  Google Scholar 

  9. 9.

    Haslam DR (1981) The military performance of soldiers in continuous operations. In: Johnson LC, Tepas DI, Colquhoun WP, Colligan MJ (Hrsg) Biological rhythms, sleep and shift work. SP Medical & Scientific Books, New York, S 217–230

  10. 10.

    Harrison Y, Horne JA (1997) Sleep deprivation affects speech. J Sleep 20:871–877

    CAS  Google Scholar 

  11. 11.

    Heinze C, Trutschel U, Schnupp T et al (2009) Operator fatigue estimation using heart rate measures. World Congress on Medical Physics and Biomedical Engineering, IFMBE Proceeding 25(9):930–934

  12. 12.

    Ingre M, Åkerstedt T, Peters B et al (2006) Subjective sleepiness, simulated driving performance and blink duration: Examining individual differences. J Sleep Res 15:47–53

    PubMed  Article  Google Scholar 

  13. 13.

    Kienast M, Sendlmeier WF (2000) Acoustical analysis of spectral and temporal changes in emotional speech. In: Sendlmeier W (Hrsg) Speech and signals: Aspects of speech synthesis and automatic speech recognition: Forum phoneticum. Hector, Frankfurt a. M., S 157–168

  14. 14.

    Krajewski J (2008) Acoustic sleepiness analysis. PhD thesis. University of Wuppertal, Wuppertal

  15. 15.

    Krajewski J, Kröger B (2007) Using prosodic and spectral characteristics for sleepiness detection. In: Hamme H van, Son R van (Hrsg) Interspeech proceedings. University Antwerp, Antwerp, S 1841–1844

  16. 16.

    Krajewski J, Sommer D, Trutschel U et al (2009) Steering wheel behavior based estimating of fatigue. Proc Int Driv Symp Hum Factors Driv Assess Train Veh Des 4:118–124

    Google Scholar 

  17. 17.

    Laver J (1980) The phonetic description of voice quality. Cambridge University, Cambridge, England

  18. 18.

    Levelt WJM, Roelfs A, Meyer AS (1999) A theory of lexical access in speech production. J Behav Brain Sci 22:1–75

    CAS  Google Scholar 

  19. 19.

    Lewis D, Yang Y, Rose T, Li F (2004) RCV1: A new benchmark collection for text categorization research. J Mach Learn Res 5:361–397

    Google Scholar 

  20. 20.

    Muttray A, Weirich O, Du Prel JB et al (2009) Beurteilung von Fahrerschläfrigkeit von Berufskraftfahrern mittels Videoanalyse. Arbeitsmed Sozialmed Umweltmed 44:114

    Google Scholar 

  21. 21.

    Podszus T (2007) Atmung. In: Peter H, Penzel T, Peter JH (Hrsg) Enzyklopädie der Schlafmedizin. Springer, Heidelberg, S 80–85

  22. 22.

    Rabiner C, Schafer R (1978) Digital processing of speech signals. Prentice-Hall International, Inc. Englewood Cliffs, New Jersey

  23. 23.

    Scherer KR (1974) Acoustic concomitants of emotional dimensions: Judging affect from synthesized tone sequences. In: Weitz S (Hrsg) Nonverbal communication. Oxford University, New York, S 249–253

  24. 24.

    Schnupp T, Schenka A, Edwards D et al (2009) Is posturography a candidate for a vigilance test? World Congress on Medical Physics and Biomedical Engineering, IFMBE Proc 25(9):388–392

    Google Scholar 

  25. 25.

    Schuller B, Wimmer M, Mösenlechner L et al (2008) Brute-forcing hierarchical functionals for paralinguistics: A waste of feature space? Proc IEEE Int Conf Acoust Speech Signal Process 33:4501–4504

    Article  Google Scholar 

  26. 26.

    Sommer D, Golz M, Krajewski J (2008) Consecutive detection of driver’s microsleep events. In: Vander Sloten J, Verdonck P, Nyssen M, Haueisen J (Hrsg) IFMBE Proceedings 22. Springer, Berlin, S 243–247

  27. 27.

    Vlasenko B, Schuller B, Wendemuth A, Rigoll G (2007) Combining frame and turnlevel information for robust recognition of emotions within speech. Proc Interspeech 8:2249–2252

    Google Scholar 

  28. 28.

    Vollrath M (1993) Mikropausen im Sprechen. Apparative Registrierung und psychologische Bedeutung. Peter Lang, Frankfurt

  29. 29.

    Whitmore J, Fisher S (1996) Speech during sustained operations. Speech Commun 20:55–70

    Article  Google Scholar 

  30. 30.

    Wilhelm B, Giedke H, Lüdtke H et al (2001) Daytime variations in central nervous system activation measured by a pupillographic sleepiness test. J Sleep Res 10:1–7

    PubMed  Article  CAS  Google Scholar 

Download references

Interessenkonflikt

Der korrespondierende Autor gibt an, dass kein Interessenkonflikt besteht.

Author information

Affiliations

Authors

Corresponding author

Correspondence to Prof. Dr. J. Krajewski.

Rights and permissions

Reprints and Permissions

About this article

Cite this article

Krajewski, J., Sauerland, M., Sommer, D. et al. Phonetisch-akustische Schläfrigkeitsdetektion. Somnologie 15, 24–31 (2011). https://doi.org/10.1007/s11818-010-0497-2

Download citation

Schlüsselwörter

  • Phonetik
  • Sprachakustik
  • Maschinelles Lernen
  • Schläfrigkeit
  • „Support vector machine“

Keywords

  • Phonetics
  • Speech acoustics
  • Machine learning
  • Sleepiness
  • Support vector machine