Skip to main content
Log in

Analyse de la parole par les méthodes de modélisation paramétrique

Speech analysis by parametric modelling methods : A survey

  • Published:
Annales Des Télécommunications Aims and scope Submit manuscript

Analyse

Cet article propose une synthèse des méthodes récentes d’analyse du signal appliquées à la parole. Après avoir rappelé comment la qualité de l’analyse conditionne encore le développement des principales applications du traitement de parole, l’auteur effectue un survol critique des méthodes d’analyse classiques (non paramétriques) disponibles. L’attention se porte, dans un deuxième temps, sur les méthodes paramétriques de modélisation. On donne une introduction à la prédiction linéaire dans le cas d’un horizon court, où la matrice de corrélation estimée n’est plus de Toeplitz. On montre comment, grâce à la notion de rang de déplacement qui caractérise la distance à Toeplitz d’une matrice quelconque, l’existence d’algorithmes rapides, du type Levinson, récursifs en ordre ou en temps peut être maintenue. Enfin, exploitant les résultats précédents, on examine quatre domaines récents prenant en compte le caractère non stationnaire du signal de parole : • l’analyse par des méthodes globales sur des fenêtres courtes, en présence de bruit, avec résolution fréquentielle variable; • l’analyse par des méthodes multi-impulsionnelles modélisant les événements d’entrée par un train d’impulsions; • l’analyse par des méthodes évolutives où le modèle, à paramètres variables, intègre les transitions entre zones stationnaires; • l’analyse par des méthodes récursives adaptatives par des algorithmes rapides avec détection synchrone d’événements. L’article se termine par une perspective sur l’évolution du domaine.

Abstract

This paper provides a survey of recent speech analysis techniques. After stressing the value of a precise and accurate analysis technique in most of speech processing applications, the basic parameter extraction methods are critically summarized. Attention is then focused on parametric modelling methods as applied to speech analysis. After a restatement of the linear prediction principles and associated fast algorithms, the three following topics are examined in some depth : • global analysis methods on short time windows, with variable frequency resolution, and with additive noise; • global analysis by multipulse techniques ; • time evolving methods where a time varying parametric model is adjusted to model the transitions between quasistationnary periods; • time adaptive sequential methods using fast (Kaiman, Cholesky…) algorithms along with a synchronous detection of temporal events.

This is a preview of subscription content, log in via an institution to check access.

Access this article

Price excludes VAT (USA)
Tax calculation will be finalised during checkout.

Instant access to the full article PDF.

Similar content being viewed by others

Bibliographie

  1. {saGueguen (C.)}. Introduction à l’analyse de la parole. 7eJEP du GALF. Nancy (mai 1976), vol. 2, exposés de synthèse.

  2. Gueguen (C.),Carayannis (G.). Analyse de la parole par filtrage optimal de Kaiman.Automatisme, Fr. (1973),18, n∘ 3, pp. 99–105.

    Google Scholar 

  3. Gibson (J.),Melsa (J.),Jones (S.). Digital speech analysis using sequential estimation techniques.IEEE Trans. on ASSP, USA (1975),23, n∘ 4, pp. 362–369.

    Article  Google Scholar 

  4. Scarr (R. W.). Zero crossings as a mean of obtaining spectral information in speech analysis.IEEE Trans. on Audio and Electro acoustics, USA (1968), pp. 247–253.

    Google Scholar 

  5. Ito (M. R.),Donaldson (R. W.). Zero crossing measurements for analysis and recognition of speech sounds.IEEE Trans. AU, USA (1971),19, n∘ 3, pp. 235–242.

    Google Scholar 

  6. Niederjohn (R. S.). A mathematical formulation and comparison of zero-crossing analysis techniques which have been applied to Automatic speech recognition.IEEE Trans. on ASSP, USA (1975),23, n∘ 4.

    Google Scholar 

  7. Baudry (M.),Dupeyrat (B.). Analyse du signal vocal. Utilisation des extrêma du signal et leurs amplitudes. Détection du fondamental et recherche des formants. 7eJEP du GALF. Nancy (mai 1976),1, pp. 248–257.

    Google Scholar 

  8. Gold (B.),Rader (C.). The channel vocoder.IEEE Trans. on AU, USA (déc. 1967),15, n∘ 4, pp. 148–161.

    Google Scholar 

  9. Dudley (H.). Remarking speech.J. acoust. Soc. Amer. (1939),11, pp. 1969–1977.

    Google Scholar 

  10. Lienard (J. S.). Speech caracterisation from a rough spectral analysis.IEEE ICASSP, Washington (avr. 1979),79, pp. 595–599.

    Google Scholar 

  11. Galand (C.),Nussbaumer (H.). New quadrature filter structures.IEEE Trans. ASSP, USA (juin 1984),32, n∘ 3, pp. 522–531.

    Article  Google Scholar 

  12. Carayannis (G.). Analyse de la parole par identification récurrente d’un modèle du système de phonation. Thèse de Doct.-Ing.Traitement de l’information, Paris 7 (1973).

  13. Rodet (X.). Analyse du signal vocal dans sa représentation amplitude-temps. Synthèse de la parole par règles. Thèse de Doct. Etat,Univ. P.-M. Curie Paris VI (juin 1977).

  14. Makhoul (J.). Spectral linear prediction: properties and applications.IEEE Trans. ASSP, USA (juin 1975),23, n∘ 3, pp. 283–296.

    Article  Google Scholar 

  15. Kay (S.),Marple (L.). Spectrum analysis. A modern perspective.Proc. of IEEE, USA (nov. 1981),69, n∘ 11, pp. 1380–1419.

    Article  Google Scholar 

  16. Kaveh (M.),Cooper (G. R.). An empirical investigation of the properties of the autoregressive spectral estimator.IEEE Trans. IT, USA (mai 1976),22, n∘ 3, pp. 313–323.

    Article  MATH  Google Scholar 

  17. Cartier (M.). Le codage de la parole.L’écho des Rech., Fr. (1979), n∘ 20, pp. 4–11.

  18. Leguyader (A.),Gilloire (A.). Codage différentiel de la parole: algorithmes de prédiction adaptative et performances.Ann. Télécommun., Fr. (1983),39, n∘ 9-10, pp. 381–398.

    Google Scholar 

  19. Gueguen (C.). Modelling of sources and systems : a commented typology.IEEE ASSP workshop, invited talk, L’Aquila (sep. 1981).

  20. Maeda (S.). Acoustic cues of vowel nazalisation : a simulation study 104 ASA Meeting, Orlando (oct. 1982).

  21. Dolmazon (J. M.). Contribution aux recherches sur l’appareil auditif : élaboration et exploitation d’un modèle de fonctionnement du système périphérique. Thèse de Doct. Etat,USMG et INPG, Grenoble (1980).

  22. Caelen (J.). Un modèle d’oreille. Analyse de la parole continue. Reconnaissance phonémique. Thèse de Doct. Etat,UPS, Toulouse (1979).

    Google Scholar 

  23. Delgutte (B.). Speech coding in the auditory nerve, parts I + OV.J. acoust. Soc. Amer, USA (mars 1984),75, n∘ 3, pp. 866–918.

    Article  Google Scholar 

  24. Kailath (T.), Kung (S. Y.), Morf (M.). Displacement rank of a matrice.Bull. Am. Math. Soc. (sep. 1979),1, n∘ 5.

  25. Friedlander (B.), Morf (M.), Kailath (T.), Ljung (L.). New inversion formulas for matrices classified in terms of their distance from Toeplitz matrices.Linear Algebra and its applications, Amsterdam (1979), n∘ 27, pp. 31–60.

  26. Morf (M.), Dickinson (B.), Kailath (T.), Vieira (A.). Efficient solution of covariance equations for linear prediction.IEEE Trans. ASSP, USA (1977),25, n∘ 5.

    Google Scholar 

  27. Ljung (L.), Morf (M.), Falconer (D.). Fast calculation of gain matrices for recursive estimation schemes.Int. J. Contr., GB (1979), n∘ 1, pp. 1–19.

  28. Lakehal (S.). Analyse des signaux aléatoires non stationnaires par identification récursive. Thèse de Doct.-Ing.,ENST-SYC (juil. 1980).

  29. Leroux (J.),Gueguen (C.). A fixed point computation of partial correlation coefficients.IEEE Trans. ASSP, USA (juin 1977),25, n∘ 3, pp. 257–259.

    Article  Google Scholar 

  30. Delosme (J. M.). Algorithms for finite shift rank processes. PhD dissert,Stanford Univ. (sep. 1982).

  31. Carayannis (G.),Manolakis (D.),Kaloupsidis (N.). A fast sequential algorithm for least-squares filtering and prediction.IEEE Trans. ASSP, USA (déc. 1983),31, n∘ 6, pp. 1394–1402.

    Article  MATH  Google Scholar 

  32. Lim (J. S.),Oppenheim (A. V.). Enhancement and bandwith compression of noisy speech.Proc. of IEEE, USA (1979),67, n∘ 12, pp. 1586–1604.

    Article  Google Scholar 

  33. Sambur (M.). Adaptive noise cancelling for speech signals.IEEE Trans. ASSP, USA (1978),24, n∘ 5, pp. 419–423.

    Article  Google Scholar 

  34. Kumaresan (R.),Tufts (D.). Accurate parameter estimation of noisy speech like signals.IEEE-ICASSP, Paris (mai 1982),82, pp. 1357–1361.

    Google Scholar 

  35. Bry (K.). Etude d’algorithmes d’identification de modèles autorégressifs lorsque les observations sont bruitées. Applications. Thèse de Doct.-Ing.,ENST-SYC, Fr. (nov. 1982).

  36. Fitzgerald (R. M.),Byrne (C. L.). Extrapolation of band limited signals: a tutorial.EURASIP-EUSIPCO, Lausanne (sep. 1980),80, pp. 175–179.

    Google Scholar 

  37. Oppenheim (A.),Johnson (D.). Discrete representation of signals.Proc. of IEEE, USA (juin 1972),60, pp. 681–691.

    Article  Google Scholar 

  38. Strube (H.). Linear prediction on a warped frequency scale.J. acoust. Soc. Amer. (oct. 1980),68, n∘ 4, pp. 1071–1076.

    Article  Google Scholar 

  39. Lagunas (M.),Figueira (A.),Marino (J.),Vilanova (A.). A linear transform for spectral estimation.IEEE Trans. ASSP, USA (oct. 1981),21, n∘ 5, pp. 989–993.

    Article  Google Scholar 

  40. Chouzenoux (C). Analyse spectrale à résolution variable ; application au signal de parole. Thèse de Doct.-Ing.,ENST-SYC, Fr. (nov. 1982).

  41. Steiglitz (K.). On the simultaneous estimation of poles and zeros in spsech analysis.IEEE Trans. ASSP, USA (juin 1977),25, n∘ 3, pp. 229–234.

    Article  Google Scholar 

  42. Leroux (J.), Giannella (F.). Whiteness criteria forARMA model identification.ECCTD, La Hague (sep. 1981), pp. 822–827.

  43. El Mallawany. Etude de vocodeurs à prédiction linéaire: détection de l’intervalle de fermeture de la glotte, détection de la mélodie, extraction de la fonction d’aire. Thèse de Doct.-Ing., Grenoble (sep. 1975).

    Google Scholar 

  44. Makhoul (J.),Berouti (M.). High frequency regeneration in speech coding systems.Proc. of ICASSP 79, Washington (1979), pp. 428–431.

    Google Scholar 

  45. Leguyader (A.). Etude d’un vocodeur à excitation vocale et à base de prédiction linéaire. Thèse 3e C.,Univ. Rennes (juin 1978).

  46. Mourikis (C.). Conception d’un vocodeur à excitation vocale à 9 600 bit/s. Thèse de Doct.-Ing.,ENST (nov. 1979), E-79006.

  47. Atal (B. S.),Remde (J. R.). A new model ofLPC excitation producing natural-sounding speech at low bit rates.Proc. of ICASSP, Paris (1982), p. 614.

    Google Scholar 

  48. Atal (B. S.),Remde (J. R.). OptimizingLPC filter parameters for multipulse excitation.Proc. of ICASSP, Boston (1983), 17–2.

    Google Scholar 

  49. Jain (V. K.). Efficient algorithm for multipulseLPC analysis of spsech.Proc. of ICASSP, San Diego (1984), 1-4-1.

    Google Scholar 

  50. Berouti (M.),Garten (H.),Kabal (P.),Mermelstein (P.). Efficient computation and encoding of the multi-pulse excitation forLPC.Proc. of ICASSP, San Diego (1984), 10-2-1.

    Google Scholar 

  51. Singhal (S.),Atal (B. S.). Improving performance of multipulseLPC coders at low bit rates.Proc. of ICASSP, San Diego (1984), 1-3-1.

    Google Scholar 

  52. Stella (M.). Synthèse de la parole.L’écho des Rech., Fr. (1984), n∘ 115, pp. 21–32.

  53. McCandless (N.). An algorithm for automatic formant extraction using linear prediction spectra.IEEE Trans. ASSP, USA (avr. 1974),22, n∘ 2.

    Google Scholar 

  54. Carayannis (G.). Modélisation des transitions phonémiques. Application à la segmentation de parole. 4e JEP duGALF, Bruxelles (1973), pp. 307–316.

  55. Poritz (A. B.). Linear predictive hidden markov chain models and the speech signals.IEEE ICASSP, Paris (mai 1982), pp. 1291–1294.

    Google Scholar 

  56. Liporace (L.). Linear estimation of non stationary signals.J. Acoust. Soc. Am., USA (1975),58, n∘ 6, pp. 1288–1295.

    Article  Google Scholar 

  57. Hall (M.),Oppenheim (A.),Willsky (A.). Time varying modelling of speech.Signal Processing (mai 1983),5, n∘ 3, pp. 267–285.

    Article  Google Scholar 

  58. Grenier (Y.). Time dependentARMA modeling of non stationary signals.IEEE Trans. ASSP, USA (1983),31, n∘ 4, pp. 899–911.

    Article  Google Scholar 

  59. Grenier (Y.). Time-frequency analysis using time-dependentARMA models.IEEE ICASSP, San Diego (1984), tome 3, 41B5.

    Google Scholar 

  60. Andre (R.), Basseville (M.), Benveniste (A.). Un exemple de segmentation en temps réel du signal de parole.CNRS ATP, outils mathématiques, séminaire ruptures, Fr. (mars 1984).

  61. Deshayes (J.). Ruptures de modèles en statistique. Thèse de Doct. Etat, Mathématiques,Université de Paris-Sud (mai 1983).

  62. Lakehal (S.). On line segmentation of quasi-stationary signals using auto-regressive order selection. 1er EURASIPEUSIPCO, Lausanne (sep. 1980).

  63. Leroux (J.). Une méthode synchrone d’analyse en temps réel du fondamental. 6e JEPGALF, Toulouse (1975), pp. 3–11.

  64. Carayannis (G.). Analyse de la parole par identification récursive d’un modèle du système de phonation. Thèse de Doct.-Ing., Traitement de l’information,Univ. Paris 7 (1973).

  65. Barral (H.), Moreau (N.), Nguyen-Huu (D.), Sauvee (P.). Circuits intégrés modulaires pour le traitement du signal. 9eGRETSI, Nice (mai 1983).

  66. Barral (H.),Moreau (N.). Circuits for digital signal processing.IEEE-ICASSP, San Diego (1984), pp. 44.9.

    Google Scholar 

Download references

Author information

Authors and Affiliations

Authors

Rights and permissions

Reprints and permissions

About this article

Cite this article

Gueguen, C. Analyse de la parole par les méthodes de modélisation paramétrique. Ann. Télécommun. 40, 253–269 (1985). https://doi.org/10.1007/BF03004501

Download citation

  • Received:

  • Accepted:

  • Issue Date:

  • DOI: https://doi.org/10.1007/BF03004501

Mots clés

Key words

Navigation