Analyse
Cet article propose une synthèse des méthodes récentes d’analyse du signal appliquées à la parole. Après avoir rappelé comment la qualité de l’analyse conditionne encore le développement des principales applications du traitement de parole, l’auteur effectue un survol critique des méthodes d’analyse classiques (non paramétriques) disponibles. L’attention se porte, dans un deuxième temps, sur les méthodes paramétriques de modélisation. On donne une introduction à la prédiction linéaire dans le cas d’un horizon court, où la matrice de corrélation estimée n’est plus de Toeplitz. On montre comment, grâce à la notion de rang de déplacement qui caractérise la distance à Toeplitz d’une matrice quelconque, l’existence d’algorithmes rapides, du type Levinson, récursifs en ordre ou en temps peut être maintenue. Enfin, exploitant les résultats précédents, on examine quatre domaines récents prenant en compte le caractère non stationnaire du signal de parole : • l’analyse par des méthodes globales sur des fenêtres courtes, en présence de bruit, avec résolution fréquentielle variable; • l’analyse par des méthodes multi-impulsionnelles modélisant les événements d’entrée par un train d’impulsions; • l’analyse par des méthodes évolutives où le modèle, à paramètres variables, intègre les transitions entre zones stationnaires; • l’analyse par des méthodes récursives adaptatives par des algorithmes rapides avec détection synchrone d’événements. L’article se termine par une perspective sur l’évolution du domaine.
Abstract
This paper provides a survey of recent speech analysis techniques. After stressing the value of a precise and accurate analysis technique in most of speech processing applications, the basic parameter extraction methods are critically summarized. Attention is then focused on parametric modelling methods as applied to speech analysis. After a restatement of the linear prediction principles and associated fast algorithms, the three following topics are examined in some depth : • global analysis methods on short time windows, with variable frequency resolution, and with additive noise; • global analysis by multipulse techniques ; • time evolving methods where a time varying parametric model is adjusted to model the transitions between quasistationnary periods; • time adaptive sequential methods using fast (Kaiman, Cholesky…) algorithms along with a synchronous detection of temporal events.
Similar content being viewed by others
Bibliographie
{saGueguen (C.)}. Introduction à l’analyse de la parole. 7eJEP du GALF. Nancy (mai 1976), vol. 2, exposés de synthèse.
Gueguen (C.),Carayannis (G.). Analyse de la parole par filtrage optimal de Kaiman.Automatisme, Fr. (1973),18, n∘ 3, pp. 99–105.
Gibson (J.),Melsa (J.),Jones (S.). Digital speech analysis using sequential estimation techniques.IEEE Trans. on ASSP, USA (1975),23, n∘ 4, pp. 362–369.
Scarr (R. W.). Zero crossings as a mean of obtaining spectral information in speech analysis.IEEE Trans. on Audio and Electro acoustics, USA (1968), pp. 247–253.
Ito (M. R.),Donaldson (R. W.). Zero crossing measurements for analysis and recognition of speech sounds.IEEE Trans. AU, USA (1971),19, n∘ 3, pp. 235–242.
Niederjohn (R. S.). A mathematical formulation and comparison of zero-crossing analysis techniques which have been applied to Automatic speech recognition.IEEE Trans. on ASSP, USA (1975),23, n∘ 4.
Baudry (M.),Dupeyrat (B.). Analyse du signal vocal. Utilisation des extrêma du signal et leurs amplitudes. Détection du fondamental et recherche des formants. 7eJEP du GALF. Nancy (mai 1976),1, pp. 248–257.
Gold (B.),Rader (C.). The channel vocoder.IEEE Trans. on AU, USA (déc. 1967),15, n∘ 4, pp. 148–161.
Dudley (H.). Remarking speech.J. acoust. Soc. Amer. (1939),11, pp. 1969–1977.
Lienard (J. S.). Speech caracterisation from a rough spectral analysis.IEEE ICASSP, Washington (avr. 1979),79, pp. 595–599.
Galand (C.),Nussbaumer (H.). New quadrature filter structures.IEEE Trans. ASSP, USA (juin 1984),32, n∘ 3, pp. 522–531.
Carayannis (G.). Analyse de la parole par identification récurrente d’un modèle du système de phonation. Thèse de Doct.-Ing.Traitement de l’information, Paris 7 (1973).
Rodet (X.). Analyse du signal vocal dans sa représentation amplitude-temps. Synthèse de la parole par règles. Thèse de Doct. Etat,Univ. P.-M. Curie Paris VI (juin 1977).
Makhoul (J.). Spectral linear prediction: properties and applications.IEEE Trans. ASSP, USA (juin 1975),23, n∘ 3, pp. 283–296.
Kay (S.),Marple (L.). Spectrum analysis. A modern perspective.Proc. of IEEE, USA (nov. 1981),69, n∘ 11, pp. 1380–1419.
Kaveh (M.),Cooper (G. R.). An empirical investigation of the properties of the autoregressive spectral estimator.IEEE Trans. IT, USA (mai 1976),22, n∘ 3, pp. 313–323.
Cartier (M.). Le codage de la parole.L’écho des Rech., Fr. (1979), n∘ 20, pp. 4–11.
Leguyader (A.),Gilloire (A.). Codage différentiel de la parole: algorithmes de prédiction adaptative et performances.Ann. Télécommun., Fr. (1983),39, n∘ 9-10, pp. 381–398.
Gueguen (C.). Modelling of sources and systems : a commented typology.IEEE ASSP workshop, invited talk, L’Aquila (sep. 1981).
Maeda (S.). Acoustic cues of vowel nazalisation : a simulation study 104 ASA Meeting, Orlando (oct. 1982).
Dolmazon (J. M.). Contribution aux recherches sur l’appareil auditif : élaboration et exploitation d’un modèle de fonctionnement du système périphérique. Thèse de Doct. Etat,USMG et INPG, Grenoble (1980).
Caelen (J.). Un modèle d’oreille. Analyse de la parole continue. Reconnaissance phonémique. Thèse de Doct. Etat,UPS, Toulouse (1979).
Delgutte (B.). Speech coding in the auditory nerve, parts I + OV.J. acoust. Soc. Amer, USA (mars 1984),75, n∘ 3, pp. 866–918.
Kailath (T.), Kung (S. Y.), Morf (M.). Displacement rank of a matrice.Bull. Am. Math. Soc. (sep. 1979),1, n∘ 5.
Friedlander (B.), Morf (M.), Kailath (T.), Ljung (L.). New inversion formulas for matrices classified in terms of their distance from Toeplitz matrices.Linear Algebra and its applications, Amsterdam (1979), n∘ 27, pp. 31–60.
Morf (M.), Dickinson (B.), Kailath (T.), Vieira (A.). Efficient solution of covariance equations for linear prediction.IEEE Trans. ASSP, USA (1977),25, n∘ 5.
Ljung (L.), Morf (M.), Falconer (D.). Fast calculation of gain matrices for recursive estimation schemes.Int. J. Contr., GB (1979), n∘ 1, pp. 1–19.
Lakehal (S.). Analyse des signaux aléatoires non stationnaires par identification récursive. Thèse de Doct.-Ing.,ENST-SYC (juil. 1980).
Leroux (J.),Gueguen (C.). A fixed point computation of partial correlation coefficients.IEEE Trans. ASSP, USA (juin 1977),25, n∘ 3, pp. 257–259.
Delosme (J. M.). Algorithms for finite shift rank processes. PhD dissert,Stanford Univ. (sep. 1982).
Carayannis (G.),Manolakis (D.),Kaloupsidis (N.). A fast sequential algorithm for least-squares filtering and prediction.IEEE Trans. ASSP, USA (déc. 1983),31, n∘ 6, pp. 1394–1402.
Lim (J. S.),Oppenheim (A. V.). Enhancement and bandwith compression of noisy speech.Proc. of IEEE, USA (1979),67, n∘ 12, pp. 1586–1604.
Sambur (M.). Adaptive noise cancelling for speech signals.IEEE Trans. ASSP, USA (1978),24, n∘ 5, pp. 419–423.
Kumaresan (R.),Tufts (D.). Accurate parameter estimation of noisy speech like signals.IEEE-ICASSP, Paris (mai 1982),82, pp. 1357–1361.
Bry (K.). Etude d’algorithmes d’identification de modèles autorégressifs lorsque les observations sont bruitées. Applications. Thèse de Doct.-Ing.,ENST-SYC, Fr. (nov. 1982).
Fitzgerald (R. M.),Byrne (C. L.). Extrapolation of band limited signals: a tutorial.EURASIP-EUSIPCO, Lausanne (sep. 1980),80, pp. 175–179.
Oppenheim (A.),Johnson (D.). Discrete representation of signals.Proc. of IEEE, USA (juin 1972),60, pp. 681–691.
Strube (H.). Linear prediction on a warped frequency scale.J. acoust. Soc. Amer. (oct. 1980),68, n∘ 4, pp. 1071–1076.
Lagunas (M.),Figueira (A.),Marino (J.),Vilanova (A.). A linear transform for spectral estimation.IEEE Trans. ASSP, USA (oct. 1981),21, n∘ 5, pp. 989–993.
Chouzenoux (C). Analyse spectrale à résolution variable ; application au signal de parole. Thèse de Doct.-Ing.,ENST-SYC, Fr. (nov. 1982).
Steiglitz (K.). On the simultaneous estimation of poles and zeros in spsech analysis.IEEE Trans. ASSP, USA (juin 1977),25, n∘ 3, pp. 229–234.
Leroux (J.), Giannella (F.). Whiteness criteria forARMA model identification.ECCTD, La Hague (sep. 1981), pp. 822–827.
El Mallawany. Etude de vocodeurs à prédiction linéaire: détection de l’intervalle de fermeture de la glotte, détection de la mélodie, extraction de la fonction d’aire. Thèse de Doct.-Ing., Grenoble (sep. 1975).
Makhoul (J.),Berouti (M.). High frequency regeneration in speech coding systems.Proc. of ICASSP 79, Washington (1979), pp. 428–431.
Leguyader (A.). Etude d’un vocodeur à excitation vocale et à base de prédiction linéaire. Thèse 3e C.,Univ. Rennes (juin 1978).
Mourikis (C.). Conception d’un vocodeur à excitation vocale à 9 600 bit/s. Thèse de Doct.-Ing.,ENST (nov. 1979), E-79006.
Atal (B. S.),Remde (J. R.). A new model ofLPC excitation producing natural-sounding speech at low bit rates.Proc. of ICASSP, Paris (1982), p. 614.
Atal (B. S.),Remde (J. R.). OptimizingLPC filter parameters for multipulse excitation.Proc. of ICASSP, Boston (1983), 17–2.
Jain (V. K.). Efficient algorithm for multipulseLPC analysis of spsech.Proc. of ICASSP, San Diego (1984), 1-4-1.
Berouti (M.),Garten (H.),Kabal (P.),Mermelstein (P.). Efficient computation and encoding of the multi-pulse excitation forLPC.Proc. of ICASSP, San Diego (1984), 10-2-1.
Singhal (S.),Atal (B. S.). Improving performance of multipulseLPC coders at low bit rates.Proc. of ICASSP, San Diego (1984), 1-3-1.
Stella (M.). Synthèse de la parole.L’écho des Rech., Fr. (1984), n∘ 115, pp. 21–32.
McCandless (N.). An algorithm for automatic formant extraction using linear prediction spectra.IEEE Trans. ASSP, USA (avr. 1974),22, n∘ 2.
Carayannis (G.). Modélisation des transitions phonémiques. Application à la segmentation de parole. 4e JEP duGALF, Bruxelles (1973), pp. 307–316.
Poritz (A. B.). Linear predictive hidden markov chain models and the speech signals.IEEE ICASSP, Paris (mai 1982), pp. 1291–1294.
Liporace (L.). Linear estimation of non stationary signals.J. Acoust. Soc. Am., USA (1975),58, n∘ 6, pp. 1288–1295.
Hall (M.),Oppenheim (A.),Willsky (A.). Time varying modelling of speech.Signal Processing (mai 1983),5, n∘ 3, pp. 267–285.
Grenier (Y.). Time dependentARMA modeling of non stationary signals.IEEE Trans. ASSP, USA (1983),31, n∘ 4, pp. 899–911.
Grenier (Y.). Time-frequency analysis using time-dependentARMA models.IEEE ICASSP, San Diego (1984), tome 3, 41B5.
Andre (R.), Basseville (M.), Benveniste (A.). Un exemple de segmentation en temps réel du signal de parole.CNRS ATP, outils mathématiques, séminaire ruptures, Fr. (mars 1984).
Deshayes (J.). Ruptures de modèles en statistique. Thèse de Doct. Etat, Mathématiques,Université de Paris-Sud (mai 1983).
Lakehal (S.). On line segmentation of quasi-stationary signals using auto-regressive order selection. 1er EURASIPEUSIPCO, Lausanne (sep. 1980).
Leroux (J.). Une méthode synchrone d’analyse en temps réel du fondamental. 6e JEPGALF, Toulouse (1975), pp. 3–11.
Carayannis (G.). Analyse de la parole par identification récursive d’un modèle du système de phonation. Thèse de Doct.-Ing., Traitement de l’information,Univ. Paris 7 (1973).
Barral (H.), Moreau (N.), Nguyen-Huu (D.), Sauvee (P.). Circuits intégrés modulaires pour le traitement du signal. 9eGRETSI, Nice (mai 1983).
Barral (H.),Moreau (N.). Circuits for digital signal processing.IEEE-ICASSP, San Diego (1984), pp. 44.9.
Author information
Authors and Affiliations
Rights and permissions
About this article
Cite this article
Gueguen, C. Analyse de la parole par les méthodes de modélisation paramétrique. Ann. Télécommun. 40, 253–269 (1985). https://doi.org/10.1007/BF03004501
Received:
Accepted:
Issue Date:
DOI: https://doi.org/10.1007/BF03004501
Mots clés
- Analyse parole
- Modélisation
- Méthode paramétrique
- Analyse signal
- Article synthèse
- Modèle autorégressif
- Moyenne mobile
- Matrice covariance
- Matrice Toeplitz
- Signal non stationnaire
- Fenêtre temporelle
- Méthode globale
- Récursivité