Voice Conversion by modelling and transformation of extended voice characteristics - Thèses de l'Université Pierre et Marie Curie Accéder directement au contenu
Thèse Année : 2015

Voice Conversion by modelling and transformation of extended voice characteristics

Conversion de voix par modélisation et transformation de caractéristiques de voix étendues

Stefan Huber
  • Fonction : Auteur
  • PersonId : 935257

Résumé

Voice Conversion (VC) aims at transforming the characteristics of a source speaker’s voice in such a way that it will be perceived as being uttered by a target speaker. The principle of VC is to define mapping functions for the conversion from one source speaker’s voice to one target speaker’s voice. The transformation functions of common STAte-of-the-ART (START) VC system adapt instantaneously to the characteristics of the source voice. While recent VC systems have made considerable progress over the conversion quality of initial approaches, the quality is nevertheless not yet sufficient. Considerable improvements are required before VC techniques can be used in a professional industrial environment. The objective of this thesis is to augment the quality of Voice Conversion to facilitate its industrial applicability to a reasonable extent. The basic properties of diff erent START algorithms for Voice Conversion are discussed on their intrinsic advantages and shortcomings. Based on experimental evaluations of one GMM-based START VC approach the conclusion is that most VC systems which rely on statistical models are, due to averaging effect of the linear regression, less appropriate to achieve a high enough similarity score to the target speaker required for industrial usage. The contributions established throughout the work for this thesis lie in the extended means to a) model the glottal excitation source, b) model a voice descriptor set using a novel speech system based on an extended source-filter model, and c) to further advance IRCAM’s novel VC system by combining it with the contributions of a) and b). a) Improvements to estimate the shape of the deterministic part of the glottal excitation source from speech signals are presented in this thesis. A STAte-of-the-ART method based on phase minimization to estimate the shape parameter Rd of the glottal source model LF has been considerably enhanced. First, the adaptation and extension of the utilized Rd parameter range avoids inconsistencies in the frame-based estimator. Second, the utilization of Viterbi smoothing suppresses unnatural jumps of the estimated glottal source parameter contour within short-time segments. Third, the exploitation of the correlation of other co-varying voice descriptors to additionally steer the Viterbi algorithm augments the estimators robustness, especially in segments with few stable harmonic sinusoids available where the phased minimization based paradigm is more error prone. b) The estimation of the glottal excitation source is utilized to extract the contribution of the Vocal Tract Filter (VTF) from the spectral envelope by means of dividing the spectral envelope of the glottal pulse. This facilitates altering the voice quality of a given speech phrase by means of exciting the VTF with altered glottal pulse shapes. A novel speech system is presented which allows for the analysis, transformation and synthesis of di fferent voice descriptors such as glottal excitation source, intensity, fundamental frequency and the voiced / unvoiced frequency boundary. The proposed speech framework PSY derives from Parametric Speech SYnthesis to indicate its fully parametric design to construct a speech phrase for synthesis. PSY is based on the separate processing of the voiced deterministic and the unvoiced stochastic part of a speech signal. Each voice descriptor and VTF or spectral envelope required for synthesis can be introduced from the same or diff erent speakers. This flexibility allows for many voice modification possibilities or the generation of a human voice avatar.
Voice Conversion (VC) aims at transforming the characteristics of a source speaker’s voice in such a way that it will be perceived as being uttered by a target speaker. The principle of VC is to define mapping functions for the conversion from one source speaker’s voice to one target speaker’s voice. The transformation functions of common STAte-of-the-ART (START) VC system adapt instantaneously to the characteristics of the source voice. While recent VC systems have made considerable progress over the conversion quality of initial approaches, the quality is nevertheless not yet sufficient. Considerable improvements are required before VC techniques can be used in a professional industrial environment. The objective of this thesis is to augment the quality of Voice Conversion to facilitate its industrial applicability to a reasonable extent. The basic properties of diff erent START algorithms for Voice Conversion are discussed on their intrinsic advantages and shortcomings. Based on experimental evaluations of one GMM-based START VC approach the conclusion is that most VC systems which rely on statistical models are, due to averaging e ffect of the linear regression, less appropriate to achieve a high enough similarity score to the target speaker required for industrial usage. The contributions established throughout the work for this thesis lie in the extended means to a) model the glottal excitation source, b) model a voice descriptor set using a novel speech system based on an extended source-filter model, and c) to further advance IRCAM’s novel VC system by combining it with the contributions of a) and b). a) Improvements to estimate the shape of the deterministic part of the glottal excitation source from speech signals are presented in this thesis. A STAte-of-the-ART method based on phase minimization to estimate the shape parameter Rd of the glottal source model LF has been considerably enhanced. First, the adaptation and extension of the utilized Rd parameter range avoids inconsistencies in the frame-based estimator. Second, the utilization of Viterbi smoothing suppresses unnatural jumps of the estimated glottal source parameter contour within short-time segments. Third, the exploitation of the correlation of other co-varying voice descriptors to additionally steer the Viterbi algorithm augments the estimators robustness, especially in segments with few stable harmonic sinusoids available where the phased minimization based paradigm is more error prone. b) The estimation of the glottal excitation source is utilized to extract the contribution of the Vocal Tract Filter (VTF) from the spectral envelope by means of dividing the spectral envelope of the glottal pulse. This facilitates altering the voice quality of a given speech phrase by means of exciting the VTF with altered glottal pulse shapes. A novel speech system is presented which allows for the analysis, transformation and synthesis of di fferent voice descriptors such as glottal excitation source, intensity, fundamental frequency and the voiced / unvoiced frequency boundary. The proposed speech framework PSY derives from Parametric Speech SYnthesis to indicate its fully parametric design to construct a speech phrase for synthesis. PSY is based on the separate processing of the voiced deterministic and the unvoiced stochastic part of a speech signal. Each voice descriptor and VTF or spectral envelope required for synthesis can be introduced from the same or diff erent speakers. This flexibility allows for many voice modification possibilities or the generation of a human voice avatar. c) Please note that this part of the abstract is confidential and can therefore not be shown for the time being. It is related to IRCAM’s novel VC system which is currently patent pending. 3802/5000 Voice Conversion (VC) vise à transformer les caractéristiques de la voix d’un locuteur source de telle sorte qu’elle soit perçue comme telle par un locuteur cible. Le principe de VC est de définir des fonctions de mappage pour la conversion d’une voix d’un locuteur source en une voix d’un locuteur cible. Les fonctions de transformation du système VC commun STAte-of-ART (START) s’adaptent instantanément aux caractéristiques de la voix source. Bien que les systèmes de capital-risque récents aient considérablement progressé en ce qui concerne la qualité de conversion des approches initiales, la qualité n’en est toutefois pas encore suffisante. Des améliorations considérables sont nécessaires avant que les techniques de CV puissent être utilisées dans un environnement industriel professionnel. L'objectif de cette thèse est d'augmenter la qualité de la conversion vocale afin de faciliter son applicabilité industrielle dans une mesure raisonnable. Les propriétés de base des différents algorithmes START pour la conversion vocale sont décrites en fonction de leurs avantages et inconvénients intrinsèques. D'après des évaluations expérimentales d'une approche START VC basée sur GMM, la conclusion est que la plupart des systèmes de VC qui s'appuient sur des modèles statistiques sont, en raison de la moyenne de l'effet de la régression linéaire, moins appropriés pour obtenir un score de similarité suffisamment élevé avec le locuteur cible requis pour usage industriel. Les contributions établies tout au long du travail pour cette thèse résident dans les moyens étendus de: a) modéliser la source d’excitation glottale, b) modéliser un ensemble de descripteurs de voix en utilisant un nouveau système de parole basé sur un modèle de filtre source-filtre étendu, et c) faire avancer Le nouveau système de VC de l'Ircam en le combinant avec les contributions de a) et b). a) Des améliorations pour estimer la forme de la partie déterministe de la source d'excitation glottale à partir de signaux de parole sont présentées dans cette thèse. Une méthode STAte-of-ART basée sur la minimisation de phase pour estimer le paramètre de forme Rd du modèle source glottal LF a été considérablement améliorée. Premièrement, l’adaptation et l’extension de la plage de paramètres Rd utilisée évitent les incohérences dans l’estimateur basé sur la base de sondage. Deuxièmement, l'utilisation du lissage de Viterbi supprime les sauts non naturels du contour de paramètre source glottal estimé au sein de segments à court terme. Troisièmement, l'exploitation de la corrélation d'autres descripteurs de voix co-variables pour orienter en outre l'algorithme de Viterbi augmente la robustesse des estimateurs, en particulier dans les segments pour lesquels il existe peu de sinusoïdes harmoniques stables où le paradigme basé sur la minimisation progressive est plus sujet aux erreurs. b) L’estimation de la source d’excitation glottale est utilisée pour extraire la contribution du filtre de voie vocale (VTF) de l’enveloppe spectrale au moyen de la division de l’enveloppe spectrale de l’impulsion glottique. Cela facilite la modification de la qualité de la voix d’une phrase donnée en excitant le VTF avec des formes d’impulsions glottales modifiées. Un nouveau système de parole est présenté, qui permet l'analyse, la transformation et la synthèse de différents descripteurs de voix tels que la source d'excitation glottale, l'intensité, la fréquence fondamentale et la limite de fréquence exprimée / non exprimée. Le cadre de langage proposé, PSY, découle de SYnthesis de langage paramétrique pour indiquer sa conception entièrement paramétrique permettant de construire une expression de langage à synthétiser. PSY est basé sur le traitement séparé des parties déterministe et stochastique non exprimée d’un signal de parole. Chaque descripteur de voix et VTF ou enveloppe spectrale requis pour la synthèse peut être introduit à partir du même ou de différents locuteurs. Cette flexibilité permet de nombreuses possibilités de modification de la voix ou la génération d'un avatar à voix humaine.
Fichier principal
Vignette du fichier
Huber 2015 - Voice Conversion by Modelling and Transformation of extended Voice Characteristics - PhD (Patent shown).pdf (50.89 Mo) Télécharger le fichier
Origine : Fichiers produits par l'(les) auteur(s)
Loading...

Dates et versions

tel-02317057 , version 1 (22-06-2016)
tel-02317057 , version 2 (15-10-2019)
tel-02317057 , version 3 (30-03-2022)

Identifiants

  • HAL Id : tel-02317057 , version 2

Citer

Stefan Huber. Voice Conversion by modelling and transformation of extended voice characteristics. Signal and Image Processing. Signal and Image Processing, 2015. English. ⟨NNT : ⟩. ⟨tel-02317057v2⟩
509 Consultations
364 Téléchargements

Partager

Gmail Facebook X LinkedIn More