English bellow [Apologies if you receive multiple copies]
____________________________________________________________________________________________________ Grégory BELLER soutiendra publiquement
sa thèse de doctorat IRCAM-Paris VI:
"Analyse et modèle génératif de l'expressivité. Application à la parole et à l'interprétation musicale" MERCREDI 24 JUIN 2009 à 14H00, en salle Stravinsky, Ircam
IRCAM, 1 pl. Igor Stravinsky, Paris La thèse est dirigée par Xavier Rodet, et réalisée à l'Ircam au sein de l'équipe Analyse et synthèse des sons La soutenance de thèse se fera devant un jury composé de :
Gérard Bailly rapporteur GIPSA-lab
Christophe D'Alessandro examinateur LIMSI-CNRS
Laurence Devillers rapporteure LIMSI-CNRS
Thierry Dutoit examinateur TCTS
Axel Roebel
examinateur Ircam
Xavier Rodet directeur de thèse, Ircam
Jean-Luc Zarader examinateur ISIR
La soutenance se fera en Français. Elle est publique et vous
êtes les bienvenus dans la limite des places disponibles. Elle sera
suivie d'un pot, sur place. Pour ceux qui ne pourraient se déplacer,
elle sera retransmise à l'adresse suivante: http://video.ircam.fr/
Résumé
Cette thèse s'inscrit dans les recherches actuelles sur les
émotions et les réactions émotionnelles, sur la modélisation et la
transformation de la parole, ainsi que sur l'interprétation musicale.
Il semble que la capacité d'exprimer, de simuler et d'identifier des
émotions, des humeurs, des intentions ou des attitudes, soit
fondamentale dans la communication humaine. La facilité avec laquelle
nous comprenons l'état d'un personnage, à partir de la seule
observation du comportement des acteurs et des sons qu'ils émettent,
montre que cette source d'information est essentielle et, parfois même,
suffisante dans nos relations sociales. Si l'état émotionnel présente
la particularité d'être idiosyncrasique, c'est-à-dire particulier à
chaque individu, il n'en va pas de même de la réaction associée qui se
manifeste par le geste (mouvement, posture, visage...), le son (voix,
musique...), et qui, elle, est observable par autrui. Ce qui nous
permet de penser qu'il est possible de transformer cette réaction dans
le but de modifier la perception de l'émotion associée.
C'est pourquoi le paradigme d'analyse-transformation-synthèse des
réactions émotionnelles est, peu à peu, introduit dans les domaines
thérapeutique, commercial, scientifique et artistique. Cette thèse
s'inscrit dans ces deux derniers domaines et propose plusieurs
contributions.
D'un point de vue théorique, cette thèse propose une définition de
l'expressivité, une définition de l'expressivité neutre, un nouveau
mode de représentation de l'expressivité, ainsi qu'un ensemble de
catégories expressives communes à la parole et à la musique. Elle situe
l'expressivité parmi le recensement des niveaux d'information
disponibles dans l'interprétation qui peut être vu comme un modèle de
la performance artistique. Elle propose un modèle original de la parole
et de ses constituants, ainsi qu'un nouveau modèle prosodique
hiérarchique.
D'un point de vue expérimental, cette thèse fournit un protocole
pour l'acquisition de données expressives interprétées. Colatéralement,
elle rend disponible trois corpus pour l'observation de l'expressivité.
Elle fournit une nouvelle mesure statistique du degré d'articulation
ainsi que plusieurs résultats d'analyses concernant l'influence de
l'expressivité sur la parole.
D'un point de vue technique, elle propose un algorithme de
traitement du signal permettant la modification du degré
d'articulation. Elle présente un système de gestion de corpus novateur
qui est, d'ores et déjà, utilisé par d'autres applications du
traitement automatique de la parole, nécessitant la manipulation de
corpus. Elle montre l'établissement d'un réseau bayésien en tant que
modèle génératif de paramètres de transformation dépendants du contexte.
D'un point de vue technologique, un système expérimental de
transformation, de haute qualité, de l'expressivité d'une phrase
neutre, en français, synthétique ou enregistrée, a été produit.
Enfin et surtout, d'un point de vue prospectif, cette thèse
propose différentes pistes de recherche pour l'avenir, tant sur les
plans théorique, expérimental, technique, que technologique. Parmi
celles-ci, la confrontation des manifestations de l'expressivité dans
les interprétations verbale et musicale semble être une voie
prometteuse.
Mots-clés
Émotions,
expressivité, performance artistique, interprétation musicale, parole,
prosodie, transformation du signal de parole, modélisation générative,
apprentissage, réseau bayésien.
_____________________________________________________________________________________________________________________________________ Grégory Beller, IRCAM-Paris VI Analysis and Generative Model of the Expressivity. Application in the Speech and in the Musical Performance.WEDNESDAY, JUNE 24TH, 2009 at 2:00 pm, in room
Stravinsky, Ircam Ph.D. Supervisor: Xavier Rodet (IRCAM) The defense is public and will be made in French.
It will be followed by a drink, on the spot. For those who could not
move, it will be broadcast at the following address:
http://video.ircam.fr/ AbstractThis thesis joins in the current searches (researches) on the feelings and the emotional reactions, on the modelling and the transformation of the speech, as well as on the musical performance. It seems that the capacity to express, to feign and to identify emotions, humors, intentions or attitudes, is fundamental in the human communication. The ease with which we understand the state of a character, from the only observation of the behavior of the actors and the sounds which the yutter, shows that this source of information is essential and, sometimes, sufficient in our social relationships. If the emotional state presents the peculiarity to be idiosyncratic, that is private to every individual, it does not also go away of the associated reaction which shows itself by the gesture (movement, posture, face), the sound (voice, music), and which, it is observable by others. That is why paradigm of analysis-transformation-synthesis of the emotional reactions grows on into the therapeutic, commercial, scientific and artistic domains. This thesis joins in these last two domains and proposes several contributions. From a theoretical point of view, this thesis proposes a definition of the expressivity, a definition of the neutral expressivity, a new representation mode of the expressivity, as well as a set of expressive categories common to the speech and to the music. It places the expressivity among the census of the available levels of information in the performance which can be seen as amodel of the artistic performance. It proposes an original model of the speech and its constituents, as well as a new hierarchical prosodic model. From an experimental point of view, this thesis supplies a protocol for the acquisition of performed expressive data. Collaterally, it makes available three corpora for the observation of the expressivity. It supplies a new statistical measure of the degree of articulation as well as several analysis results concerning the influence of the expressivity on the speech. From a technical point of view, it proposes a speech processing algorithm allowing the modification of the degree of articulation. It presents an innovative database management system which is used, already, by some other automatic speech processing applications, requiring the manipulation of corpus. It shows the establishment of a bayesian network as generative model of context dependent transformation parameters. From a technological point of view, an experimental system of high quality transformation of the expressivity of a French neutral utterance, either synthetic or recorded, has been produced, as well as a non-line interface for perceptive tests. Finally and especially, from a forward-looking point of view, this thesis proposes various research tracks for the future, both on the theoretical, experimental, technical, and technological aspects. Among these, the confrontation of the demonstrations of the expressivity in the speech and in the musical performance seems to be a promising way. Keywords |