PhD position in diagnostic method for voice quality at Orange Labs in Lannion (France)

Campaign 2010

Description of the PHD

Orange Labs Supervisor:

Location:

PHD title:

Development of a technical diagnostic method for voice quality impairments perceived in telephone communications, based on an analysis of speech signal.

Global context and state of the art

The assessment of perceived quality of voice communications can be performed thanks to two rather distinct families of tools:

- Signal analysis techniques, from simple measures like signal level or spectrum until complex “psycho-acoustical” models combining signal analysis and modelling of human perception and judgment (like PESQ, ITU-T P.862).

- Parametric techniques based on an interpretation of technical factors not linked to the signal itself, but rather to the way it has been processed and transported inside the network.

Inside these two families, methods have been recently developed, which are particularly accurate, allowing pertinent prediction and estimation of perceived voice quality.

More recently, new approaches have been developed, called “hybrid” because they combine measurement on signal and parametric indications, in particular in the context of voice over IP. The complementarities of signal-based and parametric families of methods make it possible (in theory) to envisage a combination of their respective advantages: accuracy for signal based techniques, and capacity of parametric tools to be implemented without constraint on CPU or on signal decoding. Furthermore, parametric methods bring elements of understanding about the technical underlying causes (e.g. packet losses may explain cuts in the signal).

But all these methods have a common drawback: they do not allow a link between the perceived impairments and their origins. Some academic studies can be quoted on this, but without real result until now. From an operational point of view, this is however the real goal of any assessment technique to find the causes for issues and propose fixes.

PHD objectives / Expected results / Scientific challenges / Key Issues

The basic idea behind this new study is that it is now realistic to envisage providing operational supervision teams with powerful diagnostic tools able to give them an expert view of the perceived voice quality impairments on telephone communications and to troubleshoot these impairments deep in detail.

The objective of this study is therefore the development of such a tool, combining analysis of the audio signal and interpretation of parametric data.

This study will specifically focus on VoIP services and architectures. These are based on IMS solutions (SIP protocol) provided by a few technology vendors to France Telecom/Orange. The extrapolation of the results of this study to general (and even standardisable) rules of diagnostic (in general highly dependent on specific characteristics of services and networks) is not easy to foresee, and therefore we won’t try to work on that direction.

This work will be undertaken in close cooperation with (in a first time) our searchers specialised in the development of algorithms and models for voice signal processing (voice quality measurement, speech coding, voice enhancements) and (afterwards) with operational teams having the knowledge of network equipments characteristics and able to provide data on real incidents necessary to set up diagnostic rules.

Methodological approach proposed by the supervisor

- detection in speech signal of perceived and annoying degradations, classified in general categories:

- determination of more detailed sub-categories (e.g. for noise: distinction according to spectral content and level), linked with known and identified technical causes

The first step is clearly and purely signal processing oriented. We must mention that recent PhD. studies (e.g. M. Wältermann at DT, N. Côté and A. Leman at FT) started this work and already determined degradation categories (for listening-only contexts), as well as first (still perfectible) detection algorithms.

The second step is more the focus of the current study. It will combine the existing algorithms (or enhancements of them) with the analysis of IP parametric information (packet loss ratio and its time repartition, network equipments counters or trouble tickets, measurements performed on terminals, etc.)

Global schedule

- Enhancement of existing algorithms, to allow detection of sub-categories as well as “recognition” of the signature of some signal processing features (noise reduction, coding and transcoding, etc.). This is the hardest and longest part of the study.

- Setting up of diagnostic rules to link these new sub-categories to real technical issues, thanks to a combination of measurements on signal and of parametric data. An expert system based on neuronal networks is foreseen, but other approaches can be envisaged as well.

Additional contributions

%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%

Campagne 2010

Fiche descriptive de la thèse

Encadrant Orange Labs:

Site:

Sujet de la thèse (Titre):

Développement d’une méthode de diagnostic technique des dégradations de qualité vocale perçue des communications téléphoniques à partir d’une analyse du signal de parole

Contexte global de l'étude et état de l'art

L’évaluation de la qualité perçue des communications vocales fait appel à deux familles de techniques assez distinctes :

- Les techniques d’analyse du signal, depuis des mesures simples sur le niveau de signal ou son spectre, jusqu’à des modèles dits psycho-acoustiques, c'est-à-dire combinant analyse du signal et modélisation de la perception et du jugement. Le plus connu de ces modèles est PESQ (UIT-T P.862).

- Les techniques d’interprétation des indicateurs techniques non liés au signal lui-même, mais plutôt à la façon dont il a été traité et transporté par le réseau. On parle alors de méthodes paramétriques.

Dans ces deux familles on a abouti à des méthodes particulièrement précises, permettant désormais de prédire ou d’estimer la qualité perçue de façon pertinente.

Plus récemment, on a vu apparaître des approches hybrides, combinant mesures sur le signal et indications paramétriques, notamment dans le domaine du transport sur IP. La complémentarité des deux approches doit permettre de combiner les avantages des deux familles : la précision des mesures sur le signal, et la capacité des méthodes paramétriques à être utilisées sans contrainte de CPU ou de décodage du signal. Les méthodes paramétriques apportent de plus des éléments de compréhension de défauts techniques (par exemple, une mesure de pertes de paquets pour comprendre des coupures dans le signal).

Toutes ces méthodes ont cependant un défaut : elles ne permettent pas de faire le lien entre une dégradation perçue et sa cause. Quelques études ont commencé à aborder ce lien, mais elles en sont encore à un stade peu avancé. Or, d’un point de vue opérationnel, c’est à cela que doivent avant tout servir des méthodes et outils de mesure de qualité : trouver l’origine des défauts constatés, voire même proposer des actions correctives.

Objectifs de la thèse/ Résultats attendus/ Défis scientifiques/techniques à relever.

L’idée à la base du lancement de cette étude est qu’il est possible et réaliste d’envisager de doter les équipes opérationnelles en charge de superviser les réseaux et services de télécommunications d’outils de diagnostic puissants capables d’expertiser les défauts de qualité perçue sur des communications téléphoniques et d’en déduire les causes techniques sous-jacentes (et a fortiori les solutions à apporter).

L’objectif est donc la réalisation d’un tel outil, combinant analyse du signal audio et interprétation de données paramétriques.

Cette étude sera restreinte aux architectures des réseaux VoIP de France Télécom / Orange, basées sur IMS (protocole SIP), et aux seuls fournisseurs de France Télécom / Orange de ces architectures. . L’extrapolation de ces travaux vers une généralisation des règles de diagnostic (qui seront fortement dépendantes d'architectures particulières) ou la normalisation ne nous semble donc pas aisément envisageable (et pas non plus forcément souhaitable).

Ce travail va être réalisé en étroite collaboration avec (première partie) les chercheurs en charge du développement d’algorithmes et modèles de traitement du signal vocal (mesure de qualité vocale, codage de parole, amélioration du signal), mais aussi (seconde partie) avec les équipes opérationnelles connaissant les équipements du réseau et en mesure de fournir des données réelles d’incidents pour élaborer des règles de diagnostic.

Approche méthodologique proposée par le responsable technique

- la détection dans le signal de parole de dégradations perceptibles et gênantes, parmi des catégories générales :

- la détermination de sous-catégories plus précises (par exemple pour le bruit : distinction du type et de l’amplitude du bruit), liées à des causes techniques prévisibles identifiées.

La première étape est purement axée sur du traitement de signal. Il faut mentionner que des travaux récents (thèses de M. Wältermann à DT, de N. Côté et d’A. Leman à FT) ont bien débroussaillé le terrain (dans le contexte d’écoute, pas en contexte conversationnel, qui reste encore à étudier), puisque les principales dimensions sont connues et que des algorithmes de détection (perfectibles) ont été développés.

- La seconde étape, qui constitue le sujet de cette étude, va combiner ces algorithmes (ou plutôt des raffinements de ces algorithmes) et l’analyse d’informations de type paramétrique IP (taux de pertes de paquets et leur répartition dans le temps, événements sur équipement du réseau et accessibles via des compteurs ou des CDR, résultats de mesures effectués par les terminaux et renvoyés par eux sur le réseau, etc.).

Planning Global du déroulement de la thèse (grandes lignes)

- L’amélioration des algorithmes existants, pour leur permettre de détecter des sous-catégories ainsi que d’être capables de « reconnaître » la signature de certains traitements (notamment : débruitage, codage et transcodage). Il s’agit de la partie la plus ardue et longue de cette étude.

- L’établissement de règles de diagnostic permettant de relier ces sous-catégories à des défauts réels, grâce à une combinaison de mesures sur le signal et d’informations paramétriques. Un système expert basé sur des réseaux de neurones est envisagé, mais d’autres solutions peuvent être imaginées.

Contributions secondaires si prévues (participation à des projets collaboratifs)

Adrien Leman

Orange Labs - Doctorant de l'Unité de R&D

Modélisation et évaluation Objective de la qualité Vocale

FT/RD/TECH/OPERA/MOV

Bat. LD 230
2 avenue Pierre Marzin
22307 Lannion cedex

tél. +33 2 96 05 30 02
adrien.leman@xxxxxxxxxxxxxxxxxx