POUR DIFFUSION IMMÉDIATE, n° 3112

Ce texte est une traduction de la version anglaise officielle de ce communiqué de presse. Il est fourni à titre de référence et pour votre confort uniquement. Pour tout détail ou spécificité, veuillez vous reporter à la version anglaise d'origine. La version anglaise d'origine prime, en cas de divergence.

Mitsubishi Electric crée la première technologie mondiale en temps réel qui sépare et reconstruit les discours simultanés de plusieurs locuteurs enregistrés avec un seul microphone

Technologie de séparation de paroles permise grâce à la méthode d'intelligence artificielle brevetée « Deep Clustering »

Version PDF (PDF:274.9KB)

TOKYO, 24 mai 2017 - Mitsubishi Electric Corporation (TOKYO : 6503) a annoncé aujourd'hui la création de la toute première technologie au monde pouvant séparer, puis reconstruire dans une haute qualité, les paroles simultanées de plusieurs locuteurs inconnus enregistrées en temps réel à l'aide d'un même microphone. Lors des tests, les paroles simultanées de deux et trois personnes ont été séparées avec une qualité atteignant jusqu'à 90 et 80 % respectivement, ce qui représente, selon le groupe, une première mondiale. Cette nouvelle technologie, réalisée à l'aide de la méthode brevetée « Deep Clustering » de Mitsubishi Electric basée sur l'intelligence artificielle (IA), a pour objectif d'améliorer l'intelligibilité des communications vocales et la précision de la reconnaissance automatique de la parole.

Dans le cas de deux locuteurs simultanés, la précision atteinte a dépassé 90 %, un niveau suffisant pour les applications commerciales, comparé aux 51 % atteints à l'aide de technologies traditionnelles. Cette nouvelle technologie est capable de dissocier des combinaisons de plusieurs langues parlées ainsi que le sexe des locuteurs. Les résultats susmentionnés ont été obtenus dans des conditions d'enregistrement idéales, avec notamment un faible niveau de bruit ambiant et un niveau sonore des haut-parleurs relativement similaire.
La technologie de « Deep Clustering » utilise la méthode d'apprentissage profond brevetée de Mitsubishi Electric pour assimiler l'encodage des composants de signaux des données des paroles originales de plusieurs personnes. De cette façon, les composants de signaux appartenant à chaque locuteur se distinguent facilement grâce à leurs encodages. Pour atteindre cet objectif, les encodages sont optimisés de façon à ce que les différents composants de signaux appartenant au même locuteur aient les mêmes encodages, et que ceux associés à différents locuteurs aient des encodages dissemblables. Cette transformation d'encodage assimilée est appliquée à la parole d'entrée, et les encodages des composants de signaux de chaque locuteur sont identifiés à l'aide d'un algorithme de groupement qui rassemble les points de données en groupe selon leurs similarités. Les paroles de chaque personne sont ensuite reconstruites en resynthétisant les composants de parole séparés.

Précision de la séparation de paroles simultanées de plusieurs locuteurs*

  Deux locuteurs (un microphone) Trois locuteurs (un microphone)
Nouvelle technologie >90 % (première mondiale) >80 % (première mondiale)
Technologie traditionnelle 51 %

*Résultats obtenus dans des conditions d'enregistrement idéales